240 发简信
IP属地:陕西
  • 解决Flume采集数据时在HDFS上产生大量小文件的问题

    https://blog.csdn.net/whdxjbw/article/details/80606917[https://blog.csdn...

  • HIve 配置LZO压缩

    1.下载lzo源码包,然后进行编译,下载lzo的源码包地址https://github.com/twitter/hadoop-lzo/tree/...

  • 操作符&模式匹配和样例类

    1、操作符通常用来构建领域特定语言-内嵌在scala的迷你语言。隐试转换是另一个我们在创建领域特定语言时的工具。2、中置操作符是二元的-它有两个...

  • PCA 主成分分析

    主成分根据,多维字段分析降维成几个成分 多维数组降维 几个特征向量对应几个特征空间

  • 数据特征分析

    ①分布分析:基本分析、数据分析、统计量、结构分析② 绝对数比较-差、相对数比较-相除 空间结构比较:时间相同的情况下,横向对比分析。动态分析对比...

  • ROC曲线和AUC面积

    AUC 是一个模型评价指标:只能用于二分类模型的评价。AUC的计算同时考虑了正比例和负比例的,在样本不均衡的情况下,依然能够对分类器做出合理的评...

  • dataframe 设置 DF() schema

    val colName = Array("a","b","c")resultDF.toDF(colName:_*)

  • Python中的TfidfVectorizer解析

    vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transforme...