特征工程

1.特征提取 :

计数向量器(Countvectorizer)

词频-逆向文件频率(TF-IDF)

词转向量(Word2Vec)           

2.特征转换 :

连续型数据转换成离散数据、

字符串和索引相互转换

正则化(Normalizer)

规范化(StandardScaler)

主成分分析 (PCA)

向量-索引变换(VectorIndexer)

SQL转换器(SQLTransformer)       

独热编码(OneHotEncoder)

最大值-最小值缩放(MinMaxScaler)

特征向量合并(VectorAssembler)       

 3.特征选择:

向量机(VectorSlicer)

R公式(RFormula)

卡方特征选择(ChiSqSelector)**

关键词:spark ml、代码、Scala、特征工程、例子demo

由于上传图片大小限制,思维导图未展开,请移步详细

https://mm.edrawsoft.cn/map.html?sharecode=601b7eb0651728a45746832


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容