1.特征提取 :
计数向量器(Countvectorizer)
词频-逆向文件频率(TF-IDF)
词转向量(Word2Vec)
2.特征转换 :
连续型数据转换成离散数据、
字符串和索引相互转换
正则化(Normalizer)
规范化(StandardScaler)
主成分分析 (PCA)
向量-索引变换(VectorIndexer)
SQL转换器(SQLTransformer)
独热编码(OneHotEncoder)
最大值-最小值缩放(MinMaxScaler)
特征向量合并(VectorAssembler)
3.特征选择:
向量机(VectorSlicer)
R公式(RFormula)
卡方特征选择(ChiSqSelector)**
关键词:spark ml、代码、Scala、特征工程、例子demo
由于上传图片大小限制,思维导图未展开,请移步详细
https://mm.edrawsoft.cn/map.html?sharecode=601b7eb0651728a45746832