登录注册写文章

[機器學習]特徵提取(feature extraction)

[機器學習]特徵提取(feature extraction)

特徵提取(feature extraction)

特徵提取將機器學習算法不能識別的原始數據轉化為算法可以識別的特徵，特徵萃取的目的，主要是讓我們能夠利用這些特徵對物件種類進行判別，常用於圖像識別、語意辨識等等...。

類別特徵(Category feature)

常見非數值資料就是分類(categorical)資料，資料是離散的，例如性別:男、女，職業:醫生、護士、司機、工程師...等，我們通常會將他轉為ont-hot-encoding形式。

pandas
pandas.get_dummies

categorical

one-hot-encoding
sklearn
sklearn.feature_extraction.DictVectorizer

sklearn.preprocessing.OneHotEncoder
sklearn.compose.ColumnTransformer

文字特徵

常見的文字特徵如一篇文章或一句句子，我們提取成Bag-of-words或者word embedding。

Bag-of-words
Bag-of-words是將一整篇文章或句子將所有出現過的詞都裝進一個Bag中(詞表)，然後依據這個詞表我們可以將另一句句子或另一篇文章轉換成詞向量(沒見過得詞可以在詞表中添加一個其他(other)來表示。

Bag-of-words

TF-IDF
sklearn_TF-IDF
Bag-of-words的方法會導致太多權重被放在高頻的詞上，而可以使用TF-IDF算法來改善這個問題。

維基百科TF-IDF的例子:
有很多不同的數學公式可以用來計算tf-idf。詞頻（tf）是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該檔案中的詞頻就是3/100=0.03。而計算檔案頻率（IDF）的方法是以檔案集的檔案總數，除以出現「母牛」一詞的檔案數。所以，如果「母牛」一詞在1,000份檔案出現過，而檔案總數是10,000,000份的話，其逆向檔案頻率就是lg（10,000,000 / 1,000）=4。最後的tf-idf的分數為0.03 * 4=0.12。

sklearn.feature_extraction.text.TfidfTransformer
將Bag-of-words後的詞向量，轉換成TF-IDF。
sklearn.feature_extraction.text.TfidfVectorizer
將文檔、句子轉換成TF-IDF。

word embedding

影像特徵

最簡單的就是我們把圖像的像素看做一個矩陣，甚至可以把它flatten降成一維。

sklearn.feature_extraction.image.extract_patches_2d
對影像進行隨機裁剪，也可視作一種數據增強，例如我們要進行卷積時，圖像太大直接裁剪可能會破壞了訊息，就可以使用這種隨機裁剪方式，在每次訓練時進隨機裁剪，而每次迭代都取道不同的位置，同時可以縮減數據尺寸又能增強數據。
sklearn.feature_extraction.image.extract_patches_2d
HOG
HOG原理与OpenCV实现
 圖像特徵提取三大法寶：HOG特徵，LBP特徵，Haar特徵
 深度学习----CNN的图像学习之HOG(方向梯度直方图)详解
 skimage.feature.hog

缺省處理跟管線應用

缺省處理

numpy
pandas
sklearn
sklearn.impute.SimpleImputer

特徵管線

sklearn.pipeline

最后编辑于：2019.03.28 05:25:52

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

[機器學習]特徵選擇(feature selection)
特徵選擇與降維差異知乎回答的說明:數據降維，一般說的是維數約簡（Dimensionality reduction...
RJ阿杰阅读 3,754评论 0赞 1
Data Trip - Line Bot 機器人進化吧！
我的 Line Bot 很認真的幫我們服務了數個月，舉凡提醒下班，休息，中午吃飯到提醒我們高尚的會計小姐該作些什麼...
zach14c阅读 1,644评论 0赞 2

【TODO】【scikit-learn翻译】4.2.3Text feature extraction
4.2.3. Text feature extraction 4.2.3.1. The Bag of Words ...
cuizixin阅读 1,059评论 0赞 1
隨筆1-24
隨筆1-24（2015.6-10） 1、作者才華不是財富，痛苦不是財富，用才華對痛苦進行思考和表達才是。於是有了...
四葉阅读 1,645评论 3赞 14
设计师技能树 | 鲜花鹿角
Elkebana的鲜花鹿角不易保存的蒲公英将它小心翼翼的保存进珠宝里面让它绽放的美变为永恒只需要两条棉花 ...
设计师技能树阅读 508评论 2赞 3

友情链接更多精彩内容

4赞5赞

手机看全文