DGB特征工程笔记

Code: https://github.com/SimonLliu/DGB_AlphaTeam

在本次比赛中，由于是采用传统模型的原因，特征工程占的比重较重，几乎占了比赛全部时间的70%。

采用的方法主要有如下：

1、经典文本特征

CountVectorizer、TfidfVectorizer、HashingVectorizer、Doc2Vec

2、用模型提取特征

LR提取重要特征、SVM提取重要t特征

3、特征降维

LSA特征降维、LDA特征降维（降维时间太长，放弃）

4、不同特征提取方法的组合、拼接

一、CountVectorizer

1、使用方法

官方文档：class sklearn.feature_extraction.text.CountVectorizer

(input=’content’, encoding=’utf8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range(1, 1), analyzer=’word’,

max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.int64’>)

核心参数：

1） ngram_range：词组切分的长度范围，划分了计算词频用的相邻的词的数量，

在本次比赛中选用了（1，1）（1，2）（1，3）（1，4）四个参数来提取特征，ngram_range的范围越大，提取时间越长，且时间增长非线性，建议若若数据量过大，不宜超过（1，3）

2） max_df：可以设置为范围在[0.0 1.0]的float，也可以设置为没有范围限制的int，默认为1.0，含义为大于某一限度的词频忽略。

在比赛中试了不同的值，包括0.8、0.9、0.99，建议选择0.9，结果表现较好

3） min_df：可以设置为范围在[0.0 1.0]的float，也可以设置为没有范围限制的int，默认为1.0，含义为小于某一限度的词频忽略。

在比赛中同样试了不同的值，包括0.01、0.1、3、5、10等，最终结果认为3较好

2、原理分析：

旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer可作为Estimator来提取词汇，并生成一个Countvectorizermodel。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法如LDA。

由图可知，经过统计文章的词频，会生成一个三值向量，第一个值代表不同词的数量，第二个值对不同的词进行标记，第三个值为词频列表。

二、TfidfVectorizer

1、使用方法

官网文档：class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1,

max_features=None, vocabulary=None, binary=False, dtype=<class ‘numpy.int64’>, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)

核心参数：

1） ngram_range：同上

2） max_df：同上

3） min_df：同上

2、原理分析

我们需要一个重要性权值调整参数，来衡量一个词是不是常见词。因为不常见的词出现的频率越高，显然重要性越大，增加权重调整参数。

这个权重调整参数就是“逆文档频率”（IDF，Inverse Document Frequency），它的大小与一个词的常见程度成反比。

知道了 TF 和 IDF 以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。如果用公式来表示，则对于某个特定文件中的词语 titi 而言，它的 TF 可以表示为：

其中 ni,j 是该词在文件 dj中出现的次数，而分母则是文件 dj 中所有词汇出现的次数总和。

某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数即可：

其中，|D|是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目（即 ni,j≠0 的文件数目）。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用 1+|{j:ti∈dj}。

最后，便可以来计算 TFTF-IDF(t)=TF(t)×IDF(t)IDF(t)=TF(t)×IDF(t)。

三、HashingVectorizer

1、使用方法

官方文档：class sklearn.feature_extraction.text.HashingVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), analyzer=’word’, n_features=1048576, binary=False, norm=’l2’, alternate_sign=True, non_negative=False, dtype=<class ‘numpy.float64’>)

核心参数：

ngram_range：同上

n_features：输出矩阵的列数，比赛中选用200，特征较小，大概为300M

2、原理分析

https://blog.csdn.net/mbx8x9u/article/details/78801282

四、Doc2Vec

1、使用方法（参考了Jian老师的代码）

from gensim.models.doc2vec import Doc2Vec, TaggedDocument

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(texts)]

model = Doc2Vec(documents, vector_size=200, window=5, min_count=3, workers=4, epochs=25)

docvecs = model.docvecs

x_train = []

for i in range(0, 102277):

x_train.append(docvecs[i])

x_train = np.array(x_train)

x_test = []

for j in range(102277, 204554):

x_test.append(docvecs[j])

x_test = np.array(x_test)

2、原理分析

https://blog.csdn.net/Walker_Hao/article/details/78995591

五、利用模型提取特征

from sklearn.feature_selection import SelectFromModel

slt = SelectFromModel(lsvc, prefit=True)

x_train_s = slt.transform(x_train)

x_test_s = slt.transform(x_test)

SelectFromModel 是一个通用转换器,其需要的Model只需要带有conef_或者feature_importances属性,那么就可以作为SelectFromModel的Model来使用. 如果相关的coef_ 或者 featureimportances 属性值低于预先设置的阈值，这些特征将会被认为不重要并且移除掉。除了指定数值上的阈值之外，还可以通过给定字符串参数来使用内置的启发式方法找到一个合适的阈值。可以使用的启发式方法有 mean 、 median 以及使用浮点数乘以这些（例如，0.1*mean ）。

https://blog.csdn.net/fontthrone/article/details/79064930

六、LSA特征降维

from sklearn.decomposition import TruncatedSVD

lsa = TruncatedSVD(n_components=200)

https://blog.csdn.net/mmc2015/article/details/46867773

核心问题在于奇异值分解，TruncatedSVD是SVD的变形，只计算用户指定的最大的K个奇异值，直接处理样本矩阵X

LSA降维后，特征大小大概在300M-500M

七、LDA特征降维

from sklearn.decomposition import LatentDirichletAllocation

lda = LatentDirichletAllocation(n_components=200)

x_train = lda.fit_transform(x_train)

https://blog.csdn.net/aws3217150/article/details/53840029

在这做两篇文章的记录：

《LDA数学八卦》

《Parameter estimation for text analysis》

八、不同特征提取方法的组合、拼接

1、将article和word_segment直接拼接。

article是达观数据提供的字符数据集，word_segment是达观数据提供的词数据集。

在首先尝试的时候，分别用Tf-idf提取特征，用线性模型svm和lr进行训练，结果都在0.76-0.776之间。

后思考到能否直接扩充训练数据集，遂将article和word_segment直接拼接。

df_train["word_seg"] = df_train["article"].map(str) + df_train["word_seg"].map(str)

df_test["word_seg"] = df_test["article"].map(str) + df_test["word_seg"].map(str)

在队友的服务器支持下，将 ngram_ranged调到1-4，训练时间大概将近一天，模型25GB,特征也有十几GB，测试结果达到了0.779

2、将article/word_segment的Hash、tf、doc2vec拼接

考虑到tf-idf的特征太大，遂不将tf-idf与其他特征融合

拼接的过程是先将hash、doc2vec转换成稀疏矩阵，再与tf-idf拼接

"""将numpy 数组转换为 csr稀疏矩阵"""

x_train_1 = sparse.csr_matrix(x_train_1)

x_test_1 = sparse.csc_matrix(x_test_1)

x_train_2 = sparse.csr_matrix(x_train_2)

x_test_2 = sparse.csc_matrix(x_test_2)

x_train_3 = sparse.csr_matrix(x_train_3)

x_test_3 = sparse.csc_matrix(x_test_3)

x_train_4 = sparse.csr_matrix(x_train_4)

x_test_4 = sparse.csc_matrix(x_test_4)

"""读取tf特征"""

#f_tfidf = open('./data_tf_article.pkl', 'rb')

#x_train_3, _, x_test_3= pickle.load(f_tfidf)

#f_tfidf.close()

"""对稀疏矩阵进行合并"""

x_train_5 = hstack([x_train_1, x_train_2])

x_test_5 = hstack([x_test_1, x_test_2])

x_train_6 = hstack([x_train_5, x_train_3])

x_test_6 = hstack([x_test_5, x_test_3])

x_train_7 = hstack([x_train_6, x_train_4])

x_test_7 = hstack([x_test_6, x_test_4])

3、将从article_tf-idf中利用svm挑选出来的特征与将从word_segment_tf-idf中利用lr挑选出来的特征拼接

4、将从article_tf-idf中利用lr挑选出来的特征与将从word_segment_tf-idf中利用svm挑选出来的特征拼接

DGB特征工程笔记