sklearn.feature_extraction.text.CountVectorizer 将搜集到的文本文档数据集转化为单词矩阵的。
aspell -a 表示的是检查单个单词的错误形式的
hasattr 对应的对象中是否含有的属性
re.sub(pattern, repl, text) 用于替换字符的
需要额外下载安装的内容有:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')
python 运行原理
python将.py文件看作为一个module,其中有一个主module作为程序运行的入口的,执行 python demo.py 后,将会启动 Python 的解释器,然后将 demo.py 编译成一个字节码对象 PyCodeObject。这个对象只会存在于内存中的,当模块中的python代码执行完之后就会把编译结果保存到pyc文件中去的,下次就不用编译直接加载到内存中去的,
http://www.cnblogs.com/restran/p/4903056.html
对于aspell出现问题
no word lists can be found for the language "en_US"
从下面网址下载
ftp://ftp.gnu.org/gnu/aspell/dict/en/
tar -xjvf a.tar.bz2来解压缩文件
解压缩并且使用接下来的命令的
./configure
make
make install
zip解压缩
使用 unzip a.zip newDir/
代码错误: essay_set ->util.functions.get_wordnet_sync
ss.lemma_names() 返回的是一个列表的,对应的为一个函数的。
CountVectorizer
三种文本特征提取方法:
tf-idf
word2vec
CountVectorizer: 通过计数来将一个文档转化为向量的
根据语料库中的词频排序选出前n个词的,然后
http://sklearn.apachecn.org/cn/stable/modules/ensemble.html
集成学习:
Gradient Tree Boosting梯度提升回归树是对于任意的可微损失函数的提升算法的优化。
弱分类器的数量是由参数n_estimator来控制的,每个树的大小是由max_depth来设置深度的,
对于拥有大量类别的数据集则使用RandomForestClassifier来替代的而不是GradientBoostingClassifer的
对于回归问题GradientBoostingRegressor是通过默认的最小二乘损失函数的
使用固定大小的决策树作为弱分类器,能在提升过程中变得有价值的,即能处理混合类型和构建具有复杂功能模型的能力
解释一个模型的时候,需要确定重要的特征内容以及如何在预测目标方面产生的积极影响的
在树的分割点钟使用的特征越是频繁的话特征也就是越重要的
对于一个训练好的模型其对应的特征重要性分数是可以通过属性 feature_importances_来进行查看的
确实是会有着很多的分类器的,但同时每个分类器中也是针对这不同的特征来进行的选择的,这些可能会很重要的特征可能会在预测结果上具有着很大的优势的
部分依赖图PDP是 目标响应和一系列目标特征的依赖关系,同时边缘化其他所有的特征值的
fisher中的pvalue使用:
接受4个值是2*2的表返回left_tail, right_tail, two_tail
P值是一种在原假设为真的条件下出现观察样本更极端情况下的概率的
https://blog.csdn.net/wenyusuran/article/details/43406795
显著性检验使得满足刚好是落在这段空间内的,由小到大取得较小值的