对于数据集3,4,5,6会存在大量为0的情况的原因为:
因为这个数据集中存在大量的原文并且是对文章进行改写的,从而会存在大量的重复情况的,因此可能与原文重复的过多直接被判定为抄袭的。
同时可以关注到数据集整体打分偏低的,因此使用round()函数来对原函数进行取整的,并且考虑LR单独计算时的coef与原来值的乘积的结果也是有着区别的
文件读入错误:
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence
则使用 open('a.txt','r',encoding='utf-8')
或者使用 open('a.txt','rb')
Python读取文件UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte
将encoding='utf-8'改为gbk
如果仍旧出错的话则使用:
file=open(filename,'r',encoding='gb18030',errors='ignore')
忽略所对应的可能错误的
在得到clean_text的时候需要使用到strip()这个函数来去掉字符中最后的空格部分内容
在使用 sklearn.ensemble.GradientBoostingClassifier时候所对应的参数名称是 learning_rate
出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0
解决办法:
对于csv文件,右键打开方式为记事本,然后选择另存为,其中文件的默认编码格式为ANSI,选择下拉为UTF8的格式并且重新保存即可的
可以使用pd.read_csv(sep='\t') 来读取tsv文件的,tsv文件使用的是制表符的
pandas的to_csv中文输出是乱码的:
利用encoding="utf_8_sig"
文件开头没有BOM的
read_csv读取文件的默认格式是utf-8的,但csv文件不支持utf-8的
csv文件以正常数据保存时为乱码的
gb2312 解决文件内容本身含有中文问题
gbk 支持繁体中文和日文
gb18030 更多的
会存在着各种有干扰性的字符,对于这些字符的话因为在tsv文件中也是存在的,因此可以忽略掉的
在转换csv文件的时候发现有空行,空格等内容的,则利用notepad++对于其进行内容上的替换
有的在行转换的过程中会出现问题的
centos添加用户
adduser guest
passwd guest123
chmod -R 755 目录
ssh: connect to host github.com port 22: Network is unreachable
https://www.cnblogs.com/simonbaker/p/7191260.html
ssh -T git@github.com
行不通时考虑使用https来克隆代码的
如果不是自己的库想要使用代码的时候则需要先fork然后再pull request的
使用numpy来保证中间输出结果时:
TypeError: Mismatch between array dtype (‘object’) and format specifier (‘%.18e’)
np.savetxt(‘foo.csv’,uni,delimiter=’,’ fmt = ‘%s’)
也可能是多维数组或者是数据格式出现错误的问题的,针对维度太大的话就降维之后再次保存处理的。