代码调试

对于数据集3,4,5,6会存在大量为0的情况的原因为:
因为这个数据集中存在大量的原文并且是对文章进行改写的,从而会存在大量的重复情况的,因此可能与原文重复的过多直接被判定为抄袭的。

同时可以关注到数据集整体打分偏低的,因此使用round()函数来对原函数进行取整的,并且考虑LR单独计算时的coef与原来值的乘积的结果也是有着区别的

文件读入错误:
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence
则使用 open('a.txt','r',encoding='utf-8')
或者使用 open('a.txt','rb')

Python读取文件UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte
将encoding='utf-8'改为gbk

如果仍旧出错的话则使用:
file=open(filename,'r',encoding='gb18030',errors='ignore')
忽略所对应的可能错误的

在得到clean_text的时候需要使用到strip()这个函数来去掉字符中最后的空格部分内容
在使用 sklearn.ensemble.GradientBoostingClassifier时候所对应的参数名称是 learning_rate

出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0
解决办法:
对于csv文件,右键打开方式为记事本,然后选择另存为,其中文件的默认编码格式为ANSI,选择下拉为UTF8的格式并且重新保存即可的

可以使用pd.read_csv(sep='\t') 来读取tsv文件的,tsv文件使用的是制表符的

pandas的to_csv中文输出是乱码的:
利用encoding="utf_8_sig"

文件开头没有BOM的
read_csv读取文件的默认格式是utf-8的,但csv文件不支持utf-8的
csv文件以正常数据保存时为乱码的

gb2312 解决文件内容本身含有中文问题
gbk 支持繁体中文和日文
gb18030 更多的

会存在着各种有干扰性的字符,对于这些字符的话因为在tsv文件中也是存在的,因此可以忽略掉的
在转换csv文件的时候发现有空行,空格等内容的,则利用notepad++对于其进行内容上的替换
有的在行转换的过程中会出现问题的

centos添加用户
adduser guest
passwd guest123

chmod -R 755 目录

ssh: connect to host github.com port 22: Network is unreachable
https://www.cnblogs.com/simonbaker/p/7191260.html

ssh -T git@github.com
行不通时考虑使用https来克隆代码的
如果不是自己的库想要使用代码的时候则需要先fork然后再pull request的

使用numpy来保证中间输出结果时:
TypeError: Mismatch between array dtype (‘object’) and format specifier (‘%.18e’)
np.savetxt(‘foo.csv’,uni,delimiter=’,’ fmt = ‘%s’)

也可能是多维数组或者是数据格式出现错误的问题的,针对维度太大的话就降维之后再次保存处理的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容