这两天一直在跟着professor Lei学Python,由于课程讲解是以实际的商务应用为基础的,所以,内容讲得倒是不枯燥,很有趣。今天professor Lei讲到如何使用Python来进行自然语言的分词处理。由于只学到如何分词,还没有学如何去停止词以及如何添加本地词库,所以,今天记录一下学到的技能。
内容:构建中文分词类。
要求:1.实现中文分词;2.统计词频,并降序排列
基本思路:1.该类中有两个方法:中文分词(cut),返回分词列表;2.词频统计(mum),返回”关键词-词频“列表;2.再构造方法”__init__()”中对字符串赋值。
利用以上的内容,随手从网上抓取了一段文字进行练习。内容为:“为国家谋发展,为人民谋幸福,习近平总书记提醒我们始终要有一种“等不起”的紧迫感和“慢不得”的危机感。 在抗击疫情的关键阶段,习近平总书记启动了争分夺秒的中国加速度。他反复强调,同时间赛跑,与病魔较量。 当时间进入脱贫攻坚收官之年,习近平已在多个场合发出冲锋号令,表明坚决打赢脱贫攻坚战的决心。在3月6日召开的决战决胜脱贫攻坚座谈会上,他亲自数算着时间:“今年满打满算还有不到10个月的时间,按日子算就是300天……” 时间不等人,分分秒秒都很珍贵。 第二季度,是抢时间、赶进度、补损失的关键时期。只有千方百计把落下的进度赶回来,把疫情造成的损失夺回来,才能确保各项目标任务如期完成。 直面挑战、迅速行动;必须尽早再动员、再部署;复工复产提速扩面;生产生活秩序加快恢复……习近平总书记以超乎寻常的紧迫感和时间感指导工作,目标就是要把“失去的时间夺回来”。 奋力追赶,但脱贫的成色不能减,经济社会发展的质量不能降。 中国人民就是在追赶时间中不断创造历史的。习近平总书记坚定表示,“我们必须同时间赛跑、同历史并进。”“我们必须走在时间前面”。 ”练习的结果如下:
[(',', 17),
('的', 15),
('。', 12),
('时间', 11),
('“', 6),
('习近平', 5),
('”', 5),
('在', 5),
('、', 5),
('总书记', 4),
('脱贫', 4),
('…', 4),
('我们', 3),
(' ', 3),
('同', 3),
('就是', 3),
('把', 3),
(';', 3),
('必须', 3),
('为', 2),
('人民', 2),
('要', 2),
('等', 2),
('紧迫感', 2),
('和', 2),
('疫情', 2),
('中国', 2),
('他', 2),
('赛跑', 2),
('攻坚', 2),
('月', 2),
('进度', 2),
('损失', 2),
('夺回来', 2),
('目标', 2),
('再', 2),
('追赶', 2),
('不能', 2),
('历史', 2),
('国家', 1),
('谋发展', 1),
('谋', 1),
('幸福', 1),
('提醒', 1),
('始终', 1),
('有', 1),
('一种', 1),
('不起', 1),
('慢', 1),
('不得', 1),
('危机感', 1),
('抗击', 1),
('关键', 1),
('阶段', 1),
('启动', 1),
('了', 1),
('争分夺秒', 1),
('加速度', 1),
('反复强调', 1),
('与', 1),
('病魔', 1),
('较量', 1),
('当', 1),
('进入', 1),
('收官', 1),
('之', 1),
('年', 1),
('已', 1),
('多个', 1),
('场合', 1),
('发出', 1),
('冲锋', 1),
('号令', 1),
('表明', 1),
('坚决', 1),
('打赢', 1),
('攻坚战', 1),
('决心', 1),
('3', 1),
('6', 1),
('日', 1),
('召开', 1),
('决战', 1),
('决胜', 1),
('座谈会', 1),
('上', 1),
('亲自', 1),
('数算', 1),
('着', 1),
(':', 1),
('今年', 1),
('满打满算', 1),
('还有', 1),
('不到', 1),
('10', 1),
('个', 1),
('按', 1),
('日子', 1),
('算', 1),
('300', 1),
('天', 1),
('不', 1),
('人', 1),
('分分秒秒', 1),
('都', 1),
('很', 1),
('珍贵', 1),
('第二季度', 1),
('是', 1),
('抢', 1),
('赶', 1),
('补', 1),
('关键时期', 1),
('只有', 1),
('千方百计', 1),
('落下', 1),
('赶回来', 1),
('造成', 1),
('才能', 1),
('确保', 1),
('各项', 1),
('任务', 1),
('如期完成', 1),
('直面', 1),
('挑战', 1),
('迅速行动', 1),
('尽早', 1),
('动员', 1),
('部署', 1),
('复工', 1),
('复产', 1),
('提速', 1),
('扩面', 1),
('生产', 1),
('生活', 1),
('秩序', 1),
('加快', 1),
('恢复', 1),
('以', 1),
('超乎寻常', 1),
('感', 1),
('指导', 1),
('工作', 1),
('失去', 1),
('奋力', 1),
('但', 1),
('成色', 1),
('减', 1),
('经济社会', 1),
('发展', 1),
('质量', 1),
('降', 1),
('中', 1),
('不断', 1),
('创造', 1),
('坚定', 1),
('表示', 1),
('并进', 1),
('走', 1),
('前面', 1)]
由以上的结果可知,这里面还有很多没有实际意义的词语和标点符号,所以,如果要想把抓取的内容为自己所用,除了把没有实际意义的词和标点符号排除在统计结果之外,还需要自己建立一个本地词库,用于存储一些自己有特殊用处且不想被拆分的词,比如一些特殊名称等,因此,以上的结果并不满意。
后续,将继续学习中文分词、词频统计以及排序和词云等使用。