登录注册写文章

python对文档批量分词再分别存在不同的txt中

因为碰见了卖西瓜的

python对文档批量分词再分别存在不同的txt中

# -*- coding:utf-8 -*-

import codecs

import os

import shutil

import jieba

import jieba.analyse

#Read file and cut

#create path

path ="E:\\python\\"

respath ="E:\\fc\\"

if os.path.isdir(respath):

shutil.rmtree(respath, True)

os.makedirs(respath)

stopwords = {}.fromkeys([line.strip()for linein open("E:\\哈工大停用词表.txt")])#导入用户自定义词典

num =1

while num<=2:

name ="%d" % num

fileName = path + str(name) +".txt"

resName = respath + str(name) +".txt"

source = open(fileName, 'r')

if os.path.exists(resName):

os.remove(resName)

result = codecs.open(resName, 'w', encoding='utf-8')

lines = source.readlines()

for linein lines:

line = line.rstrip('\r\n')

seglist = jieba.cut(line,cut_all=False)#精确模式

output=''

for segin seglist:

if segnot in stopwords:#去停用词

if len(seg)>1:#去掉分词为1个字的结果

output += seg

output +=' '

print (output)

result.write(output)

line = source.readline()

else:

print ('End file: ' + str(num))

source.close()

result.close()

num = num +1

else:

print ('End All')

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

jieba python中文分词库快速入门
1.安装及入门介绍推荐直接 pip install jieba 结巴中文分词涉及到的算法包括： (1)基于Tri...
MiracleJQ阅读 14,520评论 0赞 5
jieba分词模块学习
jieba分词，学习，为了全面了解该模块，，预设学习路线：官方文档——优秀博客文章——实践学习官方文档部分（文...
竹林徒儿阅读 9,735评论 1赞 12
pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 13,143评论 0赞 13
男人的哲学有感
当今时代飞速发展，不但男人忙，女人也忙。领导布置的工作，我们忙上忙下的完成，不去总结，不去计划那我们就是在瞎忙。 ...
a白兰阅读 1,209评论 0赞 0
没有睡意的晚上
等着高考成绩选择学校专业毕业前的种种打算泡汤四人团体变为三人自己因...
北方飞鸟阅读 1,215评论 0赞 2

赞1赞

赞赏

手机看全文