python对文档批量分词再分别存在不同的txt中

# -*- coding:utf-8 -*-

import codecs

import os

import shutil

import jieba

import jieba.analyse

#Read file and cut

#create path

path ="E:\\python\\"

respath ="E:\\fc\\"

if os.path.isdir(respath):

shutil.rmtree(respath, True)

os.makedirs(respath)

stopwords = {}.fromkeys([line.strip()for linein open("E:\\哈工大停用词表.txt")])#导入用户自定义词典

num =1

while num<=2:

name ="%d" % num

fileName = path + str(name) +".txt"

    resName = respath + str(name) +".txt"

    source = open(fileName, 'r')

if os.path.exists(resName):

os.remove(resName)

result = codecs.open(resName, 'w', encoding='utf-8')

lines = source.readlines()

for linein lines:

line = line.rstrip('\r\n')

seglist = jieba.cut(line,cut_all=False)#精确模式

        output=''

        for segin seglist:

if segnot in stopwords:#去停用词

                if len(seg)>1:#去掉分词为1个字的结果

                    output += seg

output +=' '

        print (output)

result.write(output)

line = source.readline()

else:

print ('End file: ' + str(num))

source.close()

result.close()

num = num +1

else:

print ('End All')

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.安装及入门介绍 推荐直接 pip install jieba 结巴中文分词涉及到的算法包括: (1)基于Tri...
    MiracleJQ阅读 14,520评论 0 5
  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 9,735评论 1 12
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 13,143评论 0 13
  • 当今时代飞速发展,不但男人忙,女人也忙。领导布置的工作,我们忙上忙下的完成,不去总结,不去计划那我们就是在瞎忙。 ...
    a白兰阅读 1,209评论 0 0
  • 等着高考成绩选择学校专业 毕业前的种种打算泡汤 四人团体变为三人 自己因...
    北方飞鸟阅读 1,215评论 0 2