Python 语料库的搭建

语料库就是我们要分析文件的合计。

语料库构建

http://blog.csdn.net/happylife_haha/article/details/44566975

构建方法:

os.walk(fileDir)

fileDir 文件夹路径

文件读取:

codecs.open(filePath, method, encoding)

filePath 文件路径

method 打开方式,r 读, w 写, rw 读写;

encoding 文件的编码,打开方式UTF-8。

# -*- coding: utf-8 -*-

import os

import os.path

#导入OS模块

#定义

filePaths = []

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

for name in files:

filePaths.append(os.path.join(root, name))


import codecs

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

#遍历目录下所有的文件,

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);


#只读文件

f = codecs.open(filePath, 'r', 'utf-8')#打开文件

fileContent = f.read()

f.close()#关闭文件

fileContents.append(fileContent)


#构建语料库

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

})


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 中文分词: 我的家乡可以分为 我 的 家乡 停用词 数据处理,需要过来的词语和子 如web,网址等 语气助词、副词...
    正在充电Loading阅读 755评论 0 0
  • 可以看我的博客 lmwen.top 或者订阅我的公众号 简介因为公司项目的原因,最近花了点时间去研究NLP自然...
    ayuLiao阅读 3,677评论 0 3
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,537评论 0 17
  • 那天在微博上忽然看到了关于慰安妇的一个小片段,随后我在评论里得知是一部影片《二十二》,那时电影还未上映,不...
    夏栀lylj阅读 201评论 0 0
  • 有时候提笔想起什么,拼命想抓住,可是回头再看,想选个合适的题目的时候,都是觉得太过牵强,表达不了大多内容。这并不像...
    璐璐1阅读 457评论 0 0