《穷爸爸富爸爸》系列1

从网上下载了篇《穷爸爸富爸爸》电子书,想分析下哪些词汇出现次数多,做了以下尝试:

import jieba
import pandas as pd
file = open('D:/z/穷爸爸富爸爸.txt')
raw = file.read()
print(raw.find('序言'))
print(raw.rfind('后记'))
raw1 = raw[1971:115607].strip('\n')
lines = raw1.split('\n')
wd_list = []
for line in lines:
    words = jieba.cut(line)
    for w in words:
        print(w)
        wd_list.append(w)
a = wd_list.count('成绩') #出现的次数15次
b = 100*a/len(wd_list) #在文本中的百分比2.05%
def word_count(word,list):
    return list.count(word)
def word_percent(word,list):
    return round(100*list.count(word)/len(list),5)
word_count('我们',wd_list)
word_percent('我们',wd_list)

word_count('理财',wd_list)
word_percent('理财',wd_list)

word_count('成绩',wd_list)
word_percent('成绩',wd_list)
word_s = set(wd_list)
print(word_s)
print(len(word_s))
for word in word_s:
    print(word)
c_ = []
p_ = []
w_ = []
for word in word_s:
    count = word_count(word,wd_list)
    percent = word_percent(word,wd_list)
    c_.append(count)
    p_.append(percent)
    w_.append(word)
data = pd.DataFrame({'word':w_,'count':c_,'percent':p_})
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 感谢清崎老师与编辑的合力出版,这本书的确对我们的认知会产生很大的改变。 【本书作者】罗伯特·T·清崎 莎伦·...
    文羽墨阅读 6,013评论 0 25
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,638评论 25 709
  • 南希。麦克威廉斯 1:首先作者一直强调一个理念,对于临床的治疗师而言,想要有好的疗效,了解患者远比掌握某种治疗技术...
    ppprague阅读 282评论 0 0
  • 坚持其实很简单,只要想做就可以了。
    瑕_d67b阅读 84评论 0 0
  • 自从去年大学毕业之后,离开了学校离开了书本。出来工作就很少再正正经经的看过一本书了,今年4月份之前,每天下班回去不...
    茶小幂阅读 2,976评论 2 2