2017.11.1学习心得

python输出转中文字符(utf-8)

python2.7在window上的编码确实是个坑啊


解决如下 :
如果是个字典的话要先将其转成字符串 导入json库
然后 这么输出(json.dumps(data).decode("unicode-escape"))
其中data填入你想要输出的中文变量
一个例子:

# -*- coding: UTF-8 -*-

import jieba.posseg as pseg
import os
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import json

# words = pseg.cut("对这句话进行分词")
#
# for key in words:
#     print key.word,key.flag

words =["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门",
        "今天 天气 不错"]

vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(words))
#后面的——将文本转化为词频矩阵,前面的——计算tf-idf

word= vectorizer.get_feature_names()
weight = tfidf.toarray()

print word
print weight

for i in range(len(weight)):#打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重
        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"
        for j in range(len(word)):
            print word[j],weight[i][j]

print (json.dumps(vectorizer.get_feature_names()).decode("unicode-escape"))


    #文档预料 空格连接  
    corpus = []  
      
    #读取预料 一行预料为一个文档  
    for line in open('01_All_BHSpider_Content_Result.txt', 'r').readlines():  
        #print line  
        corpus.append(line.strip())  
    #print corpus  

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 12,899评论 0 13
  • 可以看我的博客 lmwen.top 或者订阅我的公众号 简介有稍微接触python的人就会知道,python中...
    ayuLiao阅读 8,514评论 1 5
  • 文章介绍 用Python2.+版本在控制台打印中文如何不会乱码,一直是困扰很多Pythoner的问题,换成Pyth...
    westolife阅读 1,837评论 0 0
  • 常用 提高python编码效率 赋值 列表推导式 列表解析表达式,类似[i*2 for i in list] 三元...
    今夕何夕_walker阅读 4,114评论 0 1
  • 说明:本文是我在readthedocs看到的,觉得很不错所以转载过来,有删改,原文地址点这里。 实用Unicode...
    aurora阅读 4,578评论 0 6

友情链接更多精彩内容