Python一些库的基本使用

python一些库的基本使用

一. jieba库
安装:pip install jieba

  1. 中文分词

    • 利用一个中文词库,确定中文字符之间的关联概率
    • 中文字符间概率大的组成词组,形成分词结果
    • 除了分词,用户还可以添加自定义的词组(如:司马相如等等这类人名或者专有名词)
  2. 三种模式

    • 精确模式:把文本精确的切分开,不存在冗余单词
    • 全模式:把文本中所有可能的词语都扫描出来,有冗余
    • 搜索引擎模式:在精确模式基础上,对长词再次切分
```
jieba.lcut(s)    精确模式,返回一个  列表  类型的分词结果
jieba.lcut("中国是一个伟大的国家") 
['中国', '是', '一个', '伟大', '的', '国家']
```

二. wordcloud库
掌握词云 能够 快速找出 关键信息
安装:pip install wordcloud

  1. 生成词云


    grwordcloud.png
  2. 基本使用:
    wordcloud库把词云当作一个WordCloud对象

    • wordcloud.WordCloud()代表一个文本对应的词云
    • 可以根据文本中词语出现的频率等参数绘制词云
    • 词云的绘制形状尺寸颜色都可以设定,如上如的形状是长方形,但是可以改为中国地图的轮廓图
  3. 常规方法:

    • 以WordCloud对象为基础

    • 配置参数、加载文本、输出文件
      w = wordcloud.WordCloud() 生成词云对象

      方法 描述
      w.generate(txt) 向WordCloud对象w中加载文本txt
      w.to_file(filename) 将词云输出为图像文件,.png或.jpg格式
  import wordcloud
  c = wordcloud.WordCloud()           - 步骤1:配置对象参数
  c.generate("wordcloud by Python")   - 步骤2:加载词云文本
  c.to_file("pywordcloud.png")        - 步骤3:输出词云文件
  1. 词云的工作基本原则(重要):
    词云是统计 单词 频率,(根据单词间的空格,这一点与中文不同,中文单词间并没有空格),如下图:


    image.png
  2. 两个实例:
    英文字符串
    import wordcloud
    txt = "life is short, you need python"
    w = wordcloud.WordCloud( \
        background_color = "white")
    w.generate(txt)
    w.to_file("pywcloud.png")
    
    中文字符串
    import jieba
    import wordcloud
    txt = "程序设计语言是计算机能够理解和\
    识别用户操作意图的一种交互体系,它按照\
    特定规则组织计算机指令,使计算机能够自\
    动进行各种运算处理。"
    w = wordcloud.WordCloud( width=1000,\
       font_path="msyh.ttc",height=700)       msyh.ttc为微软雅黑字体,在自己的电脑上能够搜索到
    w.generate(" ".join(jieba.lcut(txt)))     这里在单词间加入空格,使得wordcloud能够正确获得单词以及其频率
    w.to_file("pywcloud.png")                 中文需要先分词并组成空格分隔字符串
    

三. os库的使用

  1. 路径操作
    os.path.abspath(path)    返回path在当前系统中的绝对路径
    os.path.dirname(path)    返回path中的目录名称
    
  2. 进程管理
    当我们的程序 需要 让计算机来调用执行 计算机内的其他程序的时候来使用,下面的那个.exe可以是任何一个程序(只要正确指定path)
    import os
    os.system("C:\\Windows\\System32\\calc.exe")
    

四. re库的使用
正则表达式语法由 字符 和 操作符 构成
1. 正则表达式语法

操作符 说明 实例
. 表示单个字符
[] 字符集,对单个字符给出取值范围 [abc]表示a、b、c, [a-z]表示a到z单个字符
[^] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符
* 前一个字符0次或无限次扩展 abc* 表示 ab、abc、abcc、abccc等
+ 前一个字符1次或无限次扩展 abc+表示 abc、abcc、abccc等
前一个字符0次或1次扩展 abc?表示 ab、abc
| 左右表达式任意一个 abc|def表示abc、def
{m} 扩展前一个字符m次 ab{2}c表示abbc
{m,n} 扩展前一个字符m至n次(含n) ab{1,2}c表示abc、abbc
^ 匹配字符串开头 ^abc表示abc且在一个字符串的开头
$ 匹配字符串结尾 abc$表示abc且在一个字符串的结尾
() 分组标记,内部只能使用 | 操作符 (abc)表示abc,( abc | def)表示abc、def
\d 数字,等价于[0-9]
\w 单词字符,等价于[AZa-z0-9_]
image.png
  1. re库主要函数
    基础函数:compile()
    功能函数:search()、match()、findall()、spilt()、finditer()、sub()
    详情:各个函数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容

  • 基于《Python语言程序设计基础(第2版)》 第一部分 初识Python语言 第1章 程序设计基本方法 1.1 ...
    柄志阅读 27,363评论 4 44
  • 前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习...
    lanlantian123阅读 5,347评论 0 2
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,175评论 1 25
  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 4,110评论 1 12
  • (一)整体结构 (二)DBR和boot sector 50字节06表示备份dbr所在位置为06扇区 13字节表示簇...
    我有十条鱼䲆鱻䲜阅读 1,051评论 1 2