python_learn 十二_第三方库

安装库:
1、pip安装
在cmd下:
pip install <安装库名>


如果想卸载的话,就写:pip uninstall <安装库名>
2、自定义安装
按照第三方库提供的步骤和方式安装。第三方库都有主页用于维护库的代码和文档。
以科学计算用的numpy为例。
http://www.numpy.orgl浏览该网页找到下载链接,如下:http://www.scipy.org/scipylib/download.html
进而根据指示步骤安装
自定义安装一般适用于在pip中尚无登记或安装失败的第三方库。
3、文件安装
由于Python某些第三方库只提供源代码,通过pip下载文件后无法在Windows系统变异安装,会导致第三方库安装失败。因此,有专门的页面用来存放这些库的链接,地址如下:http://www.ld.uci.edu/~gohike/pythonlibs/

几个第三方库:
1、jieba库
jieba库是Python中一个重要的第三方中文分词函数库,可以将一段中文文本分割成中文词语的序列。jieba库需要通过pip指令安装,
安装命令如下:pip install jieba
jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba库还提供增加自定义中文单词的功能。
jieba库支持三种分词模式:精确模式,将句子最精确地切开,适合文本分析;全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

函数 描述
jieba.lcut(s) 精确模式,最常用的中文分词函数,精确模式,即将字符串分隔成等量的中文词组,返回结果是列表类型。
jiaba.lcut(s,cut_all-True) 全模式,将字符串的所有可能是分词的都列出来,返回结果是列表类型,冗余性最大。
jieba.lcut for_search(s) 搜索引擎模式,该模式首先执行精确模式,然后再对其中长词进一步切分获得最终结果
jieba.add_word(w) 向分词词典中增加新词w,增加新单词后,当遇到该词时将不再被分词。

2、wordcloud库
在生成词云时,wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理。对于中文文本,分词处理需要由用户来完成。一般步骤是先将文本分词处理,然后以空格拼接,再调用wordcloud库函数。处理中文时还需要指定中文字体。
wordcloud库的核心类是Wordcloud类,所有的功能都封装在Wordcloud类中。使用时需要实例化一个Wordcloud类的对象,并调用其generate(text)方法将text文本转化为词云。
Wordcloud可以生成任何形状的词云,为了获取形状,需要提供一张形状的图像。

参数 功能
font_path 指定字体文件的完整路径,默认为None
width 生成图片宽度,默认400像素
height 生成图片高度,默认200像素
mask 词云形状,默认None,即方形图
min_font_size 词云中最小的字体字号,默认4号
font_step 字号步进间隔。默认1
max_font_size 词云中最大的字体字号,默认None,根据高度自动调节
max_words 词云图中最大词数,默认200
stopwords 被排除词列表,排除词不在词云中显示
background_color 图片背景颜色,默认黑色

python第三方库纵览
数据分析:numpy、scipy、pandas
文本处理:pdfminer、openpyxl、python-docx
用户图形界面:PyQt5、wxPython、PyGTK
机器学习:scikit-learn、tensorFlow、Theano
Web开发:Django、Pyramid、Flask
游戏开发:Pygame、Panda3D、cocos2d
数据可视化:matplotlib、TVTK、mayavi
网络爬虫:request、scrapy、beautiful soup
①requests
requests库是一个简洁且简单的处理HTTP请求的第三方库,最大的优点就是程序编写过程更加接近正常URL访问过程。
requests库支持丰富的链接访问功能,包括:国际域名和URL获取、HTTP长连接和连接缓存、HTTP会话和cookie保持、浏览器使用风格的SSL验证、基本的摘要认证、有效的键值对cookie记录、自动解压缩、自动内容解码、文件块上传、HTTP(S)代理功能、连接超时处理、流数据下载等。

函数 描述
requests.request() 构造一个请求,为其他方法打下基础
requests.get() 获取HTML网页的主要方法
requests.head() 获取HTML网页头信息的方法
requests.post() 向HTML网页提交POST请求方法
requests.put() 向HTML网页提交PUT请求
requests.patch() 向HTML网页提交局部修改请求
requests.delete() 向HTML网页提交删除请求

②numpy
numpy是Python的一种开源数值计算扩展第三方库,用于处理数据类型相同的多维数(ndarray),简称"数组"。这个库可用来存储和处理大型矩阵,比Python语言提供的列表结构要高效的多。
numpy内部是C语言编写,对外采用Python语言封装。因此,在进行数据运算时,基于numpy的Python程序可以达到接近C语言的处理速度。
③scipy
scipy是一款方便、易用、转为科学和工程设计的Python工具包,是在numpy库的基础上曾加了众多的数学、科学以及工程计算中常用的库函数。
④pandas
pandas是基于numpy扩展的第一个重要的第三方库,它是为解决数据分析任务创建的。Pandas提供了一批标准的数据模型和大量快速便捷处理数据的函数和方法,提供了高效地操作大型数据集所需的工具。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容