python_learn 十二_第三方库

安装库：
1、pip安装
在cmd下：
pip install <安装库名>

如果想卸载的话，就写：pip uninstall <安装库名>
2、自定义安装
按照第三方库提供的步骤和方式安装。第三方库都有主页用于维护库的代码和文档。
以科学计算用的numpy为例。
http://www.numpy.orgl浏览该网页找到下载链接，如下：http://www.scipy.org/scipylib/download.html
进而根据指示步骤安装
自定义安装一般适用于在pip中尚无登记或安装失败的第三方库。
3、文件安装
由于Python某些第三方库只提供源代码，通过pip下载文件后无法在Windows系统变异安装，会导致第三方库安装失败。因此，有专门的页面用来存放这些库的链接，地址如下：http://www.ld.uci.edu/~gohike/pythonlibs/

几个第三方库：
1、jieba库
jieba库是Python中一个重要的第三方中文分词函数库，可以将一段中文文本分割成中文词语的序列。jieba库需要通过pip指令安装，
安装命令如下：pip install jieba
jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba库还提供增加自定义中文单词的功能。
jieba库支持三种分词模式：精确模式，将句子最精确地切开，适合文本分析；全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

函数	描述
jieba.lcut（s）	精确模式，最常用的中文分词函数，精确模式，即将字符串分隔成等量的中文词组，返回结果是列表类型。
jiaba.lcut（s，cut_all-True）	全模式，将字符串的所有可能是分词的都列出来，返回结果是列表类型，冗余性最大。
jieba.lcut for_search（s）	搜索引擎模式，该模式首先执行精确模式，然后再对其中长词进一步切分获得最终结果
jieba.add_word（w）	向分词词典中增加新词w，增加新单词后，当遇到该词时将不再被分词。

2、wordcloud库
在生成词云时，wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理。对于中文文本，分词处理需要由用户来完成。一般步骤是先将文本分词处理，然后以空格拼接，再调用wordcloud库函数。处理中文时还需要指定中文字体。
wordcloud库的核心类是Wordcloud类，所有的功能都封装在Wordcloud类中。使用时需要实例化一个Wordcloud类的对象，并调用其generate（text）方法将text文本转化为词云。
Wordcloud可以生成任何形状的词云，为了获取形状，需要提供一张形状的图像。

参数	功能
font_path	指定字体文件的完整路径，默认为None
width	生成图片宽度，默认400像素
height	生成图片高度，默认200像素
mask	词云形状，默认None，即方形图
min_font_size	词云中最小的字体字号，默认4号
font_step	字号步进间隔。默认1
max_font_size	词云中最大的字体字号，默认None，根据高度自动调节
max_words	词云图中最大词数，默认200
stopwords	被排除词列表，排除词不在词云中显示
background_color	图片背景颜色，默认黑色

python第三方库纵览
数据分析：numpy、scipy、pandas
文本处理：pdfminer、openpyxl、python-docx
用户图形界面：PyQt5、wxPython、PyGTK
机器学习：scikit-learn、tensorFlow、Theano
Web开发：Django、Pyramid、Flask
游戏开发：Pygame、Panda3D、cocos2d
数据可视化：matplotlib、TVTK、mayavi
网络爬虫：request、scrapy、beautiful soup
①requests
requests库是一个简洁且简单的处理HTTP请求的第三方库，最大的优点就是程序编写过程更加接近正常URL访问过程。
requests库支持丰富的链接访问功能，包括：国际域名和URL获取、HTTP长连接和连接缓存、HTTP会话和cookie保持、浏览器使用风格的SSL验证、基本的摘要认证、有效的键值对cookie记录、自动解压缩、自动内容解码、文件块上传、HTTP（S）代理功能、连接超时处理、流数据下载等。

函数	描述
requests.request（）	构造一个请求，为其他方法打下基础
requests.get（）	获取HTML网页的主要方法
requests.head（）	获取HTML网页头信息的方法
requests.post（）	向HTML网页提交POST请求方法
requests.put（）	向HTML网页提交PUT请求
requests.patch（）	向HTML网页提交局部修改请求
requests.delete（）	向HTML网页提交删除请求

②numpy
numpy是Python的一种开源数值计算扩展第三方库，用于处理数据类型相同的多维数（ndarray），简称"数组"。这个库可用来存储和处理大型矩阵，比Python语言提供的列表结构要高效的多。
numpy内部是C语言编写，对外采用Python语言封装。因此，在进行数据运算时，基于numpy的Python程序可以达到接近C语言的处理速度。
③scipy
scipy是一款方便、易用、转为科学和工程设计的Python工具包，是在numpy库的基础上曾加了众多的数学、科学以及工程计算中常用的库函数。
④pandas
pandas是基于numpy扩展的第一个重要的第三方库，它是为解决数据分析任务创建的。Pandas提供了一批标准的数据模型和大量快速便捷处理数据的函数和方法，提供了高效地操作大型数据集所需的工具。

python_learn 十二_第三方库

推荐阅读更多精彩内容