Python 为什么是数据科学首选语言?

目前适用数据科学计算的语言有不少,包括:SAS,R,JAVA,C/C++,Python等|

语言 优点 缺点
SAS 算法全,数据报告全面、准确度高,Entprise Guige 和 Enterprise Miner使用极为方便; 商业化软件,太贵,使用的公司少,安装image越来越大,从 sas9 以后,动辄就是几十G的安装软件包,由于功能组件多,安装配置极为复杂;另外由于专业度很高,很多参数晦涩难懂,学习周期较长。
R 算法全,使用方便,上手快,社区强大; 主要在学术研究上使用,企业级应用偏少,扩展性不是太好。
JAVA 成熟,稳定性能好,公司级的应用多; 数据开发效率太低,算法模块不够丰富。
C/C++ 算法效率高,很多底层的应用使用C/C++开发; 开发门槛高,算法模块少。
Python 算法模块全,使用方便,上手快,社区强大,公司级应用多; 大数据计算应用稳定性不够好;多线程功能不完善(伪多线程,被人诟病);python 3 和 2 很多功能不兼容,像是两种语言。

总之,Python 虽然也有不少缺点,但优点完胜其它语言,成为数据科学首选的计算机语言。


2018年各计算机语言应用度比较

Python 在数据科学中最常用的库:

领域 Python库 说明
数据预处理 numpy 科学计算基础库。提供了高效的多维数据组和向量计算。
数据预处理 scipy 科学计算库,提供高效的数值计算,包括函数最优化以及数值积分等模块,依赖 Numpy。
数据预处理 pandas 包含高级数据结构(DataFrame)和类SQL语句,纳入了大量库和一些标准的数据模型,提供了一系列高效地操作大型数据集所需的工具。
数据可视化 matplotlib 数据可视化库,提供了大量专业数据图形制作工具。
数据可视化 pyecharts 数据可视化库,生成百度Echarts图形,动态效果好,数据易处理,易于集成。
数据可视化 ggplot 类似于R中的图形展示
标准模型库 scikit-learn 标准机器学习库,主要用于分类、回归、聚类等经典数据挖掘模型。
标准模型库 statsmodels 标准统计模型库。假设检验和参数置信区间分析等。
标准模型库 Spark ML 分布式机器学习算法库,可以用在分布式集群上,对大数据进行建模。由Scala开发,提供Python API。
标准模型库 TensorFlow 成熟的深度学习算法库,由Google开发并开源。支持GPU运算。
文本处理 NLTK 提供了一批简单易用的自然语言文本处理功能,支持多种语言处理。
文本处理 pypdf2 生成、读取 PDF 文件。
文本处理 python-docx 生成、读取 word 文件。
文本处理 pkuseg 大分词模块。
文本处理 pyltp 哈工大分词模块。
文本处理 jieba 有可能是最早的 Python 中文分词组件。
文本处理 Gensim 支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。
图片处理 opencv opencv for python,里面包含很多图像处理的函数和算法。
图片处理 PIL 处理图片文件的模块包。
图片处理 pytesseract 从图片中提取文字(OCR)
语音处理 pyaudio 使用麦克风输入音频。
语音处理 pyspeech 提供语音和文字互转的功能。

人生苦短,我用Python!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容