机器学习
一個很棒的機器學習框架、庫和軟件的精選列表(按語言)。靈感來自於 awesome-php。
计算机视觉
Scikit-Image - Python 中图像处理算法的集合。
Scikit-Opt - Python 中的群智能(Python 中的遗传算法、粒子群优化、模拟退火、蚁群算法、免疫算法、人工鱼群算法)
SimpleCV - 一个开源计算机视觉框架,可以访问多个高性能计算机视觉库,例如 OpenCV。用 Python 编写,可在 Mac、Windows 和 Ubuntu Linux 上运行。
Vigranumpy - VIGRA C++ 计算机视觉库的 Python 绑定。
OpenFace - 使用深度神经网络进行免费和开源的人脸识别。
face_recognition - 从 Python 或命令行识别和操作人脸的人脸识别库。
dockerface - 易于安装和使用的对于 docker 容器中的图像和视频深度学习 Faster R-CNN 人脸检测.
detectron2 - FAIR 用于目标检测和分割的下一代研究平台。它是对之前版本 Detectron 的彻底重写,由 PyTorch 深度学习框架提供支持。
albumentations - 一个快速且框架不可知的图像增强库,它实现了多种增强技术。支持开箱即用( out of the box)的分类、分割、检测。曾在 Kaggle、Topcoder 和那些作为 CVPR 研讨会一部分的深度学习竞赛中获胜。
pytessarct - Python-tesseract 是 Python 的光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入在图像中的文本。 Python-tesseract 是 Google 的 Tesseract-OCR 引擎的包装器。
imutils - 一个包含Convenience functions的库,可以使用 OpenCV 和 Python 使基本的图像处理操作(如平移、旋转、调整大小、骨架化和显示 Matplotlib 图像更容易)。
PyTorchCV - 基于 PyTorch 的计算机视觉深度学习框架。
Neuro-style-pt - Justin Johnson 的神经风格(神经风格转移)的 PyTorch 实现。
Detecto - 用 5-10 行代码训练和运行计算机视觉模型。
Neuro-dream - DeepDream 的 PyTorch 实现。
Openpose - 用于身体、面部、手和脚估计的实时多人关键点检测库
Deep High-Resolution-Net - CVPR2019 论文“Deep High-Resolution Representation Learning for Human Pose Estimation”的 PyTorch 实现
Dream-creator - DeepDream 的 PyTorch 实现。允许个人使用 DeepDream 的自定义数据集快速轻松地训练他们自己的自定义 GoogleNet 模型。
Lucent - Tensorflow 和 OpenAI Clarity 的 Lucid 适用于 PyTorch.
lightly - Lightly 是一种用于自监督学习的计算机视觉框架。
Learnergy - 基于 PyTorch 的基于能量的机器学习模型。
OpenVisionAPI - 基于开源模型的开源计算机视觉 API。
Natural Language Processing(自然语言处理)
pkuseg-python - 更好的jieba版本,由北京大学开发。
NLTK - 用于构建 Python 程序以处理人类语言数据的领先平台。
Pattern - Python 编程语言的 Web 挖掘模块。它具有用于自然语言处理、机器学习等的工具。
Quepy - 将自然语言问题转换为数据库查询语言查询的 Python 框架。
TextBlob - 为深入研究常见的自然语言处理 (NLP) 任务提供一致的 API。站在 NLTK 和 Pattern 的巨大肩膀上,并与两者配合得很好。
YAlign - 一个句子对齐器,一个友好的工具,用于从可比较的语料库中提取平行句子。 [已弃用]
jieba - 中文分词实用程序。
SnowNLP - 处理中文文本的库。
spammy - 基于 nltk 构建的用于电子邮件垃圾邮件过滤的库
loso - 另一个中文分割库。 [已弃用]
genius - 基于条件随机场的中文段。Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
KoNLPy - 用于韩语自然语言处理的 Python 包。
nut - 自然语言理解工具包。 [已弃用]
Rosetta - 文本处理工具和包装器(例如 Vowpal Wabbit)
BLLIP Parser - BLLIP 自然语言解析器(也称为 Charniak-Johnson 解析器)的 Python 绑定。 [已弃用]
PyNPl - Python 自然语言处理库。 Python 的通用 NLP 库。还包含一些用于解析常见 NLP 格式的特定模块,最显着的是 FoLiA,还有 ARPA 语言模型、Moses 短语表、GIZA++ 对齐。
PySS3 - Python 包,它实现了一种用于文本分类的新型白盒机器学习模型,称为 SS3。由于 SS3 能够直观地解释其基本原理,因此该软件包还附带易于使用的交互式可视化工具(在线演示)。
python-ucto - Python 绑定到 ucto(用于各种语言的基于 unicode 的规则标记器)。
python-frog - Python 绑定到 Frog,荷兰语的 NLP 套件。 (pos 标记、词形还原、依赖解析、NER)
python-zpar - ZPar 的 Python 绑定,一种统计词性标注器、选区解析器和英语依赖解析器。
colibri-core - Python 绑定到 C ++ 库,用于以快速且节省内存的方式提取和处理基本语言结构,例如 n-gram 和 skipgram。
spaCy - 具有 Python 和 Cython 的工业强度 NLP。
PyStanfordDependencies - 用于将 Penn Treebank 树转换为 Stanford Dependencies 的 Python 接口。
距离 - Levenshtein 和 Hamming 距离计算。 [已弃用]
Fuzzy Wuzzy - Python 中的模糊字符串匹配。
jellyfish - 用于对字符串进行近似和语音匹配的 Python 库。
editdistance - 编辑距离的快速实现。
textacy - 基于 Spacy 的更高级别的 NLP。
stanford-corenlp-python - 斯坦福 CoreNLP 的 Python 包装器 [已弃用]
CLTK - 经典语言工具包。
Rasa - 一个“机器学习框架,用于自动化基于文本和语音的对话。”
yase - 将句子(或其他序列)转码为词向量列表。
Polyglot - 多语言文本 (NLP) 处理工具包。
DrQA - 阅读维基百科来回答开放领域的问题。
Dedupe - 用于准确和可扩展的模糊匹配、记录重复数据删除和实体解析的 Python 库。
Snips NLU - 用于意图分类和实体提取的自然语言理解库
NeuroNER - 使用神经网络进行命名实体识别,提供最先进的结果
DeepPavlov - 具有许多预训练的俄罗斯 NLP 模型的对话 AI 库。
BigARTM - 主题建模平台。
NALP - 基于 Tensorflow 构建的自然对抗性语言处理框架。
DL Translate - 一个基于深度学习的 50 种语言之间的翻译库,使用转换器构建。
General-Purpose machine learning (多用途的机器学习)(通用机器学习)
Microsoft ML for Apache Spark -> 分布式机器学习框架 Apache Spark
Shapley -> 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
igel -> 一个令人愉快的机器学习工具,允许您在不编写代码的情况下训练/拟合、测试和使用模型
ML 模型构建 -> 包含分类、聚类、回归、推荐笔记本的存储库,并带有插图来制作它们。
ML/DL 项目模板
PyTorch Geometric Temporal -> 用于动态图表示学习的 PyTorch Geometric 的时间扩展。
Little Ball of Fur -> NetworkX 的图形采样扩展库,具有类似 Scikit-Learn 的 API。
空手道俱乐部 -> 一个用于 NetworkX 的无监督机器学习扩展库,具有类似 Scikit-Learn 的 API。
Auto_ViML -> 快速自动构建变体可解释 ML 模型! Auto_ViML 发音为“auto vimal”,是一个全面且可扩展的 Python AutoML 工具包,具有不平衡处理、集成、堆叠和内置特征选择。精选在 Medium 文章中。
PyOD -> Python Outlier Detection,全面且可扩展的 Python 工具包,用于检测多元数据中的外围对象。精选高级模型,包括神经网络/深度学习和异常值集成。
steppy -> 轻量级的 Python 库,用于快速且可重复的机器学习实验。引入了一个非常简单的界面,可以实现干净的机器学习管道设计。
steppy-toolkit -> 精选的神经网络、转换器和模型集合,使您的机器学习工作更快、更有效。
CNTK - Microsoft Cognitive Toolkit (CNTK),一个开源深度学习工具包。文档可以在这里找到。
Couler - 用于在不同工作流引擎(例如 Argo Workflows、Tekton Pipelines 和 Apache Airflow)上构建和管理机器学习工作流的统一接口。
auto_ml - 用于生产和分析的自动化机器学习。让您专注于 ML 的有趣部分,同时输出可用于生产的代码以及数据集和结果的详细分析。包括对 NLP、XGBoost、CatBoost、LightGBM 以及即将推出的深度学习的支持。
机器学习 - 由 Web 界面和一组编程界面 API 组成的自动构建,用于支持向量机。相应的数据集存储在 SQL 数据库中,然后生成的用于预测的模型存储在 NoSQL 数据存储中。
XGBoost - 用于 eXtreme Gradient Boosting(树)库的 Python 绑定。
Apache SINGA - 一个用于开发开源机器学习库的 Apache Incubating 项目。
Bayesian Methods for Hackers - 关于 Python 概率编程的书籍/iPython 笔记本。
Featureforge 一组用于创建和测试机器学习功能的工具,具有与 scikit-learn 兼容的 API。
Apache Spark 中的 MLlib - Spark 中的分布式机器学习库
Hydrosphere Mist - 一种用于将 Apache Spark MLLib 机器学习模型部署为实时、批处理或反应式 Web 服务的服务。
scikit-learn - 基于 SciPy 构建的用于机器学习的 Python 模块。
metric-learn - 用于度量学习的 Python 模块。
SimpleAI Python 实现了《人工智能,一种现代方法》一书中描述的许多人工智能算法。它专注于提供一个易于使用、有据可查和经过测试的库。
astroML - 用于天文学的机器学习和数据挖掘。
graphlab-create - 在磁盘支持的 DataFrame 之上实现的具有各种机器学习模型(回归、聚类、推荐系统、图形分析等)的库。
BigML - 联系外部服务器的库。
模式 - Python 的 Web 挖掘模块。
NuPIC - 用于智能计算的 Numenta 平台。
Pylearn2 - 基于 Theano 的机器学习库。 [已弃用]
keras - TensorFlow、CNTK 和 Theano 的高级神经网络前端。
Lasagne - 在 Theano 中构建和训练神经网络的轻量级库。
hebel - Python 中的 GPU 加速深度学习库。 [已弃用]
Chainer - 灵活的神经网络框架。
先知 - Facebook 的快速和自动化的时间序列预测框架。
gensim - 人类主题建模。
topik - 主题建模工具包。 [已弃用]
PyBrain - 另一个 Python 机器学习库。
头脑风暴 - 快速、灵活且有趣的神经网络。这是 PyBrain 的继承者。
Surprise - 用于构建和分析推荐系统的 scikit。
隐式 - 隐式数据集的快速 Python 协作过滤。
LightFM - 用于隐式和显式反馈的许多流行推荐算法的 Python 实现。
Crab - 灵活、快速的推荐引擎。 [已弃用]
python-recsys - 用于实现推荐系统的 Python 库。
思考贝叶斯 - 关于贝叶斯分析的书。
Image-to-Image Translation with Conditional Adversarial Networks - 从 isola 等人的论文中实现图像到图像 (pix2pix) 转换。[深度学习]
受限玻尔兹曼机 - Python 中的受限玻尔兹曼机。 【深度学习】
Bolt - Bolt 在线学习工具箱。 [已弃用]
CoverTree - 覆盖树的 Python 实现,几乎直接替代 scipy.spatial.kdtree [已弃用]
nilearn - Python 中神经成像的机器学习。
Neuropredict - 针对新手机器学习者和非专家程序员,该软件包在 Python 中为 NeuroImaging 和任何其他类型的功能提供简单(无需编码)和全面的机器学习(评估和预测性能的完整报告,无需您编写代码) .这旨在吸收大部分 ML 工作流程,与 nilearn 和 pymvpa 等其他软件包不同,它们要求您学习它们的 API 和代码以生成任何有用的东西。
不平衡学习 - 使用各种技术执行欠采样和过采样的 Python 模块。
Shogun -Shogun 机器学习工具箱。
Pyevolve - 遗传算法框架。 [已弃用]
Caffe - 一个深度学习框架,在开发时考虑到了清洁度、可读性和速度。
breze - 基于 Theano 的深度和循环神经网络库。
Cortex - 用于在生产中部署机器学习模型的开源平台。
pyhsmm - 用于贝叶斯隐马尔可夫模型 (HMM) 和显式持续时间隐半马尔可夫模型 (HSMM) 中的近似无监督推理的库,侧重于贝叶斯非参数扩展、HDP-HMM 和 HDP-HSMM,主要具有弱极限近似.
SKLL - scikit-learn 的包装器,使进行实验变得更简单。
神经实验室
Spearmint - Spearmint 是根据论文中概述的算法执行贝叶斯优化的包:机器学习算法的实用贝叶斯优化. Jasper Snoek、Hugo Larochelle 和 Ryan P. Adams。神经信息处理系统的进展,2012 年。 [已弃用]
Pebl - 贝叶斯学习的 Python 环境。 [已弃用]
Theano - 在 Python 中优化 GPU 元编程代码生成面向数组的优化数学编译器。
TensorFlow - 使用数据流图进行数值计算的开源软件库。
pomegranate - Python 的隐藏马尔可夫模型,在 Cython 中实现以提高速度和效率。
python-timbl - 包装完整 TiMBL C++ 编程接口的 Python 扩展模块。 Timbl 是一个精心设计的 k-最近邻机器学习工具包。
deap - 进化算法框架。
pydeep - Python 中的深度学习。 [已弃用]
mlxtend - 一个包含用于数据科学和机器学习任务的有用工具的库。
neon - Nervana 的高性能基于 Python 的深度学习框架 [DEEP LEARNING]。 [已弃用]
Optunity - 一个专门用于自动超参数优化的库,具有简单、轻量级的 API 以促进网格搜索的插入替换。
神经网络和深度学习 - 我的书“神经网络和深度学习”[深度学习] 的代码示例。
Annoy - 近似最近邻实现。
TPOT - 使用遗传编程自动创建和优化机器学习管道的工具。将其视为您的个人数据科学助手,将机器学习中乏味的部分自动化。
pgmpy 用于处理概率图形模型的 Python 库。
DIGITS - 深度学习 GPU 训练系统 (DIGITS) 是一个用于训练深度学习模型的 Web 应用程序。
Orange - 面向新手和专家的开源数据可视化和数据分析。
MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、变异感知数据流调度器;适用于 Python、R、Julia、Go、Javascript 等。
Milk - 专注于监督分类的机器学习工具包。 [已弃用]
TFLearn - 深度学习库,具有更高级别的 TensorFlow API。
REP - 基于 IPython 的环境,用于以一致和可重复的方式进行数据驱动的研究。 REP 并不试图替代 scikit-learn,而是对其进行扩展并提供更好的用户体验。 [已弃用]
rgf_python - 正则化贪婪森林(树)库的 Python 绑定。
skbayes - 使用 scikit-learn API 进行贝叶斯机器学习的 Python 包。
fuku-ml - 简单的机器学习库,包括感知器、回归、支持向量机、决策树等,易于使用,适合初学者学习。
Xcessiv - 基于 Web 的应用程序,用于快速、可扩展和自动化的超参数调整和堆叠集成。
PyTorch - Python 中的张量和动态神经网络,具有强大的 GPU 加速
PyTorch Lightning - 用于高性能 AI 研究的轻量级 PyTorch 包装器。
PyTorch Lightning Bolts - AI/ML 研究人员的模型、回调和数据集工具箱。
skorch - 包装 PyTorch 的 scikit-learn 兼容神经网络库。
ML-From-Scratch - 在 Python 中从头开始实现机器学习模型,重点是透明度。旨在以一种易于理解的方式展示 ML 的细节。
Edward - 用于概率建模、推理和批评的库。建立在 TensorFlow 之上。
xRBM - 受限玻尔兹曼机(RBM)及其在 Tensorflow 中的条件变体的库。
CatBoost - 决策树库上的通用梯度提升,具有开箱即用的分类特征支持。它易于安装、文档齐全并支持 CPU 和 GPU(甚至多 GPU)计算。
stacked_generalization - 在 Python 中实现机器学习堆叠技术作为一个方便的库。
modAL - 基于 scikit-learn 构建的 Python 模块化主动学习框架。
Cogitare:一个现代、快速、模块化的 Python 深度学习和机器学习框架。
Parris -Parris,机器学习算法的自动化基础设施设置工具。
neonrvm -neonrvm 是一个基于 RVM 技术的开源机器学习库。它是用 C 编程语言编写的,并带有 Python 编程语言绑定。
Turi Create - 来自 Apple 的机器学习。 Turi Create 简化了自定义机器学习模型的开发。您无需成为机器学习专家即可向您的应用程序添加推荐、对象检测、图像分类、图像相似性或活动分类。
xLearn - 一个高性能、易于使用且可扩展的机器学习包,可用于解决大规模机器学习问题。 xLearn 对于解决大规模稀疏数据的机器学习问题特别有用,这在诸如在线广告和推荐系统等互联网服务中非常常见。
mlens - 与 scikit-learn 集成的高性能、内存效率高、最大并行化的集成学习。
Netron - 机器学习模型的可视化工具。
Thampi - AWS Lambda 上的机器学习预测系统
MindsDB - 简化神经网络使用的开源框架。
Microsoft Recommenders:构建推荐系统的示例和最佳实践,以 Jupyter 笔记本的形式提供。该存储库包含来自 Microsoft Research 以及其他公司和机构的一些最新的最先进算法。
StellarGraph:图上的机器学习,一个用于图结构(网络结构)数据机器学习的 Python 库。
BentoML:用于打包和部署机器学习模型以用于生产的工具包
MiraiML:用于连续和自主机器学习的异步引擎,专为实时使用而构建。
numpy-ML:用 numpy 编写的 ML 模型的参考实现
Neuraxle:一个提供正确抽象的框架,以简化 ML 管道的研究、开发和部署。
Cornac - 多模式推荐系统的比较框架,重点是利用辅助数据的模型。
JAX - JAX 是 Autograd 和 XLA,汇集在一起用于高性能机器学习研究。
Catalyst - 用于 PyTorch DL 和 RL 研究的高级实用程序。它的开发重点是可重复性、快速实验和代码/想法的重用。能够研究/开发新的东西,而不是编写另一个常规的火车循环。
Fastai - 构建在 Pytorch 之上的高级包装器,支持视觉、文本、表格数据和协同过滤。
scikit-multiflow - 用于多输出/多标签和流数据的机器学习框架。
Lightwood - 一种基于 Pytorch 的框架,可将机器学习问题分解为更小的块,这些块可以无缝地粘合在一起,目标是用一行代码构建预测模型。
bayeso - 一个简单但必不可少的贝叶斯优化包,用 Python 编写。
mljar-supervised - 用于表格数据的自动机器学习(AutoML)python 包。它可以处理:二元分类、多类分类和回归。它提供了解释和降价报告。
evostra - Python 中的快速进化策略实现。
确定 - 可扩展的深度学习训练平台,包括对分布式训练、超参数调整、实验跟踪和模型管理的集成支持。
PySyft - 基于 PyTorch 和 TensorFlow 的用于安全和私有深度学习的 Python 库。
PyGrid - 数据所有者和数据科学家的点对点网络,他们可以使用 PySyft 共同训练 AI 模型
sktime - 具有时间序列的机器学习统一框架
OPFython - Optimum-Path Forest 分类器的 Python 启发实现。
Optitimizer - 基于 Python 的元启发式优化技术。
Gradio - 用于快速创建和共享模型演示的 Python 库。在浏览器中以交互方式调试模型,从合作者那里获得反馈,并在不部署任何东西的情况下生成公共链接。
Hub - TensorFlow / PyTorch 最快的非结构化数据集管理。流和版本控制数据。甚至可以将 PB 级数据存储在云上的一个类似 numpy 的数组中,可以在任何机器上访问。访问 activeloop.ai 了解更多信息。
Synthia - Python 中的多维合成数据生成。
ByteHub - 易于使用、基于 Python 的功能存储。针对时间序列数据进行了优化。
Backprop - Backprop 使使用、微调和部署最先进的 ML 模型变得简单。
River:通用在线机器学习框架。
FEDOT:用于复合建模管道自动化设计的 AutoML 框架。它可以处理不同类型数据(包括多模态数据集)的分类、回归和时间序列预测任务。
数据分析/数据可视化
DataVisualization - 一个 Github 存储库,您可以在其中学习 Datavisualizatoin 基础知识到中级水平。
Cartopy -Cartopy 是一个 Python 包,专为地理空间数据处理而设计,以生成地图和其他地理空间数据分析。
SciPy - 基于 Python 的数学、科学和工程开源软件生态系统。
NumPy - 使用 Python 进行科学计算的基本包。
AutoViz AutoViz 使用一行 Python 代码执行任何数据集的自动可视化。给它任何大小的任何输入文件(CSV、txt 或 json),AutoViz 将对其进行可视化。请参阅中等文章。
Numba -Cython 和 NumPy 的开发人员针对科学 Python 的 LLVM 的 Python JIT(及时)编译器.
Mars - 用于大规模数据计算的基于张量的框架,通常被视为 NumPy 的并行和分布式版本。
NetworkX - 复杂网络的高生产力软件。
igraph - 绑定到 igraph 库 - 通用图形库。
Pandas - 一个提供高性能、易于使用的数据结构和数据分析工具的库。
ParaMonte - 通过串行/并行蒙特卡罗和 MCMC 模拟进行贝叶斯数据分析和可视化的通用 Python 库。文档可以在这里找到。
Open Mining - Python 中的商业智能 (BI)(Pandas Web 界面)[已弃用]
PyMC - 马尔可夫链蒙特卡罗采样工具包。
zipline - Pythonic 算法交易库。
PyDy - Python Dynamics 的缩写,用于辅助基于 NumPy、SciPy、IPython 和 matplotlib 的动态运动建模的工作流。
SymPy - 符号数学的 Python 库。
statsmodels - Python 中的统计建模和计量经济学。
astropy - 一个用于天文学的社区 Python 库。
matplotlib - Python 2D 绘图库。
bokeh - Python 的交互式网络绘图。
plotly - Python 和 matplotlib 的协作网络绘图。
altair - 一个 Python 到 Vega 的翻译器。
d3py - 基于 D3.js 的 Python 绘图库。
PyDexter - Python 的简单绘图。 D3xterjs 的包装器;轻松在浏览器中呈现图表。
ggplot - 与 R 的 ggplot2 相同的 API。 [已弃用]
ggfortify - ggplot2 流行 R 包的统一接口。
Kartograph.py - 在 Python 中渲染漂亮的 SVG 地图。
pygal - Python SVG 图表创建器。
PyQtGraph - 基于 PyQt4 / PySide 和 NumPy 构建的纯 Python 图形和 GUI 库.
pycascading [已弃用]
Petrel - 用纯 Python 编写、提交、调试和监控 Storm 拓扑的工具。
Blaze - NumPy 和 Pandas 与大数据的接口。
emcee - 用于仿射不变 MCMC 的 Python 集成采样工具包。
windML - 风能分析和预测的 Python 框架。
vispy - 基于 GPU 的高性能交互式 OpenGL 2D/3D 数据可视化库。
cerebro2 用于 NuPIC 的基于 Web 的可视化和调试平台。 [已弃用]
NuPIC Studio 一个多合一的 NuPIC Hierarchical Temporal Memory 可视化和调试超级工具![Deprecated]
SparklingPandas PySpark (POPS) 上的 Pandas。
Seaborn - 基于 matplotlib 的 Python 可视化库。
bqplot - 用于在 Jupyter (IPython) 中绘图的 API。
Pastalog - 神经网络训练性能的简单、实时可视化。
Superset - 设计为可视化、直观和交互的数据探索平台。
Dora - 在 Python 中进行探索性数据分析的工具。
Ruffus - python 的计算管道库。
SOMPY - 用 Python 编写的自组织地图(使用神经网络进行数据分析)。
somoclu 大规模并行自组织映射:加速多核 CPU、GPU 和集群的训练,具有 python API。
HDBScan - 在 Python 中实现 hdbscan 算法 - 用于聚类
visualize_ML - 用于数据探索和数据分析的 python 包。 [已弃用]
scikit-plot - 一个可视化库,用于快速轻松地生成数据分析和机器学习中的常见绘图。
Bowtie - 使用 flask socketio 和 react 进行交互式可视化的仪表板库。
lime - Lime 是关于解释机器学习分类器(或模型)正在做什么。它能够解释任何具有两个或更多类的黑盒分类器。
PyCM - PyCM 是一个用 Python 编写的多类混淆矩阵库,它支持输入数据向量和直接矩阵,是一个合适的分类后模型评估工具,支持大多数类和整体统计参数
Dash - 用于创建构建在 Plotly.js、React 和 Flask 之上的分析 Web 应用程序的框架
Lambdo - 一种工作流引擎,用于通过将 (i) 特征工程和机器学习 (ii) 模型训练和预测 (iii) 通过用户定义 (Python) 函数进行表填充和列评估结合在一个分析管道中来解决机器学习问题。
TensorWatch - 用于机器学习和数据科学的调试和可视化工具。它广泛利用 Jupyter Notebook 来显示运行过程中数据的实时可视化,例如机器学习训练。
dowel - 用于机器学习研究的小记录器。只需调用 logger.log() 即可将任何对象输出到终端、CSV、TensorBoard、磁盘上的文本日志等。
杂项脚本 / iPython 笔记本 / 代码库
MiniGrad – autograd (~100 loc) 的最小、教育性、Pythonic 实现。
常见 ML 算法的 Map/Reduce 实现:Jupyter 笔记本,涵盖如何从头开始实现不同的 ML 算法(普通最小二乘法、梯度下降、k 均值、交替最小二乘法)、使用 Python NumPy,以及如何使这些实现可扩展使用 Map/Reduce 和 Spark。
BioPy - Python 中的生物启发和机器学习算法。 [已弃用]
CAEs for Data Assimilation - 用于 3D 图像/场压缩的卷积自动编码器应用于降阶数据同化。
SVM Explorer - 交互式 SVM Explorer,使用 Dash 和 scikit-learn
A gallery of interesting IPython notebooks
data-science-ipython-notebooks - 持续更新的数据科学 Python 笔记本:Spark、Hadoop MapReduce、HDFS、AWS、Kaggle、scikit-learn、matplotlib、pandas、NumPy、SciPy 和各种命令行。
决策权重
Sarah Palin LDA - 主题建模 Sarah Palin 电子邮件。
Diffusion Segmentation - 基于扩散方法的图像分割算法的集合。
Scipy 教程 - SciPy 教程。这是过时的,请查看 scipy-lecture-notes。
Crab - Python 的推荐引擎库。
BayesPy - Python 中的贝叶斯推理工具。
scikit-learn 教程 - 用于学习 scikit-learn 的系列笔记本。
情绪分析器 - 推文情绪分析器
情感分类器 - 使用词义消歧的情感分类器。
group-lasso - 在(稀疏)Group Lasso 模型中使用的坐标下降算法的一些实验。
jProcessing - 汉字/平假名/片假名转罗马字转换器。法令词典和平行句子搜索。两个 JP 句子之间的句子相似性。日语文本的情感分析。在 Python 中运行 Cabocha(已配置 ISO--8859-1)。
mne-python-notebooks - 使用 mne-python 进行 EEG/MEG 数据处理的 IPython 笔记本。
Neon Course - IPython 笔记本,用于了解 Nervana 的 Neon 的完整课程。
熊猫食谱 - 使用 Python 的熊猫库的食谱。
climin - 专注于机器学习、梯度下降的 Python 实现、LBFGS、rmsprop、adadelta 等的优化库。
Allen Downey 的数据科学课程 - 奥林学院的数据科学代码,2014 年春季。
Allen Downey's Think Bayes Code - Think Bayes 的代码库。
Allen Downey's Think Complexity Code - Allen Downey 的书 Think Complexity 的代码.
Allen Downey 的 Think OS Code - Think OS 的文本和支持代码:操作系统简介。
Python Programming for the Humanities - 人文 Python 编程课程,假设没有先验知识。高度关注文本处理/NLP。
GreatCircle - 用于计算大圆距离的库。
Optunity 示例 - 演示如何与机器学习库协同使用 Optunity 的示例。
使用 Python Jupyter notebook 和 scikit-learn 深入了解机器学习 - “我首先通过 hacking 学习 Python,然后认真学习。我想用机器学习来做到这一点。如果这是你的风格,请和我一起超越自己.”
TDB - TensorDebugger (TDB) 是用于深度学习的可视化调试器。它为 TensorFlow 提供交互式、逐节点调试和可视化功能。
Suiron - 遥控汽车的机器学习。
使用 scikit-learn 进行机器学习简介 - 来自数据学校关于 scikit-learn 的视频教程的 IPython 笔记本。
Python 中的实用 XGBoost - 关于在 Python 中使用 XGBoost 的综合在线课程。
Introduction to Machine Learning with Python - “Introduction to Machine Learning with Python”一书的笔记本和代码
Pydata book - O'Reilly Media 出版的 Wes McKinney 的“Python for Data Analysis”的材料和 IPython 笔记本
Homemade Machine Learning - 流行机器学习算法的 Python 示例,其中包含交互式 Jupyter 演示和数学解释
Prodmodel - 用于数据科学管道的构建工具。
the-elements-of-statistical-learning - 该存储库包含 Jupyter 笔记本,实现了本书和教科书摘要中的算法。
Hyperparameter-Optimization-of-Machine-Learning-Algorithms - 用于机器学习和深度学习算法的超参数调整/优化的代码。
神经网络
nn_builder - nn_builder 是一个 Python 包,可让您在 1 行中构建神经网络
NeuralTalk - NeuralTalk 是一个 Python + numpy 项目,用于学习用句子描述图像的多模态循环神经网络.
Neuron - Neuron 是用于时间序列预测的简单类。它利用 LNU(线性神经单元)、QNU(二次神经单元)、RBF(径向基函数)、MLP(多层感知器)、MLP-ELM(多层感知器 - 极限学习机)神经网络通过梯度下降或 LeLevenberg 学习– 马夸特算法。
NeuralTalk - NeuralTalk 是一个 Python + numpy 项目,用于学习用句子描述图像的多模态循环神经网络. [已弃用]
Neuron - Neuron 是用于时间序列预测的简单类。它利用 LNU(线性神经单元)、QNU(二次神经单元)、RBF(径向基函数)、MLP(多层感知器)、MLP-ELM(多层感知器 - 极限学习机)神经网络通过梯度下降或 LeLevenberg 学习– 马夸特算法。 [已弃用]
数据驱动代码 - 在 python 中非常简单地实现了用于傻瓜的神经网络,无需使用任何库,并带有详细的注释。
Machine Learning, Data Science and Deep Learning with Python - LiveVideo 课程,涵盖机器学习、Tensorflow、人工智能和神经网络。
TResNet:高性能 GPU 专用架构 - TResNet 模型经过设计和优化,可在 GPU 上提供最佳的速度-精度权衡。
TResNet:简单而强大的 Python 神经网络库 - 各种支持类型的人工神经网络和学习算法。
Jina AI 一种在云中构建神经搜索的更简单方法。与 Jupyter 笔记本兼容。
sequitur PyTorch 库,只需两行代码即可创建和训练序列自动编码器
Kaggle 比赛源代码
open-solution-home-credit-> source code andexperiments resultsforHome Credit Default Risk.
open-solution-googleai-object-detection-> source code andexperiments resultsforGoogle AI Open Images - Object Detection Track.
open-solution-salt-identification-> source code andexperiments resultsforTGS Salt Identification Challenge.
open-solution-ship-detection-> source code andexperiments resultsforAirbus Ship Detection Challenge.
open-solution-data-science-bowl-2018-> source code andexperiments resultsfor2018 Data Science Bowl.
open-solution-value-prediction-> source code andexperiments resultsforSantander Value Prediction Challenge.
open-solution-toxic-comments-> source code forToxic Comment Classification Challenge.
wiki challenge- An implementation of Dell Zhang's solution to Wikipedia's Participation Challenge on Kaggle.
kaggle insults- Kaggle Submission for "Detecting Insults in Social Commentary".
kaggle_acquire-valued-shoppers-challenge- Code for the Kaggle acquire valued shoppers challenge.
kaggle-cifar- Code for the CIFAR-10 competition at Kaggle, uses cuda-convnet.
kaggle-blackbox- Deep learning made easy.
kaggle-accelerometer- Code for Accelerometer Biometric Competition at Kaggle.
kaggle-advertised-salaries- Predicting job salaries from ads - a Kaggle competition.
kaggle amazon- Amazon access control challenge.
kaggle-bestbuy_big- Code for the Best Buy competition at Kaggle.
Kaggle Dogs vs. Cats- Code for Kaggle Dogs vs. Cats competition.
Kaggle Galaxy Challenge- Winning solution for the Galaxy Challenge on Kaggle.
Kaggle Gender- A Kaggle competition: discriminate gender based on handwriting.
Kaggle Merck- Merck challenge at Kaggle.
Kaggle Stackoverflow- Predicting closed questions on Stack Overflow.
kaggle_acquire-valued-shoppers-challenge- Code for the Kaggle acquire valued shoppers challenge.
wine-quality- Predicting wine quality.
Reinforcement Learning
DeepMind Lab - DeepMind Lab is a 3D learning environment based on id Software's Quake III Arena via ioquake3 and other open source software. Its primary purpose is to act as a testbed for research in artificial intelligence, especially deep reinforcement learning.
Gym - OpenAI Gym is a toolkit for developing and comparing reinforcement learning algorithms.
Serpent.AI - Serpent.AI is a game agent framework that allows you to turn any video game you own into a sandbox to develop AI and machine learning experiments. For both researchers and hobbyists.
ViZDoom - ViZDoom allows developing AI bots that play Doom using only the visual information (the screen buffer). It is primarily intended for research in machine visual learning, and deep reinforcement learning, in particular.
Roboschool - Open-source software for robot simulation, integrated with OpenAI Gym.
Retro - Retro Games in Gym
SLM Lab - Modular Deep Reinforcement Learning framework in PyTorch.
Coach - Reinforcement Learning Coach by Intel® AI Lab enables easy experimentation with state of the art Reinforcement Learning algorithms
garage - 可重复强化学习研究的工具包
metaworld - An open source robotics benchmark for meta- and multi-task reinforcement learning
acme - An Open Source Distributed Framework for Reinforcement Learning that makes build and train your agents easily.
Spinning Up - An educational resource designed to let anyone learn to become a skilled practitioner in deep reinforcement learning
Maze - Application-oriented deep reinforcement learning framework addressing real-world decision problems.面向应用的深度强化学习框架解决现实世界的决策问题。