Pick一下?Python机器学习实用技巧

 姓名:樊松松

 学号:17021211234

 转载自https://www.leiphone.com/news/201805/CSzZ5XTvlILQYdVG.html,有删节

嵌牛导读】:这个Trick 值得Pick

嵌牛鼻子】: Python 机器学习

嵌牛提问】:Pick到了这些技巧Python会不会学得更好呢?

嵌牛正文】:

我们Pick了一些用Python进行机器学习实践的基本技巧。

我是一名计算机科学与技术专业的学生。我怎么才能入门机器学习/深度学习/人工智能?

入门机器学习从来不是一件简单的事。除了成熟的MOOC,网络上还有海量的免费资源,这里列举了一些曾经对我有帮助的资源:

从YouTube上的一些精彩的视频开始入门。读一些优秀的教材或文章。例如,你读过《 终极算法: 机器学习和人工智能如何重塑世界》吗?并且我敢保证,你会深深的爱上这本书里有关机器学习的精彩页面

首先要明确区分相关术语——机器学习、人工智能、深度学习、数据科学、计算机视觉、机器人。阅读或聆听专家的讲座。观看Brandon Rohrer的精彩视频,他是一位很有影响力的数据科学家, 这些视频清晰的讲述了数据科学相关概念的定义和区别。

清楚知道自己学习想要达到的目标。然后,学习Coursera的课程,或者一些来自华盛顿大学的课程,也是不错的选择。

关注一些优秀的博客: KDnuggets,Mark Meloon的博客,是关于数据科学的,Brandon Rohrer的博客,Open AI的博客,主要是关于他们的研究的。

如果你对在线mooc课程充满热情,不妨看看这篇文章的指导。

最重要的是,培养一种感觉。加入一些好的社交论坛, 但是要抵制住诱惑,不要去关注那些耸人听闻的标题和新闻内容。 做你自己的阅读,了解它是什么,它不是什么,它可能去哪里,它会有什么样的可能性。  然后坐下来思考如何将机器学习或者将数据科学原理应用到日常工作中。  建立一个简单的回归模型来预测下一顿午餐的成本,或者从电力公司那里下载你的用电数据,然后在Excel中做一个简单的时间序列图来发现一些用电规律。 在您完全沉迷于机器学习之后,可以看看这个视频。

对于机器学习/人工智能,Python是一款优秀的语言吗?

 除非你是一个研究复杂算法的纯理论证明的博士研究员,否则你将主要使用现有的机器学习算法,并将它们应用于解决新问题。这就需要你懂得如何编程。

关于“最优秀的数据科学语言”有很多争论。当争论激烈的时候,停下来读读这篇有见地的文章,了解你的想法,看看你的选择。或者,看看 KDnuggets 的文章。目前,大家普遍认为,从开发到部署及维护,Python可以帮助开发人员更有效率。与 Java、C 和 C++ 相比,Python 的语法更简单,更高级。 它拥有充满活力的社区,开源文化,数以百计高质量的机器学习程序库,以及来自行业巨头的鼎力支持(例如:谷歌,Dropbox,Airbnb 等)。这篇文章会关注PythonIt应用于机器学习上的相关基本技巧。

需要了解及掌握的基础程序库

为使机器学习实践效率更高,你需要掌握一些 Python 核心库。这些库简单介绍如下。

Numpy

Numerical Python的缩写,NumPy 是采用 Python 进行科学计算和数据分析所必须的基本程序库。几乎所有的高级工具都是基于 Numpy 构建的,例如 Pandas 和 scikit-learn。 TensorFlow 使用 Numpy数组作为基础构件模块,基于此,为深度学习任务构建了 Tensor 对象和 graphflow 。很多 Numpy 操作都是用 C 实现的,这使它运行更快。对数据科学和现代机器学习任务来说,这是一个宝贵的优势。

Pandas

这是 Python 科学计算领域进行通用数据分析方面最流行的库。Pandas 基于 Numpy 数组构建,因此保留了计算速度快的特性,并且提供了很多数据工程领域的功能,包括:

可以读/写多种不同的数据格式;

选择数据子集;

跨行列计算;

查找并填充缺失的数据;

将操作应用到数据中的独立组 ; 

将数据重组成不同的形式;

合并多个数据集;

高级的时序功能;

通过 Matplotlib 和 Seaborn 实现可视化;

Matplotlib 与 Seaborn

数据可视化和善于用数据表达是每一位数据科学家应有的基本技能,这些技能可以有效传达从分析中获得的信息。这对于掌握并精通机器学习是非常重要的,在你的机器学习工作流(ML Pipeline)中也是如此。在决定应用特定的ML算法之前,您需要对数据集进行探索性分析。

Matplotlib 是应用最广泛的2维可视化库,它拥有令人眼花缭乱的数组命令和接口,能够从数据生成高质量的图表。这里有一个非常详细和内容丰富的文章,可以帮你入门 Matplotlib 。

Seaborn 是另一个非常棒的专注于统计绘图的可视化库。机器学习从业者是值得学习的。在 Matplotlib 基础之上,Seaborn 提供 API (具备绘图样式和颜色默认的灵活选择),针对常见的统计绘图类型它定义简单的高级函数,针对 Pandas 库可以无缝对接。这里有一份适合初学者的很棒的 Seaborn 教程。

Seaborn plots的例子

Scikit-learn

Scikit-learn 是必备的最重要的常见 Python 的机器学习包。它支持多种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN 。Scikit-learn 可与 NumPy 库 SciPy 库交互操作。它通过一致界面提供一系列的监督和非监督算法。Scikit-learn 库致力于实现一定程度的健壮性和支持生产实践中的使用。这意味着要深入关注例如易于使用,代码质量,协作,文档和性能等问题。可以看看这篇关于Scikit-learn使用的机器学习词汇的简单介绍。这里是另一篇文章,演示了使用 Scikit-learn 的简单机器学习管道方法这里有另一篇使用Scikit-learn演示简单的机器学习方法的文章。

Scikit-learn背后的闪光点

针对机器学习初学者和经验丰富的专业人士,Scikit-learn 是非常容易上手的包。然而,即使是非常有经验的ML从业人员也可能没有意识到这个包背后所有的的闪光点,它们可以显着提升效率。我试图展示scikit-learn中少为人知的方法/接口。

管道:它可以将多个 estimators 封装成一个。处理数据过程中通常有一系列固定步骤所以它非常有用,例如特征选择、规范化和分类。这里有份教程供深入了解。

网格搜索:超参数不是在estimators直接学习到的参数。在 scikit-learn 中它们作为参数传递给估计类的构造函数。搜索超参数空间以便获得最好交叉验证分数是可行且被推荐的做法。当构建 estimators 时待估的任何参数都可以用这种方式优化。点击这里阅读更多信息。

验证曲线:每个 estimator 都有其优缺点。泛化误差可依据偏差,方差和噪音分解。estimators 的偏差是不同训练集的平均误差。estimators 的方差表示其对改变训练集有多敏感。噪音是数据的一个属性。绘制单个超参数在训练集和验证集的分数,以确定某些超参数估计量是过拟合还是欠拟合的做法是非常有用的。Scikit-learn 内置方法请移步于此。

分类数据的独热编码:它是一种非常常见的数据预处理任务,用于将输入的分类特征转换为分类或预测任务中使用的二进制编码(例如:掺有数指和文本特征的逻辑回归)。Scikit-learn 提供强大而简单的方法实现上述过程。它直接在 Pandas 数据框或 Numpy 数组上操作,因此便于用户为这些转换编写任何特殊的 map/apply 函数。

多项式特征生成:对于不尽其数的回归建模任务,在输入数据中考虑非线性特征来增加模型的复杂性是有用的。一个简单且常用的方法是使用多项式特征,可得到特征的高阶和交互项。Scikit-learn有现成的函数,可根据给定的特征集和用户选择的最高多项式的程度生成高阶的交叉项。

数据集生成器:Scikit-learn包含各种随机样本生成器,可用于构建给定大小和复杂度的人工数据集。它具有分类,聚类,回归,矩阵分解和多种测试的函数。

实践交互式机器学习

在2014年 Jupyter 项目于脱胎于 IPython 项目,并迅速演变为支持所有主流编程语言的交互式数据科学和科学计算的笔记本。毫无疑问,它在帮助数据科学家快速测试,为他/她的想法创建原型,展示成果给同行和开源社区等方面带来巨大影响。

然而,只有当用户能够交互式地控制模型参数并实时看到效果(几乎)的时侯,学习和测试数据才变得真正浸润其中。Jupyter 中大多数呈现都是静态的

但是你需要更多控制,你想通过简单的滑动鼠标而不是通过编写 for 循环改变变量。该怎么办?你可以使用 IPython 的插件。

插件是重要的 python 组件,它通过浏览器有所体现,通常作为一个前端 (HTML/JavaScript) 呈现通道控件,如滑块、文本框等。

本文我演示使用简单插件完成基础的曲线拟合练习。后续文章将进一步扩展到交互式及其学习技术领域。

深度学习框架

本文介绍使用 Python 探索机器学习奇妙世界的重要技巧。但它不包括 TensorFlow,Keras 或 PyTorch等深度学习框架,因为它们每一个都需要深入讨论。您可以在这里阅读一些关于上述主题的非常棒的文章,但稍后我们可能会对这些惊艳的框架进行专门讨论。

7 great articles on TensorFlow (Datascience Central)

Datacamp tutorial on neural nets and Keras example

AnalyticsVidhya tutorial on PyTorch

总结

文章不可能覆盖机器学习主题的全部内容(即使是一小部分)。但是,希望这篇文章能激发你的兴趣,也为你提供 Python 生态系统中已存在一些强大框架的明确指针,确保开始你的机器学习之旅。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容