[Week 1] Machine-learning Notes 1——Stanford University Coursera Lesson

What is Machine Learning?

什么是机器学习?

Two definitions of Machine Learning are offered. Arthur Samuel described it as: "the field of study that gives computers the ability to learn without being explicitly programmed." This is an older, informal definition.

现在有两种解释,一种是Arthur Samuel的过时并且非官方的定义: “无需通过精确的编程而提供给计算机学习能力的一种研究领域”

Tom Mitchell provides a more modern definition: "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E."

Tom Mitchell 提供了一种更先进的定义"一种从任务T的经验E中改善性能P的程序。"

Example: playing checkers.
E = the experience of playing many games of checkers
T = the task of playing checkers.
P = the probability that the program will win the next game.

In general, any machine learning problem can be assigned to one of two broad classifications:
Supervised learning and Unsupervised learning.

通常来讲,机器学习分为两大类:监督学习和无监督学习

Supervised Learning

In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output.
Supervised learning problems are categorized into "regression" and "classification" problems. In a regression problem, we are trying to predict results within a continuous output, meaning that we are trying to map input variables to some continuous function. In a classification problem, we are instead trying to predict results in a discrete output. In other words, we are trying to map input variables into discrete categories.
Example 1:
Given data about the size of houses on the real estate market, try to predict their price. Price as a function of size is a continuous output, so this is a regression problem.
We could turn this example into a classification problem by instead making our output about whether the house "sells for more or less than the asking price." Here we are classifying the houses based on price into two discrete categories.
Example 2:
(a) Regression - Given a picture of a person, we have to predict their age on the basis of the given picture
(b) Classification - Given a patient with a tumor, we have to predict whether the tumor is malignant or benign.

监督学习(Supervised Learning),意指给定一个算法,需要部分数据集已经有正确的答案。比如给定房价数据集。对于里面每个数据,算法都知道对应的正确房价,即这房子实际卖出的价格。算法的结果就是算出更多正确的价格,比如那个新房子,你朋友想卖的那个。用更术语的方式来定义, 监督学习又叫回归(Regression)问题,(应该是回归属于监督学习中的一种),意指要预测一个连续值的输出,比如房价。再比如分类问题。分类(Classification)是要根据1个或者多个特征(features),预测一个离散值输出,也是一种监督学习,指的是之前已经了一部分正确的答案,根据这个答案来学习从而预测新数据的结果。

有趣的学习算法能够处理无穷多个特征。不是3个5个这么少,要用到无数多个特征,非常多的属性(Attributes),那么,如何处理无限多的特征,甚至如何存储无数的东西到你的电脑里而又要避免内存空间的不足,这就是一种叫做“支持向量机(Support Vector)的算法”的功劳了。

总结:监督学习中,对于数据集中的每个数据,都有相应的正确答案(训练集),算法就是基于这些来做出预测。回归和分类问题都是监督学习的一种,前者通过回归来预测连续值输出。后者是通过分类来预测离散值输出。

Unsupervised Learning

Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don't necessarily know the effect of the variables.
We can derive this structure by clustering the data based on relationships among the variables in the data.
With unsupervised learning there is no feedback based on the prediction results.
Example:
Clustering: Take a collection of 1,000,000 different genes, and find a way to automatically group these genes into groups that are somehow similar or related by different variables, such as lifespan, location, roles, and so on.
Non-clustering: The "Cocktail Party Algorithm", allows you to find structure in a chaotic environment. (i.e. identifying individual voices and music from a mesh of sounds at a cocktail party).

无监督学习(Unsupervised Learning),在无监督学习中,没有属性或者标签这一概念,所有数据都是一样的,没有区别,它只是告诉我们,“现在有一个数据集,你能在其中找到某种结构吗?"例如聚类算法(Clustering algorithm),对于给定的数据集,无监督学习算法可能判定该数据集包含两个不同的聚类。无监督学习算法会把这些数据分成两个不同的聚类,这是用了聚类算法.我们没有给算法一个正确答案,但是他却能自己分好类,所以,这就是无监督学习。

Q: Is there a prerequisite for this course?
A: Students are expected to have the following background:

0 . 使用Octave的话,会学的更快。
1 . 了解基本计算机理论并且能够写一些不算复杂的代码
2 . 熟悉基本的概率论知识
3 . 熟悉基本的线性代数知识

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容

  • 屏幕的尺寸说的是对角线;5.2英寸=5.2*2.54cm=13.208cm如果说的是5.2英寸屏幕就是指的屏幕斜对...
    俊鹏被凤梨酥噎到阅读 1,905评论 0 0
  • 每日推荐: 每日一歌――孙燕姿《我也很想他》 每日一影――梁乐民&陆剑青《寒战》 开始记录的第一百零三天。 ...
    萨拉芯雪阅读 200评论 0 1
  • 一个人,一座城 此人无能,此城无门 一场梦,连一生 此梦无痕,此生遗恨 一段情,落红尘 此情无缘,此缘无分 一盅酒...
    竹影斋主人阅读 135评论 0 2
  • 非常感谢我的项目经理给我上了非常有价值的一课,整理出来,决定分享给大家,给还在管理上需要养料的读者: 首先要明确一...
    刘书亚的天堂之路阅读 414评论 1 1