吴恩达机器学习——第一章:监督学习VS非监督学习

       从今天开始学习吴恩达大神的机器学习深度学习的视频,希望有所提高,并决定在简书记录,有什么不好的尽管提出来相互学习!在吴恩达教授视频学习专题中,都是我跟着吴恩达教授视频学习的心得和笔记。我个人认为,要进入机器学习,吴恩达老师的课程是最基础的,要踏入门槛的同学还是要好好地学习这类视频,打好基础啦!!!!

话不多说,直入主题。

监督学习(Supervised Learning)

先从一些例子开始讲述。

例子一:

假设你要预测房价,现已经有一些数据。

房价预测数据图

其中,横轴是不同房屋的平方英尺数,纵轴是不同房子的价格。现假如你有移动750平方英尺的房子,你想要知道你的房子可以卖多少钱。

就此已有数据的趋势,可以初步简单地拟合,分别用一条直线和二次函数取拟合数据。可以得到如下图。


拟合趋势图

若用直线拟合可以大概计算出这栋房子可以卖150$。若用二次函数拟合,这栋房子可以卖200$。

这就是监督学习的一个很典型的例子。可以做个简单的监督学习总结。

例子一总结:

针对以上例子,可以做个简单的学习总结。我们给算法一个数据集,其中包含了 正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子实际卖价,算法的目的就是给出更多的正确答案,例如你想要卖掉这所房子给出估价。用更专业的术语表达,它也被称为回归问题,这种回归问题就是我们想要预测连续的数值输出,在例子中就是价格,技术上而言,价格是能够精确到分,因此价格实际上一个离散值,但通常我们认为房价是一个实数,标量或是连续值。回归这个术语是指,我们设法预测连续值的属性。

例子二:

例子二的目的是设法预测乳腺癌是恶性还是良性的。现已经有一些先例。如下图:


乳腺癌现有数据

其中,横坐标代表肿瘤的大小,纵坐标代表肿瘤是恶性还是良性,0(N)代表良性,1(Y)代表恶性。其实,这就是一个分类问题,预测的结果只有两个,良性或者是恶性。在分类问题中,有两外一种方式来绘制这些数据。下面将用O来表示良性肿瘤,X来表示恶性肿瘤。


肿瘤大小数据一维图

在上面的例子中,只有一个属性,就是肿瘤的大小,但是在实际中,属性不仅仅只有一个。假设对于上面那个例子还增加了一个患者年龄。数据图如下。


年龄-肿瘤大小数据图

其中横坐标为肿瘤尺寸大小,纵坐标为患者年龄。

在许多情况下,有许多算法会用一条直线来分离这两者肿瘤。如下图


直线分离肿瘤

根据上面的分类,我们就可以通过肿瘤尺寸和患者年龄来判断肿瘤是良性还是恶性。看到上面那个紫色的点,位于良性区域,因此认为肿瘤为良性的概率是比恶性的概率要大。

以上总结:

监督学习:基本思想是我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。

回归问题:回归是指我们的目标是预测一个连续值的输出。

分类问题:其目的是预测离散型输出。

小练习:

第一个问题:你有很多同一件货物的库存,假设你有几千件相同的货物要卖,你想预测在接下来的一个月你可以卖多少件。

第二个问题:你有很多用户,你想要写一个软件,来检查每一个客户的账户,以此判断客户的账户是否被入侵。

请你来判断以上两个问题是分类问题还是回归问题?

答案:第一个问题是回归问题,因为假设我有几千货物,我会将它看成一个实数,即一个连续的值,那就是说我要卖的货物数量看成一个连续的值。第二个问题是分类问题,因为我可能会设置我要预测的值为0(未入侵)或者是1(已被入侵),并用一个算法来预测这两个离散值。

无监督学习

无监督学习的数据和监督学习的数据是不一样的,无监督学习的数据都具有相同的标签或者是都没有标签。


无监督学习数据集

我们得到一个数据集,我们不知道要做什么,也不知道每个点究竟是什么。我们只被告知有这样的一个数据集,你能在其中找到某种结构或规律吗?

无监督学习算法可能判定该数据集包含两个不同的类,右上角为一类,左下角为一类。这就是聚类算法。


无监督学习聚类

有个典型的在我们身边的例子,很多网站会收集每一天的新闻,并按照主题把各种各样的新闻分类在一起。例如你点开娱乐,里面都会是明星的新闻;假如你点开体育,里面都会是关于体育的新闻。

在视频中,举了一个关于基因组学中的应用的例子。是一个DNA微阵列数据的例子,基本思想是给定一组不同的个体,对于每个个体,检测他们是否拥有某个特定的基因,也就是要检测特定基因的表达程度,下面图片中的红、绿、灰等颜色展示了不同的个体相应的程度,即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)……


DNA微阵列

这个就是无监督学习,因为我们并没有被提前告知算法一些信息,比如,这是第一类的人,这是第二类的人等等。我们拿到手上的只有一堆数据,不知道数据的类型与结构,这就需要我们自动地聚类。无监督学习的数据,就是我们没有给算法正确答案来回应数据集中的数据。

无监督学习,它是学习策略,交给算法大量的数据,并让算法未我们从数据中找出规律或结构。

总结

垃圾邮件问题,你已经知道哪些是垃圾邮件哪些是非垃圾邮件,然后再给你一堆邮件,让你去区分垃圾或者非垃圾,这就是监督学习问题。

新闻事件分类,给你一堆新闻让你去分类聚类,这就是无监督学习。

监督学习问题和无监督学习问题最大的区别就在于,对数据集,你是已经其分类或者规律还是未知?已知就是监督学习问题,未知就是监督学习问题啦!


参考:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes


有什么问题尽管提出来!!!超级萌新求指点!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容