从今天开始学习吴恩达大神的机器学习深度学习的视频,希望有所提高,并决定在简书记录,有什么不好的尽管提出来相互学习!在吴恩达教授视频学习专题中,都是我跟着吴恩达教授视频学习的心得和笔记。我个人认为,要进入机器学习,吴恩达老师的课程是最基础的,要踏入门槛的同学还是要好好地学习这类视频,打好基础啦!!!!
话不多说,直入主题。
监督学习(Supervised Learning)
先从一些例子开始讲述。
例子一:
假设你要预测房价,现已经有一些数据。
其中,横轴是不同房屋的平方英尺数,纵轴是不同房子的价格。现假如你有移动750平方英尺的房子,你想要知道你的房子可以卖多少钱。
就此已有数据的趋势,可以初步简单地拟合,分别用一条直线和二次函数取拟合数据。可以得到如下图。
若用直线拟合可以大概计算出这栋房子可以卖150$。若用二次函数拟合,这栋房子可以卖200$。
这就是监督学习的一个很典型的例子。可以做个简单的监督学习总结。
例子一总结:
针对以上例子,可以做个简单的学习总结。我们给算法一个数据集,其中包含了 正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子实际卖价,算法的目的就是给出更多的正确答案,例如你想要卖掉这所房子给出估价。用更专业的术语表达,它也被称为回归问题,这种回归问题就是我们想要预测连续的数值输出,在例子中就是价格,技术上而言,价格是能够精确到分,因此价格实际上一个离散值,但通常我们认为房价是一个实数,标量或是连续值。回归这个术语是指,我们设法预测连续值的属性。
例子二:
例子二的目的是设法预测乳腺癌是恶性还是良性的。现已经有一些先例。如下图:
其中,横坐标代表肿瘤的大小,纵坐标代表肿瘤是恶性还是良性,0(N)代表良性,1(Y)代表恶性。其实,这就是一个分类问题,预测的结果只有两个,良性或者是恶性。在分类问题中,有两外一种方式来绘制这些数据。下面将用O来表示良性肿瘤,X来表示恶性肿瘤。
在上面的例子中,只有一个属性,就是肿瘤的大小,但是在实际中,属性不仅仅只有一个。假设对于上面那个例子还增加了一个患者年龄。数据图如下。
其中横坐标为肿瘤尺寸大小,纵坐标为患者年龄。
在许多情况下,有许多算法会用一条直线来分离这两者肿瘤。如下图
根据上面的分类,我们就可以通过肿瘤尺寸和患者年龄来判断肿瘤是良性还是恶性。看到上面那个紫色的点,位于良性区域,因此认为肿瘤为良性的概率是比恶性的概率要大。
以上总结:
监督学习:基本思想是我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。
回归问题:回归是指我们的目标是预测一个连续值的输出。
分类问题:其目的是预测离散型输出。
小练习:
第一个问题:你有很多同一件货物的库存,假设你有几千件相同的货物要卖,你想预测在接下来的一个月你可以卖多少件。
第二个问题:你有很多用户,你想要写一个软件,来检查每一个客户的账户,以此判断客户的账户是否被入侵。
请你来判断以上两个问题是分类问题还是回归问题?
答案:第一个问题是回归问题,因为假设我有几千货物,我会将它看成一个实数,即一个连续的值,那就是说我要卖的货物数量看成一个连续的值。第二个问题是分类问题,因为我可能会设置我要预测的值为0(未入侵)或者是1(已被入侵),并用一个算法来预测这两个离散值。
无监督学习
无监督学习的数据和监督学习的数据是不一样的,无监督学习的数据都具有相同的标签或者是都没有标签。
我们得到一个数据集,我们不知道要做什么,也不知道每个点究竟是什么。我们只被告知有这样的一个数据集,你能在其中找到某种结构或规律吗?
无监督学习算法可能判定该数据集包含两个不同的类,右上角为一类,左下角为一类。这就是聚类算法。
有个典型的在我们身边的例子,很多网站会收集每一天的新闻,并按照主题把各种各样的新闻分类在一起。例如你点开娱乐,里面都会是明星的新闻;假如你点开体育,里面都会是关于体育的新闻。
在视频中,举了一个关于基因组学中的应用的例子。是一个DNA微阵列数据的例子,基本思想是给定一组不同的个体,对于每个个体,检测他们是否拥有某个特定的基因,也就是要检测特定基因的表达程度,下面图片中的红、绿、灰等颜色展示了不同的个体相应的程度,即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)……
这个就是无监督学习,因为我们并没有被提前告知算法一些信息,比如,这是第一类的人,这是第二类的人等等。我们拿到手上的只有一堆数据,不知道数据的类型与结构,这就需要我们自动地聚类。无监督学习的数据,就是我们没有给算法正确答案来回应数据集中的数据。
无监督学习,它是学习策略,交给算法大量的数据,并让算法未我们从数据中找出规律或结构。
总结
垃圾邮件问题,你已经知道哪些是垃圾邮件哪些是非垃圾邮件,然后再给你一堆邮件,让你去区分垃圾或者非垃圾,这就是监督学习问题。
新闻事件分类,给你一堆新闻让你去分类聚类,这就是无监督学习。
监督学习问题和无监督学习问题最大的区别就在于,对数据集,你是已经其分类或者规律还是未知?已知就是监督学习问题,未知就是监督学习问题啦!
参考:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
有什么问题尽管提出来!!!超级萌新求指点!