监督学习和非监督学习的核心区别就是数据集是否有标记。
如上图,两堆数据是一样的,没有特殊标记。
什么是标记?
数据A,给你一千封邮件,其中标记了某些是垃圾邮件,有些是正常邮件。
数据B,给你一千封邮件,但是没有告诉你哪些是垃圾邮件。
因为数据A有标记,我们在机器学习的时候,要实现区分垃圾邮件这个分类器就简单得多了。
但是由于标记数据需要大量人工,所以无监督学习有较大的优势。
常用的无监督学习有哪些?
例如google搜索引擎,他每天收集大量新闻,为了把不同新闻划分到不同类目,就要使用无监督学习了。