人们在网络上执行搜索的时候,会弹出来一系列根据搜索的词汇产生的结果,而且能对这些结果根据新闻、资讯、视频进行分类;在网络上进行购物的时候,没有进行搜索可以根据用户的历史记录进行推荐;高层面的根据人脸信息分析出用户画像针对性地投放广告,这一切的操作都可以通过机器学习来完成。
一般来说我们设计程序需要知道这整件事的逻辑,比如条件,执行方法,所需要的数据等。程序是愚蠢的只有我们告诉它要怎么做它才知道去怎么做,而机器学习是为了让我们赋予机器能够自我学习的能力,我们只要给它一个目标,它就能经过反复的学习去强化自己的认知能力, 而我们要做的就是设计出这样的一个算法模型,使得机器能够自我学习并趋近于这个目标。
机器学习分为两个大类,分别是监督学习和非监督学习。
监督学习指的是我们设计出一套算法后需要让机器进行学习的时候,比如图像分类,我们会事先给它一些数据,而这些数据是带标签的,比如一些猫的图片和狗的图片,将这些猫狗图片输入进机器后,机器根据反复的训练学习,了解到猫的图片的特征和狗的图片的特征,一开始一般是结果很差,经过多次的学习后能够逐渐的分类出猫和狗这两个类别。这种是有目标地学习,因为学习的目标有标签,而且同样类别的图片是有一些共性,当目标类别较少的时候机器能比较容易地学习到图像特征并进行分类,这种方式是有效且快捷的,所以比较广泛地应用。
非监督学习指的是我们只设计算法,不给图片打上标签,让机器自己去学习大量图片中各自的特征并进行分类,关注地更多的是聚类算法,因为聚类算法能将图片有相同特征的情况下进行聚合,不同特征的进行分离。这是非常AI的一个方向,因为它真正地让机器能够有自学的能力和自我泛化的能力。好处是因为标注图片需要花费大量人力资源,而非监督学习是无标签形式的,不需要花费人力资源给图片打上标签,并且可以循环扩增进行训练,使模型越来越鲁棒。但是目前来说非监督的学习的算法设计成本较高,而且效果很难达到人类识别的效果,所以目前还处于研究阶段。
我们要达到的目标是能够自己设计一套算法,分析数据特征,使得机器能够自我学习解决某些实际问题,了解到各种各样的算法和其中的特点,它需要有一定的数学能力和代码能力,在借下来的课程中慢慢学好,更希望能够通过自己的想法将某些问题利用机器学习的方式去实现它!