所谓机器学习,也就是机器自身的学习,致力于通过计算的手段,利用经验来改善自身的性能。计算机系统里,“经验”通常以“数据”形式存在,机器学习的主要研究内容,是关于在计算机从数据中产生“模型”的算法,也就是学习算法。将经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型就能提供相应的判断。
从数据中学得模型的过程称为“学习”或者“训练”。训练过程使用的数据称为“训练数据”,其中每一个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。“聚类”过程,就是将训练集中的样本分为若干组,每组称为一个“簇”。
机器学习的目标是使学得的模型能很好地适用于“新样本”,模型适用于新样本的能力,称为“泛化”能力。