特征工程在机器学习中往往是最耗时最耗力的,但却及其重要。抽象来讲,机器学习问题是把数据转换成信息再提炼到知识的过程。特征是“数据到信息”的过程,决定了结果的上限,而分类器是“信息到知识”的过程,则是去逼近这个上限。然而特征工程不同于分类器模型,不具备很强的通用性,往往需要结合对特征任务的理解。
深度学习最初之所以在图像和语音领域取得巨大成功,一个很重要的原因是图像和语音原始数据是连续和稠密的,有局部相关性。
由于训练需要大数据的现实,我们是不是就可以理解为深度学习就是一种记忆式学习呢?
有句话这么说,表示和特征提取解决后,人工智能问题也就解决了90%。表示是基础和关键的工作,表示其实就是将感知到的现象用数字表示,这种数字表示其实就是一种向量空间模型,将需要表示的现象映射到同一个向量空间下,在该空间下进行提取特征,从而保证合理性。我们可以看出,表示好坏,对特征提取也是有一定影响的。