概要
算法 + 数据”过渡到“学件”的形态:
“可重用”的特性能够获取大量不同的样本;“可演进”的特性可以适应环境的变化;“可了解”的特性能有效地了解模型的能力;因为是专家基础上建立的,所以比较容易得到专家级的结果;因为共享出来的是模型,所以避免了数据泄露和隐私泄露的问题。
梯度下降
注:步长设置需注意,设置过小收敛变慢,设置过大无法得到最优解
SVD
奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关;一个矩阵越“奇异”,其越少的奇异值蕴含了更多的矩阵信息,矩阵的信息熵越小。
推荐算法
注:搜索、推荐、广告本质都是匹配用户需求,都是解决信息过载的手段;但是解决的手段、目标不同,因此实现系统方法也有差异。
- 搜索要解决的是精确快速找到想要的结果。最重要的目标是降低延迟和提高相关性
- 推荐则更关注用户体验,让用户沉浸进去
- 广告则商业利益最大化为目标
- 三者的实现都可抽象为:过滤候选(filter)+排序候选(ranking)+个性化输出(personalization)
不管使用什么方法,协同过滤或基于物品属性的推荐,都是不会被原谅的商业工具,假阳性的错误会让用户逐渐流失。如果系统过滤掉那些我们一定不喜欢的东西,而不是给我们推荐一堆东西,我们可能会更加宽容和给予更多的理解。