这章没太看懂……以后回头再看
滥用数据容易导致局部优化,进而忽视大局,这是极其危险乃至致命的。
人类提供灵感,机器负责验证
数学在优化已知系统方向可以做的很好,而人类更善于发现新的系统。换言之,渐进式的改变可以达到局部极限,创新则可能导致全局洗牌。
数据科学家的思维方式(模式)
10条创业者需要避免的数据圈套
(1)假设数据没有噪声。分析前先好好检查你的数据是否有效、实用。
(2)忘记归一化。
(3)排除异常点 。
(4)包括异常点。
(5)忽视季节性。考虑一天中不同时间、一周中星期几、一年中不同月份对数据的影响。
(6)抛开基数侈谈增长。
(7)数据呕吐。如果你不知道什么数据对你更重要,那么即使你的数据统计版再大也没有用。
(8)谎报军情的指标。对异常数据的识别阈值设置的过于敏感导致警报不停。
(9)“不是在这儿收集的”综合征。多来源的数据相互结合
(10)关注噪音。