fundamental concepts:our principles as the basis of success for a data-driven business(我们的原则是数据驱动业务成功的基础);acquiring and sustaining competitive advantage via data science(通过数据科学获取和保持竞争优势);the importance of careful curation of data science capability(谨慎管理数据科学能力的重要性)
thinking data-analytically
achieving competitive advantage with data science
sustaining(维持) competitive advantage with data science
formidable historical advantage(强大的历史优势)
unique intellectual property(独特的知识产权)
unique intangible collateral assets(独特无形抵押资产)
superior data scientists(优秀的数据科学家)(优秀的数据科学家需要有广泛的科学家社交圈,因为数据科学太广泛了,必须要摇人儿才能从容面对这些来路不明的问题)
superior data science management(卓越的数据科学管理)
attracting and nurturing data scientists and their teams(吸引和培养数据科学家及其团队)
examine data science case studies(检查数据科学案例研究)
be ready to accept creative ideas from any source(准备好接受来自任何来源的创意)
be ready to evaluate proposals for data science projects(准备评估数据科学项目的提案)(做题先审题,然后也要审参考答案)
example data mining proposal(数据挖掘方案示例)
flaws in the big red proposal(大红色提案的缺陷)(big red是出这个方案的咨询公司名)
大概列举了以下问题:
业务理解:目标变量定义不准确,比如没定义用户变化的时间范围;结合业务知识可以改善方案;
数据理解/数据准备:未包含被标记的训练集数据,未进行数据收集;
建模:线性回归不适合这个场景,应该使用其他方法,KNN、决策树等都更好,甚至可以用模型组合多模型结果对比来选取最优;
评估:评估不应该只在训练集,需要留出测试集数据;评估时未使用业务领域知识,可能遗漏一些问题;
部署:随机选取用户并且用得分线0.5来做比较不合适,模型得分0.5并不表示0.5的概率会发生用户丢失,并且0.5这个数值太随意了,并且既然模型得到的是一个有排名的结果,那么应该对结果进行排名,然后按照预算对排名前面的用户进行策略实施。
a firm's data science maturity(公司的数据科学成熟度)
对比了不同成熟度公司的做法,不成熟的公司更依靠个人英雄主义和运气来做成一件事。