首先提出问题,根据数据凭借已有经验选择合适方法,(调查问卷用exel,SQL稍微大,更大用多普集群),数据来源。
数据分析范围很大
数据检验,假设检验(数据分布和缺失值),自动化需求有监控报表。
ETL抓取数据 分析假设检验 预测建模(分析不同因子在模型中的重要性) 可视化模型
反馈回到提出问题的阶段
(敏捷开发)通过快速迭代得到更好地结果
数据分析任务 1 数据获取ETL 2数据处理类: 交互可视化,信息汇总 量的产生,机器学习,假设检验 3后期自动化:后来对分析进行自动化:1自动可视化2 自动建模和假设检验 ;对数据平台的监控
最后一点 自动化的报告 而非手动
R有点错过了分布式计算的洪流
2012的数据科学家的问题:
1:后期参与决策,数据科学家没有参加,改不了;
2:自动化程度低,实际应用低
2017:
大公司不怎么做模型,而是做周围的产品,比如在云平台部署(如上图的工具特点)
三块五的表(笑哭)
数据提取:
SQL对不规则的,文本不方便 R:要安装包,麻烦 Py一个包解决
数据预处理:
R Py给操作人员自由度
可视化:
很大数据要在服务器端进行,而不在内存里,再在可视化,ELK平台好点,平常的话炸服务器
实战部署:
SQL有数据库就不用部署了。R生态有不同软件包等等所以很麻烦。
问卷:
有大的平台支持了,很简单入手了,很完备,但是自由度不大,虽然对各个方面很细。
1 前期处理类:SQL R Py,自动化比较少,但交互式强;2 全站处理类:不适合交互式分析,或只是常见场景
流程:前期用交互性强的初期分析,后期结果要自动化再用自动化工具简化流程
R Py生态,前期二选一,成熟后用全站的工具自动化
R里的包 生物信息学里重要的包:billconnector? R有太多小众的统计包,写法可能都不一样
Py 使用一下的通用软件包就行了
第四个:数据读取汇总 5 监督非监督式
py的借口标准化可移植