数据获取手段
数据仓库
检测与抓取
填写 日志 埋点
计算
数据仓库
分析仅靠运行的数据库无法完成 数据更改 减少冗余
需要把用户的操作过程如实记录 并长期保留
-
将所有业务数据经汇总处理 构成数据仓库(DW)
- 全部事实记录(全面 完备的 尽可能详细的)
- 部分维度与数据的整理(数据集市 DM)(方便以不同维度抽取和整理)不可能全部抽取
-
DB VS DW
- DB面向业务存储(高并发 提高用户体验) 仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
- 举例:购书是一个主题 在何时购买的图书 谁以什么样的价格 购买了什么样的书 就是购买主题的一个记录
记录有时间 用户 书籍各个维度信息 - DB(OLTP应用) DW(OLAP针对分析)
- DB组织规范 DW可能冗余 相对变化大 数据量大(每时每刻都在记录 分布式)
监测与抓取
- 抓取:直接解析网页、接口 文件信息 整理数据 集中展示
- 常用工具: urllib urllib2 requests scrapy PhantomJS (渲染) beautifulSoup Xpath
填写 埋点 日志
- 用户填写信息
- app或网页埋点(特定流程的信息记录点) :
- 用来跟踪app使用情况 进一步进行优化管理 访问 访客 跳出率
- two ways: 页面统计 统计操作行为 直接记录用户与互联网交互的过程 可以复现 用户使用互联网产品过程
- 可以自己开发 也可以使用插件
- 日志:日志更精简 出故障可以定位问题 以文件汇总 有前端日志 需要传输到后端 才能获取 后端日志
计算
- 通过已有数据计算生成衍生数据
比如:统计报表某些项目 不能被观测 需要计算才有意义
数据学习网站
- kaggle
- 天池比赛 众智
- imagenet图片研究 Open Images
- 各领域统计数据(统计局 政府机构 政府财报)