1.什么是数据分析
数据分析有很多种定义方式。在这里,只从三个方面对其进行描述:
1.1 数据分析的本质是比较
数据只有通过相互比较才会有意义。
举几个例子:
——实验设计,本质上是主动设计具备可比性的控制因素,以区分控制组和实验组,再用随机控制排除不可比的混杂因素,观察目标变量的变化。
——最优化问题,本质上是比较由不同决策变量生成的目标变量,在约束条件一致的情况下,找到最优的目标变量。
——假设检验,本质上是比较假设的真伪,对不能证伪的假设做评级比较。
——主观概率,本质上将定性比较数据化,实现精确的比较。
1.2 数据分析的目的是解决问题
分析工具会简化实际情况…分析以创建最有用的模型为目标…
为了解决问题,分析人员必须:
——先确定问题,把客户的问题转化为要分析的问题,能量化的要量化。
——确定假设,把客户的确定观点、自身知识等作为基准假设,同时要注意知识缺陷引起的基准假设谬误。
——分解问题到可管理、可解决的组块。
——有限决策,比如找到有意义的分析结论,完成无法证伪的假设评级,接受主观概率下的比较结果,采用启发式得到比直觉更优的结论,创建最满意而非最完美的模型等。
1.3 数据分析的基础是数据
整个分析过程都是以数据为基础进行的,包括:
——通过数据判断基准假设,发现未知信息或知识缺陷。
——通过探索性数据分析,寻找可能存在的数据模式。
——分解数据,从而观察和比较数据因子。
——通过数据精确度量假设、目标、可能性、相关性、误差等。
——利用关系数据库管理巨量数据。
——在进行分析前,完成混乱数据的整理。
2.简单的数据分析方法
2.1 调查和实验
适用场景:有控制组和实验组的场景
关键要素:控制组、实验组、混杂因素控制、随机控制
结论:选定解决策略
2.2 优化法
适用场景:最优化问题,启发式问题
关键要素:目标函数、决策变量、约束条件、可行区域、快省树
结论:最优目标变量、较优结果
2.3 假设检验
适用场景:利用有效证据选择假设
关键要素:证伪、诊断性、有效证据、假设评级
结论:采纳某一假设
2.4 贝叶斯规则
适用场景:需要整合新信息到分析中的场景
关键要素:基准概率、条件概率、条件概率互化、主观概率
结论:确定某一事件概率
2.5 数据图形化
适用场景:需要更直观的观察数据的场景
关键要素:目标相关、正确比较、多变量
结论:数据图形化得到的观点
2.6 回归
适用场景:预测问题,观察到数据的相关性
关键要素:相关系数r,回归方程、外插法、均方根误差、分割、预测功能、解释功能
结论:回归模型