面试工程体系篇

1、数据简单查看参考

  • 1.1、 查看数据描述性统计:describe()

  • 1.2、 查看数据字段名:columns()

  • 1.3、查看数据的类型以及缺失值情况info()

  • 1.4查看前几行数据:head()

注:有一些算法,比如组合算法,要求分类变量为因子行变量;层次聚类,要求是一个距

离矩阵,可以通过str函数进行查看数据类型要求,有些算法对

注:可以初步观察是不是有量纲的差异,为后续的分析做准备

  • 查看因子型变量占比情况:table/prop.table

注:可以为后续数据抽样做准备,看是否产生类不平衡的问题

2.数据缺失值处理

  • 2.1 info()函数进行简单查看

  • 2.2 isnull查看数据缺失值的情况,

  • 2.3mean()、modain函数,可以进行缺失值的插补工作还有有knn、袋装、中位数方法

  • 2.4missFores包中misssForest函数,可以进行随即森林方法插补

  • 2.5可以用回归分析的方法完成缺失值插补工作

  • 2.6如果样本量很多,缺失值数据很少,可以选择直接剔除的方法

3.数据异常值处理

  • 3.1describe()函数进行简单的查看,比如最大值、最小值

  • 3.2boxplot函数绘制箱线图

4.数据的抽样

  • sample函数进行随机抽样

  • caret包中的createDataPartition()函数对训练样本和测试样本进行等比抽样

  • caret包中createFold函数根据某一个指标进行等比抽样

  • DMrR包中的SMOTR函数可以解决处理不平衡分类问题

注:比如决策树算法中,如果样本严重不平衡,那么模型会出现欠拟合现象

5.变量的多重共线性处理

  • 结合业务,先删除哪些和分析无关的指标

  • corrgram包的corrgram函数查看相关系数矩阵

  • caret包的findCorrelation函数查看多重共线性

  • 如果相关性太大,可以考虑删除变量;如果变量比较重要,可以考虑主成分/因子分析进行降维处理

  • 确定多种共线性的方法,一般相关系数>0.7,且P<0.05(F检验的显著性)时变量之间存在共线性

  • 1、处理:变量剔除

  • 2、 改变解释变量的形式、如log转换,时间序列采用增量型变量

  • 3、 主成份分析

  • 4、岭回归(目标函数后加上惩罚项)

  • 5、增加样本容量

  • 6、逐步回归法

WechatIMG1336.jpeg
WechatIMG1337.jpeg
屏幕快照 2018-04-02 16.08.58.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 对于R语言的学习是在某位知乎大V的推荐下开始的,自己之前的学习不管是针对数据分析,数据挖掘还是机器学习,都是基于P...
    橘子侠阅读 9,572评论 0 2
  • 7月22日。 忙活了五六天,还是没做好充分的准备,客厅和卧室的灯还没装好,餐桌椅子还没买,却不得不提前入住。 他们...
    卜悠悠阅读 1,477评论 2 1
  • 前几天刷朋友圈看到这么两句话,黑底白字,深邃又神秘 有时候你想约个炮,却谈了场恋爱 有时候你想好好谈个恋爱,却发现...
    权宇凡阅读 5,052评论 0 0
  • 明天会更好是我们对所有明天的美好期待,我们总是愿意相信明天会更好,只是不努力的明天可能会糟糕。随着年龄的增长我们的...
    爱自由的木子阅读 3,265评论 2 2

友情链接更多精彩内容