网宿算法面试2019届

1. 标准化,为什么要标准化

2. 怎么检测异常值,或者判断其为异常值:散点图、箱型图、还有一些统计学方法

基于分类模型的异常值检测:

根据已有的数据,然后建立模型,得到正常的模型的特征库,然后对新来的数据点进行判断。

从而认定其是否与整体偏离,如果偏离,那么这个就是异常值。

建立贝叶斯模型、神经网络模型、分类模型、决策类分类、SVM的方法

3。怎么进行特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能:

1)减少特征数量、降维,使模型泛化能力更强,减少过拟合

2)增强对特征和特征值之间的理解

要从两方面考虑来选择特征:

1.特征是否具有发散性:

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

2.特征与目标的相关性:

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

Filter方法

过滤法的主要思想是查看特征的发散性和特征与目标的相关性,通过设定阈值的方法,过滤发散性低、相关性不强的特征。

过滤法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,即先选好特征,再用过滤后的特征来训练模型。

方差法、person系数、互信息、卡方检验

Wrap法

过滤法在选择特征时不考虑特征对学习器的效果,包裹式选择就很灵性了。

包裹式通常根据预测效果评分来为学习器“量身定制”特征子集,相较于过滤法,能使学习器的性能更佳,缺点即是计算开销往往也更大。

Embedded法

嵌入式特征选择方法也很灵性。

嵌入式的特征选择方法将特征选择和学习器的训练过程融为一体,即学习器自动的进行了特征选择。

比如决策树的信息增益、信息增益比、基尼指数,求解最优解时的L1、L2正则化等思想,都能选取对学习器有价值的特征,过滤价值不大的特征。

4. 人脸定位

人脸定位,一般是指人脸关键点定位。人脸识别包含了:人脸检测,人脸定位,人脸比对

5. 2个项目具体内容(自己做过的2个项目)

6. pca过程

7. 缺失值处理(类别型,连续型)

8. 怎么解决线性回归中的共线性问题

9. 交叉验证怎么进行特征选择

10. 不均衡数据处理方法

11. 有没深度学习实战经验

12. 随机生成大数据集数据,求前10个数据(一次性无法放入内存中,你怎么做?)。

外部排序指的是大文件的排序,即待排序的记录存储在外部存储器上,在排序过程中需进行多次的内、外存之间的交换。

首先将打文件记录分成若干个子文件,然后读入内存中,并利用内部排序的方法进行排序;

然后把排序好的有序子文件(称为:归并段)重新写入外存,再对这些归并段进行逐个归并,直到整个有序文件为止。

13. spark技能掌握程度

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 去年年末的时候,在手机备忘录写下了新一年的目标和愿望,然后换了手机用,旧手机出现了点问题,备忘录没有被打开...
    豆豆豆酱阅读 884评论 0 0
  • 这次讲一个关于吸烟的故事。 有个男人特别喜欢抽烟,多到一天要抽掉四十几根烟。 一天一共24小时,他一小时抽两根都不...
    丁目阅读 252评论 0 0
  • 翠儿 盛夏,燥热。 村东头,左手第二家,老申家的大门外,来了不少的村民。 周遭死寂,众人用力憋着气,谁也不敢呼吸,...
    生活故事录阅读 221评论 0 0
  • 我国的政治传统一直保留着神秘的成分,我们对政府的行政印象一直保留在政治课本上,《人民的名义》热播,得以一窥党政机关...
    莫味道阅读 236评论 0 2