面试问题总结

1.LTWL(2019.4.8)

【a】朴素贝叶斯算法,防止类别样本数为0的平滑方法:拉普拉斯平滑
【b】learning-to-rank的三大类算法:pointwise、pairwise、listwise
https://blog.csdn.net/hguisu/article/details/7989489
【c】xgboost可以加category参数,不需要额外onehot编码
【d】early-stopping是比较好的防止过拟合的方式
【e】调参:数据量变化不大时,用上次调参结果附近微调 ;数据量变化大 网格搜索粗调,再微调
【f】一般xgboost、lightgbm调参是“网格搜索+early stopping”,深度学习里“随机搜索”效果好于“网格搜索”,贝叶斯优化的计算量有点大
【g】假设样本的 n 个特征属于 f 个field,那么FFM的二次项有 nf个隐向量。而在FM模型中,每一维特征的隐向量只有一个。FM可以看作FFM的特例,是把所有特征都归属到一个field时的FFM模型。如果隐向量的长度为 k,那么FFM的二次参数有 nfk 个,远多于FM模型的 nk 个。此外,由于隐向量与field相关,FFM二次项并不能够化简,其预测复杂度是 O(kn2)
【h】als算法是LFM算法在spark里的实现
[spark平台推出至今已经地带到2.1的版本了,但是在协同过滤这一块却一直以来都只有ALS一种算法。Hadoop中的机器学习算法库Mahout就集成了多种推荐算法,不但有user-cf和item-cf这种经典算法,还有KNN、SVD,Slope one这些。交替最小二乘法(Alternating Least Squares),它只是是一种优化算法的名字,被用在求解spark中所提供的推荐系统模型的最优解。]
https://www.cnblogs.com/mooba/p/6539142.html
【i】阿里的深度兴趣网络(DIN)用到了attention机制

2.YMT(2019.4.9)

feed架构: 多路召回,实时更新一些特征,用模型预测
考察特征重要性是,固定其他特征,单看要考察特征,特征变化前后和转化点击相关性

3.YH(2019.4.10)

链表里存在环,怎么找到倒数第n个节点
召回阶段模型特征和排序阶段模型特征并没有共用打通。
短视频推荐,物品特征从文本角度提取的特征。
多路召回不同路径并行不影响。
独立相似性的方法:考虑到item cf里的方法
给一个list里有x个视频,这x个视频属于y类,那么怎么把这x个视频打散,让任何两个相邻视频不是一类

4.JSKJ(2019.4.10)

ctr领域样本不均衡,负例采样1:100可以接受
数据样本量三四千万可以考虑用spark
spark建模精度相对不高

5.MRCD(2019.4.11)

XGBoost里特征分列方式,参考损失函数的二阶导数
auc的不同实现方式:利用y_{predict}从小到大排序后,label=1折线向上,label=0折线向右。
ctr推荐列表里,每个资讯条目点击与否都加入到建模样本里,而且不分排序先后不加权。
一个n位数,出现3的可能次数(排列组合)。。。
精排logloss-0.1附近可以接受
给两个升序排列数组,求交集

6.KH(2019.4.12)

从左上角走到右下角dp
三数之和
doc2vec
embedding
贝叶斯算法
怎么根据用户文本内容判别用户性别

7.YYHT(2019.4.15)

等概率抽五张卡片,要想抽齐五张的期望次数
求两个节点的最低公共父节点
dsp竞投策略

8.KLYD(2019.4.15)

xgb建树是无放回抽样,rf建树树有放回抽样

9.QH(2019.4.16)

二分查找,找小于等于某数的最大index
合并dic={网页id:插入index},arr=[网页id],要求不改变arr内网页id顺序

10.ZL(2019.4.17)

召回空值率

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,505评论 6 533
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,556评论 3 418
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,463评论 0 376
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,009评论 1 312
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,778评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,218评论 1 324
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,281评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,436评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,969评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,795评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,993评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,537评论 5 359
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,229评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,659评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,917评论 1 286
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,687评论 3 392
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,990评论 2 374

推荐阅读更多精彩内容