人类的努力应该是没有边界的,我们千差万别,不管生活看上去有多糟糕,总有你能够做的事情,并且能够成功。有生命的地方,就有希望。——《万物理论》
从春招实习到秋招面了很多家公司,总结一下面经,有些时间久远可能会遗漏
【京东 搜索与推荐平台部】
现场1轮笔试,主要是一些C++基础、两个编程题:(1)行和列都是递增的矩阵,查找某个值,剑指offer原题;(2)给定一个数组,相邻元素之差的绝对值<=1,如[1,2,3,2,2,1,2],如何快速查找某个数
说一下现场笔试的第二道编程题怎么做的
C++的内存对齐,给了几个struct计算占用内存;C++纯虚函数、虚函数表说一下
说一下Word2vec,看过源码吗?源码里面是如何负采样的,为什么要层次化softmax,sigmod在源码里面的计算方法是什么
介绍一下实习的项目,并且问了文本相似度如何计算,项目中的矩阵分解算法ALS的原理是什么
【腾讯 腾讯新闻、腾讯云、微信、AI平台部】
手写代码:(1)单链表反转;(2)层次遍历二叉树;(3)求组合数,如给定“abcd”组合数为“a b c d ab ac ad ....”;(4)求第K大的数;(5)字符串去空格,要求不用辅助空间;(6)一个数组出来两个不同的数,其他数都出现两次,找出这两个数
用户输入一个字符串,找出字典中和该字符串具有一样字母的所有单词,如“abc”和“cba”含有相同字母,要求时间复杂度尽可能低
了解哪些文本匹配的方法,DSSM这些;项目中矩阵分解算法原理,数据规模多大
Learning to Rank了解吗,三种模式说一下(pair wise、point wise、list wise)
信息检索领域的评价指标有哪些,MAP、NDCG能介绍下吗?
智力题,25匹马5个赛道,最多几轮选出前三名
给了一张纸,上面有几道非常基础的C语言题目,如sizeof的计算、struct内存占用
给定一个无向图,求联通子图的个数,从广搜引出并查集,问并查集为什么要快一点
说一下SVM,AI平台部还叫手推了公式,并且问SVM如何做回归
写个归并排序,写完后说能不用辅助数组吗?(貌似原地归并排序,面完查的。。)
linux head diff等命令
说一下 map reduce 原理
说一下join原理,并用spark python/scala 实现join(先说下join 的 map reduce过程)
说下LR, 伯努利分布,二项分布和多项式分布,以及共轭先验(狄利克雷等。。)
指数族和广义线性模型
线性回归服从什么分布(噪声高斯分布),均值方差如何定义呢,和最小二乘的关系(概率角度推导出来?),L1 L2正则(引出先验概念,拉普拉斯和高斯)
如何对几百万的商品标题进行语义去重(句子embedding的各种构造方法,然后聚类降低时间复杂度,簇内查找)
知识图谱表示学习和Word2vec这种词向量嵌入有什么异同呢
给定一些query和doc点击数据,如何从里面找出相关词(同义词的意思)
【阿里 新零售】
阿里面试比较独特:
一面:面试官问熟悉什么语言?我说C++,然后打开了远程编程,给定了特征向量和标签,叫我用C++实现一个分类器(30分钟内),本来想用逻辑回归,怕C++时间不够写,认怂了我实现了KNN好在代码跑通了。
然后就是常规的面试了,问了下熟悉哪些机器学习算法,信息增益和基尼指数的本质差别是什么
二面:非常详细的介绍了项目,其中问了知识图谱的TransE算法;深度学习的优化方法介绍下,SGD。Adagrad等等;Attention机制
三面交叉面:交叉面纯粹问项目,面试官对知识图谱很感兴趣,问了很多东西,具体就不说了
【头条】
单链表反转、快排
给定一个论文引用数的数组,求作者的H-index,用O(n)的时间复杂度,Leetcode原题
两个排序数组求中位数,log时间复杂度
给一个2n*2n的棋盘,随机挖掉一块,然后用折形砖块覆盖,给出覆盖方案
旋转数组查找
只用随机函数rand3、rand4、rand5,随机产生1~3 1~4 15随机数,实现等概率产生1100的随机数
面试官把电脑拿过来,叫用python现场处理数据(特征统计等),15分钟限时
8.场景题: 如何识别标题党
如何进行实体消歧,如“普通老百姓”,可能是电视剧名字,也可能是人的称谓
推荐系统的多样性如何设计,给定了session的数据,叫设计一个公式来计算推荐内容的多样性
如何快速查找相似向量(百万级、千万级),说一下KD树,KD的时间复杂度,KD最坏情况下应该怎么办
知识图谱关系抽取的技术说了一遍
【百度 Feed 知识图谱部 自动驾驶技术部】
用你所学的知识说下怎么计算文本相似度 无监督:词袋模型、word embedding→sentence embedding,doc2vec, autoencoder 有监督:深度语义匹配(DSMM、CDSSM、MVDSSM或其他,孪生网络:bilstm、交互式Attention、交叉熵&对比损失、数据不均衡、数据增强等方面说了)
单链表判断是否相交,有环&无环两种情况
介绍下word2vec,相比简单的神经网络模型有什么优点
cross-lingual word embedding怎么做
给一个(query 频数)文件,取频率最高的k个query,讲了一下小顶堆,然后让用简单的方法实现(shell的sort和python)
讲一下TransE算法有什么缺点,如何改进
写一下交叉熵公式
32×32×3的输入,5×5×10,步长2,算下CNN的输出shape和参数数量
说一些HMM和CRF,怎么做分词、标注问题(再说了下LSTM+CRF,以及多目标学习等)
讲一下EM算法,E步和M步的具体步骤,E中的期望是什么(关于什么分布的期望)
给一个股票价格涨幅数组 [10%, -20%, 10%,...],相比前一天的涨幅比例,求出买卖的最大收益;给出绝对价格数组,最多买卖2次,最大收益多少
一排灯泡n个开始时熄灭,第一次2的倍数的灯泡状态变,第二次3的倍数的灯泡状态变,。。。,第n-1次后,多少个灯泡亮着
场景题:自动驾驶中如何考虑场景因素,来指导车辆怎么开
强化学习在NLP中有什么应用,解释一下策略梯度,reword等
机器学习的衡量指标有什么,如何解决过拟合和欠拟合
写一个快排;写一个大数相加
写一下单链表冒泡排序
写一下项目中用到的跨语言Embedding的推导过程
深度学习一阶优化和二阶优化的方法有哪些,基于动量的方法为什么能快速收敛
Word2vec为什么能学习出语义相似的词语呢
传统的softmax词向量模型为什么计算效率低,词嵌入应该从输入层获取还是输出层获取(因为softmax词向量模型有两个矩阵都含有词嵌入)
投一个骰子,直到抛到6点停止,问抛的次数的期望?
冒泡排序;杨辉三角;
linux命令:如何按照第二列从大到小排序文件
给一个日志,里面记录了每个用户的登入和登出时间,如何统计每秒有多少个用户在线
海量数据处理:两个大文件求交集
有一个token上面有6个电子数字,反转后数字相同的概率是多少
面的有点多,有些记不起来了-_-||
【爱奇艺】
用能想到的方法实现斐波那契数列,如何估计到多少项时数列的值会超过INT范围(上界下界分析),递归实现斐波那契数列时:时间复杂度和空间复杂度是多少?
说一下GBDT的原理
写一下大顶堆插入函数
介绍一下极大似然估计,和最大后验的区别是什么
给定N个框,可以往每个框放若干个苹果,给定一个数K,如何设置每个框内的苹果数,使之能够保证:选取若干个框并取出里面的所有苹果数刚好等于K
给了一道贝叶斯概率计算的题,具体忘记了
文本匹配模型有什么
BN的作用是什么,什么时候用BN
【微软】
写一下编辑距离,然后证明DP公式的正确性
给一个随机函数fun,30%的概率产生1,70%产生0,如何用fun产生等概率的0和1
word2vec中,负采样相比层次化softmax,有什么优缺点?层次化softmax能保证概率归一化吗?
文本相似度计算方法有什么,当我说完后,面试官说你说的基本都是深度学习方面的,经典的NLP方法知道有哪些吗
写一个快排,非递归
给一个100万规模的词典,一个长文档,如何快速从里面标注出所有的词,写一下代码
场景题:如何给问答系统中的新问题推荐答案
场景题:单词纠错怎么做
场景题:如何让对话机器人产生的回答更具情感性,面试官简化了问题:机器人产生回答后,我们给回答加前缀,比如问“今天吃饭了吗?”,回答“【嗯呀】,我吃了”,如何从大规模QA数据中统计出要加哪些前缀(如上面的“嗯呀”),然后判断是否需要加前缀,需要加什么前缀
手写代码:单链表找交点;非递归前序遍历二叉树
手写代码:给一个N*M的棋盘,从(1, 1)移动到(N, M),只能向右或向下,计算方案数,如果N和M很大怎么办?
场景题:对话机器人说了一句话后,如何判断该话是否含有反动、暴力元素,有标注数据怎么做,无标注数据怎么做
GBDT原理说一下
词向量的方法说一下,比如Glove,PMI分解,问Facebook提出的模型看了没
KMP算法有什么缺点?除了KMP,还有什么算法可以快速做字符串查找
智力题:丢两个骰子,最可能出现的点数和是多少?3个骰子呢,不能枚举,面试官让快速估计
文本分类的方法有哪些,深度学习和非深度学习的方法都说一下
fasttext和textCNN说一下吧
推荐系统:FM算法、ALS矩阵分解、协同过滤算法都说一下,并说下优缺点?
上述内容可能会有所遗漏,希望能帮到下一届的师弟师妹们~