算法 - 简书

人类的努力应该是没有边界的，我们千差万别，不管生活看上去有多糟糕，总有你能够做的事情，并且能够成功。有生命的地方，就有希望。——《万物理论》

从春招实习到秋招面了很多家公司，总结一下面经，有些时间久远可能会遗漏

【京东搜索与推荐平台部】

现场1轮笔试，主要是一些C++基础、两个编程题：（1）行和列都是递增的矩阵，查找某个值，剑指offer原题；（2）给定一个数组，相邻元素之差的绝对值<=1，如[1,2,3,2,2,1,2]，如何快速查找某个数
说一下现场笔试的第二道编程题怎么做的
C++的内存对齐，给了几个struct计算占用内存；C++纯虚函数、虚函数表说一下
说一下Word2vec，看过源码吗？源码里面是如何负采样的，为什么要层次化softmax，sigmod在源码里面的计算方法是什么
介绍一下实习的项目，并且问了文本相似度如何计算，项目中的矩阵分解算法ALS的原理是什么

【腾讯腾讯新闻、腾讯云、微信、AI平台部】

手写代码：（1）单链表反转；（2）层次遍历二叉树；（3）求组合数，如给定“abcd”组合数为“a b c d ab ac ad ....”；（4）求第K大的数；（5）字符串去空格，要求不用辅助空间；（6）一个数组出来两个不同的数，其他数都出现两次，找出这两个数
用户输入一个字符串，找出字典中和该字符串具有一样字母的所有单词，如“abc”和“cba”含有相同字母，要求时间复杂度尽可能低
了解哪些文本匹配的方法，DSSM这些；项目中矩阵分解算法原理，数据规模多大
Learning to Rank了解吗，三种模式说一下（pair wise、point wise、list wise）
信息检索领域的评价指标有哪些，MAP、NDCG能介绍下吗？
智力题，25匹马5个赛道，最多几轮选出前三名
给了一张纸，上面有几道非常基础的C语言题目，如sizeof的计算、struct内存占用
给定一个无向图，求联通子图的个数，从广搜引出并查集，问并查集为什么要快一点
说一下SVM，AI平台部还叫手推了公式，并且问SVM如何做回归
写个归并排序，写完后说能不用辅助数组吗？(貌似原地归并排序，面完查的。。)
linux head diff等命令
说一下 map reduce 原理
说一下join原理，并用spark python/scala 实现join(先说下join 的 map reduce过程)
说下LR, 伯努利分布，二项分布和多项式分布，以及共轭先验(狄利克雷等。。)
指数族和广义线性模型
线性回归服从什么分布(噪声高斯分布)，均值方差如何定义呢，和最小二乘的关系(概率角度推导出来？)，L1 L2正则(引出先验概念，拉普拉斯和高斯)
如何对几百万的商品标题进行语义去重(句子embedding的各种构造方法，然后聚类降低时间复杂度，簇内查找)
知识图谱表示学习和Word2vec这种词向量嵌入有什么异同呢
给定一些query和doc点击数据，如何从里面找出相关词（同义词的意思）

【阿里新零售】

阿里面试比较独特：

一面：面试官问熟悉什么语言？我说C++，然后打开了远程编程，给定了特征向量和标签，叫我用C++实现一个分类器（30分钟内），本来想用逻辑回归，怕C++时间不够写，认怂了我实现了KNN好在代码跑通了。

然后就是常规的面试了，问了下熟悉哪些机器学习算法，信息增益和基尼指数的本质差别是什么

二面：非常详细的介绍了项目，其中问了知识图谱的TransE算法；深度学习的优化方法介绍下，SGD。Adagrad等等；Attention机制

三面交叉面：交叉面纯粹问项目，面试官对知识图谱很感兴趣，问了很多东西，具体就不说了

【头条】

单链表反转、快排
给定一个论文引用数的数组，求作者的H-index，用O（n）的时间复杂度，Leetcode原题
两个排序数组求中位数，log时间复杂度
给一个2^n*2n的棋盘，随机挖掉一块，然后用折形砖块覆盖，给出覆盖方案
旋转数组查找
只用随机函数rand3、rand4、rand5，随机产生1~3 1~4 1_{5随机数，实现等概率产生1}100的随机数
面试官把电脑拿过来，叫用python现场处理数据（特征统计等），15分钟限时

8.场景题：如何识别标题党

如何进行实体消歧，如“普通老百姓”，可能是电视剧名字，也可能是人的称谓
推荐系统的多样性如何设计，给定了session的数据，叫设计一个公式来计算推荐内容的多样性
如何快速查找相似向量（百万级、千万级），说一下KD树，KD的时间复杂度，KD最坏情况下应该怎么办
知识图谱关系抽取的技术说了一遍

【百度 Feed 知识图谱部自动驾驶技术部】

用你所学的知识说下怎么计算文本相似度无监督：词袋模型、word embedding→sentence embedding，doc2vec， autoencoder 有监督：深度语义匹配（DSMM、CDSSM、MVDSSM或其他，孪生网络：bilstm、交互式Attention、交叉熵&对比损失、数据不均衡、数据增强等方面说了）
单链表判断是否相交，有环&无环两种情况
介绍下word2vec，相比简单的神经网络模型有什么优点
cross-lingual word embedding怎么做
给一个（query 频数）文件，取频率最高的k个query，讲了一下小顶堆，然后让用简单的方法实现（shell的sort和python）
讲一下TransE算法有什么缺点，如何改进
写一下交叉熵公式
32×32×3的输入，5×5×10，步长2，算下CNN的输出shape和参数数量
说一些HMM和CRF，怎么做分词、标注问题（再说了下LSTM+CRF，以及多目标学习等）
讲一下EM算法，E步和M步的具体步骤，E中的期望是什么（关于什么分布的期望）
给一个股票价格涨幅数组 [10%, -20%, 10%，...]，相比前一天的涨幅比例，求出买卖的最大收益；给出绝对价格数组，最多买卖2次，最大收益多少
一排灯泡n个开始时熄灭，第一次2的倍数的灯泡状态变，第二次3的倍数的灯泡状态变，。。。，第n-1次后，多少个灯泡亮着
场景题：自动驾驶中如何考虑场景因素，来指导车辆怎么开
强化学习在NLP中有什么应用，解释一下策略梯度，reword等
机器学习的衡量指标有什么，如何解决过拟合和欠拟合
写一个快排；写一个大数相加
写一下单链表冒泡排序
写一下项目中用到的跨语言Embedding的推导过程
深度学习一阶优化和二阶优化的方法有哪些，基于动量的方法为什么能快速收敛
Word2vec为什么能学习出语义相似的词语呢
传统的softmax词向量模型为什么计算效率低，词嵌入应该从输入层获取还是输出层获取（因为softmax词向量模型有两个矩阵都含有词嵌入）
投一个骰子，直到抛到6点停止，问抛的次数的期望？
冒泡排序；杨辉三角；
linux命令：如何按照第二列从大到小排序文件
给一个日志，里面记录了每个用户的登入和登出时间，如何统计每秒有多少个用户在线
海量数据处理：两个大文件求交集
有一个token上面有6个电子数字，反转后数字相同的概率是多少

面的有点多，有些记不起来了-_-||

【爱奇艺】

用能想到的方法实现斐波那契数列，如何估计到多少项时数列的值会超过INT范围（上界下界分析），递归实现斐波那契数列时：时间复杂度和空间复杂度是多少？
说一下GBDT的原理
写一下大顶堆插入函数
介绍一下极大似然估计，和最大后验的区别是什么
给定N个框，可以往每个框放若干个苹果，给定一个数K，如何设置每个框内的苹果数，使之能够保证：选取若干个框并取出里面的所有苹果数刚好等于K
给了一道贝叶斯概率计算的题，具体忘记了
文本匹配模型有什么
BN的作用是什么，什么时候用BN

【微软】

写一下编辑距离，然后证明DP公式的正确性
给一个随机函数fun，30%的概率产生1，70%产生0，如何用fun产生等概率的0和1
word2vec中，负采样相比层次化softmax，有什么优缺点？层次化softmax能保证概率归一化吗？
文本相似度计算方法有什么，当我说完后，面试官说你说的基本都是深度学习方面的，经典的NLP方法知道有哪些吗
写一个快排，非递归
给一个100万规模的词典，一个长文档，如何快速从里面标注出所有的词，写一下代码
场景题：如何给问答系统中的新问题推荐答案
场景题：单词纠错怎么做
场景题：如何让对话机器人产生的回答更具情感性，面试官简化了问题：机器人产生回答后，我们给回答加前缀，比如问“今天吃饭了吗？”，回答“【嗯呀】，我吃了”，如何从大规模QA数据中统计出要加哪些前缀（如上面的“嗯呀”），然后判断是否需要加前缀，需要加什么前缀
手写代码：单链表找交点；非递归前序遍历二叉树
手写代码：给一个N*M的棋盘，从(1, 1)移动到(N, M)，只能向右或向下，计算方案数，如果N和M很大怎么办？
场景题：对话机器人说了一句话后，如何判断该话是否含有反动、暴力元素，有标注数据怎么做，无标注数据怎么做
GBDT原理说一下
词向量的方法说一下，比如Glove，PMI分解，问Facebook提出的模型看了没
KMP算法有什么缺点？除了KMP，还有什么算法可以快速做字符串查找
智力题：丢两个骰子，最可能出现的点数和是多少？3个骰子呢，不能枚举，面试官让快速估计
文本分类的方法有哪些，深度学习和非深度学习的方法都说一下
fasttext和textCNN说一下吧
推荐系统：FM算法、ALS矩阵分解、协同过滤算法都说一下，并说下优缺点？

上述内容可能会有所遗漏，希望能帮到下一届的师弟师妹们~

算法

推荐阅读更多精彩内容