选择题
填空题
- N-gram题目,给定一个文本分词列表,三元组有( )个。
- Logistic回归无法处理缺损值,( )模型可以处理有缺损值的模型。
- 关联规则的评价指标是( )和( )
- Linux指令中,pwd是( )
- sql语句,现在有两个表A,B,A为uid,position,B为uid,age,两表的主键都是uid,求打印出position为beijing,age > 10的结果,写出sql语句
解答题
- 有2000万条5000万维的数据,给出一个完整的数据分类方案。
- 现有大规模的用户访问日志,日志内有访问IP和时间,返回某天访问量最多的IP地址。
- 用python,写给定list中去除相同元素的代码。
- word embedding 题目,当前有文本语料和情感词库,用word embedding方法得到词向量,词向量中包含情感信息,写出思路及伪代码。
- 知识图谱题目,知识图谱中如何去除多义现象,比如“苹果”有两种意思,如一种水果,一家公司。