推荐算法业余爱好者的一次垂死挣扎

笔者就职于fifty eight，公司11月初的时候，举办了一次推荐算法大赛。笔者的部门做的是post业务，推荐算法在日常工作中完全没有机会接触。但这不能成为放弃的理由，给自己一个情景假设：自己的一手创办的一个大型招聘网站，承担着引领互联网招聘行业潮流的大任。但由于资金短缺，请不起专业的推荐算法的专业人员，只能让作为董事长、ceo及cto的我亲自上阵。果断报名了。

比赛的训练数据都在提供的测试集群中，要求参赛选手编写mapreduce、spark程序，为指定的100万条测试数据打分（某用户点击某职位的概率）。比赛的成绩主要参照，使用实际点击情况计算出的auc指标。好在笔者上家公司一直号称做大数据应用，多少用过点mapreduce。不像fifty eight，平常只是在使用公司的自有框架WX、SXX、WXXXX、WXXXXX，据说这些都是可以在理论参数上吊打各种开源成熟技术的。

提供15天的测试数据，如下：

职位展现点击数据

用户行为点击数据

简历投递数据

职位基本信息数据

企业基本信息数据

企业职位关联数据

简历基本信息数据

简历-教育经历数据

简历-工作经验数据

简历-项目经历数据

归属类别字典表

表现类别字典表

表现归属地字典表

归属地字典表

要求为第16天的100万条测试数据（取自“职位展现点击数据”）计算概率

考虑到自己只是个业余爱好者，这么多数据根本驾驭不了。干脆就是实现一个最简易的算法：

算法示意图

将需要分析的每对用户——职位，使用训练数据（职位展现点击数据、用户行为点击数据、简历投递数据）分别找出此用户点击过的全部职位、前来点击此职位的全部用户。使用这些相关用户与这些相关职位，进行组合（图中的方框），组合后存在点击行为的数量 / 总组合数量，作为结果。

算法要对三种点击数据，进行两次遍历，分别筛选出相关用户、职位，以及相关用户、职位之间的点击行为。

维护两个HashSet，分别装入需要筛选的用户、职位。在遍历训练数据时，进行过滤就可以了：

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

......//初始化两个HashSet，省略

String line = value.toString();

String[] cols = line.replace('\1', '\t').split("\t");

boolean containsCookie = cookieSet.contains(cols[0]);

boolean containsInfo = infoSet.contains(cols[1]);

if (containsCookie && containsInfo) {

keyOut.set("D\t" + cols[0] + "\t" + cols[1]);

context.write(keyOut, one);

} else if (containsCookie) {

keyOut.set("U\t" + cols[0] + "\t" + cols[1]);

context.write(keyOut, one);

} else {

if (containsInfo && !"-".equals(cols[0])) {

keyOut.set("I\t" + cols[0] + "\t" + cols[1]);

context.write(keyOut, one);

}

}

}

cookieid作为用户标识，infoid作为职位标识。代码中，还针对筛选来自用户、来自职位、同时来自用户及职位，进行了标记（U/I/D）。reduce没有作用，未贴出。

按照同样的方式（使用HashSet）进行第二次遍历（筛选相关用户、职位之间的点击行为），由于相关用户、职位的数量过多，使得HashSet过大，从而程序无法运行。从而换用载入一个提前持久化好的bloomfilter对象（填充过全部相关用户、职位），代替两个HashSet：

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

if (null == myBloomFilter) {

Configuration conf = new Configuration();

FileSystem fileSystem = FileSystem.get(conf);

FSDataInputStream open = fileSystem.open(new Path("/home/team055/middata/bloom.tmp"));

ObjectInputStream objectInputStream = new ObjectInputStream(open);

try {

myBloomFilter = (MyBloomFilter)objectInputStream.readObject();

} catch (ClassNotFoundException e) {

System.exit(-1);

}

objectInputStream.close();

open.close();

}

String line = value.toString();

String[] cols = line.replace('\1', '\t').split("\t");

if (myBloomFilter.contains(cols[0].getBytes(), cols[0].getBytes().length) && myBloomFilter.contains(cols[4].getBytes(), cols[4].getBytes().length)) {

keyOut.set(cols[0] + "\t" + cols[4]);

context.write(keyOut, one);

}

}

通过两次遍历，已经获得了相关用户、职位，以及相关用户、职位之间的点击行为。再编写一个本地java程序，计算点击概率就好了，由于“相关用户、职位之间的点击行为”的数据量过大，并且只用来判定存在性，再次使用bloomfilter即可。

最终的最高成绩为：0.74356517、最低成绩为：0.58098208

笔者的成绩为：0.69243595，排名14/23(个人)、11/19(团队)。无缘奖品：

奖项设置

冠军：1支队伍，无人机1台，iphone7

亚军：1支队伍，小米平衡车1台

季军：1支队伍，机械键盘1个

以上全部代码：http://pan.baidu.com/s/1o77pri6

推荐算法业余爱好者的一次垂死挣扎

推荐阅读更多精彩内容