推荐算法业余爱好者的一次垂死挣扎

笔者就职于fifty eight,公司11月初的时候,举办了一次推荐算法大赛。笔者的部门做的是post业务,推荐算法在日常工作中完全没有机会接触。但这不能成为放弃的理由,给自己一个情景假设:自己的一手创办的一个大型招聘网站,承担着引领互联网招聘行业潮流的大任。但由于资金短缺,请不起专业的推荐算法的专业人员,只能让作为董事长、ceo及cto的我亲自上阵。果断报名了。

比赛的训练数据都在提供的测试集群中,要求参赛选手编写mapreduce、spark程序,为指定的100万条测试数据打分(某用户点击某职位的概率)。比赛的成绩主要参照,使用实际点击情况计算出的auc指标。好在笔者上家公司一直号称做大数据应用,多少用过点mapreduce。不像fifty eight,平常只是在使用公司的自有框架WX、SXX、WXXXX、WXXXXX,据说这些都是可以在理论参数上吊打各种开源成熟技术的。

提供15天的测试数据,如下:

职位展现点击数据

用户行为点击数据

简历投递数据

职位基本信息数据

企业基本信息数据

企业职位关联数据

简历基本信息数据

简历-教育经历数据

简历-工作经验数据

简历-项目经历数据

归属类别字典表

表现类别字典表

表现归属地字典表

归属地字典表

要求为第16天的100万条测试数据(取自“职位展现点击数据”)计算概率

考虑到自己只是个业余爱好者,这么多数据根本驾驭不了。干脆就是实现一个最简易的算法:

算法示意图

将需要分析的每对用户——职位,使用训练数据(职位展现点击数据、用户行为点击数据、简历投递数据)分别找出此用户点击过的全部职位、前来点击此职位的全部用户。使用这些相关用户与这些相关职位,进行组合(图中的方框),组合后存在点击行为的数量 / 总组合数量,作为结果。

算法要对三种点击数据,进行两次遍历,分别筛选出相关用户、职位,以及相关用户、职位之间的点击行为。

维护两个HashSet,分别装入需要筛选的用户、职位。在遍历训练数据时,进行过滤就可以了:

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

    ......//初始化两个HashSet,省略

    String line = value.toString();

    String[] cols = line.replace('\1', '\t').split("\t");

    boolean containsCookie = cookieSet.contains(cols[0]);

    boolean containsInfo = infoSet.contains(cols[1]);

    if (containsCookie && containsInfo) {

        keyOut.set("D\t" + cols[0] + "\t" + cols[1]);

        context.write(keyOut, one);

    } else if (containsCookie) {

        keyOut.set("U\t" + cols[0] + "\t" + cols[1]);

        context.write(keyOut, one);

    } else {

        if (containsInfo && !"-".equals(cols[0])) {

            keyOut.set("I\t" + cols[0] + "\t" + cols[1]);

            context.write(keyOut, one);

        }

    }

}

cookieid作为用户标识,infoid作为职位标识。代码中,还针对筛选来自用户、来自职位、同时来自用户及职位,进行了标记(U/I/D)。reduce没有作用,未贴出。

按照同样的方式(使用HashSet)进行第二次遍历(筛选相关用户、职位之间的点击行为),由于相关用户、职位的数量过多,使得HashSet过大,从而程序无法运行。从而换用载入一个提前持久化好的bloomfilter对象(填充过全部相关用户、职位),代替两个HashSet:

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

    if (null == myBloomFilter) {

        Configuration conf = new Configuration();

        FileSystem fileSystem = FileSystem.get(conf);

        FSDataInputStream open = fileSystem.open(new Path("/home/team055/middata/bloom.tmp"));

        ObjectInputStream objectInputStream = new ObjectInputStream(open);

        try {

            myBloomFilter = (MyBloomFilter)objectInputStream.readObject();

        } catch (ClassNotFoundException e) {

            System.exit(-1);

        }

        objectInputStream.close();

        open.close();

    }

    String line = value.toString();

    String[] cols = line.replace('\1', '\t').split("\t");

    if (myBloomFilter.contains(cols[0].getBytes(), cols[0].getBytes().length) && myBloomFilter.contains(cols[4].getBytes(), cols[4].getBytes().length)) {

        keyOut.set(cols[0] + "\t" + cols[4]);

        context.write(keyOut, one);

    }

}

通过两次遍历,已经获得了相关用户、职位,以及相关用户、职位之间的点击行为。再编写一个本地java程序,计算点击概率就好了,由于“相关用户、职位之间的点击行为”的数据量过大,并且只用来判定存在性,再次使用bloomfilter即可。

最终的最高成绩为:0.74356517、最低成绩为:0.58098208

笔者的成绩为:0.69243595,排名14/23(个人)、11/19(团队)。无缘奖品:

奖项设置

冠军:1支队伍,无人机1台,iphone7

亚军:1支队伍,小米平衡车1台

季军:1支队伍,机械键盘1个


以上全部代码:http://pan.baidu.com/s/1o77pri6

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容