关于看山杯一些思路

部分文字来自TennielM的博客,已联系转载!

————————————————————————————

这几天看见实验室的师兄们在报名了知乎的机器学习比赛,因为我自己对于NLP领域属于婴儿阶段,还不是初学阶段,所以就跟着他们凑凑热闹,给他们端端水,倒倒茶,顺便学习点经验.

话不多说,开始谈谈我的看法

自从参加这些比赛开始,师兄们就告诉我,作为参赛者,不要顾及名次和奖金,一定要调节心态和自己的预期,最好的心态是把自己当做一项公开的学术的交流和算法的研究.多数人也不是冲着拿第一名的奖金去的,只是想在企业的真实数据集上演练一番,试试技术深浅,提高提高自身姿势水平。

这一次知乎提供的数据还是比较有意思的:

1:通过了知乎的NLP数据,不仅仅是这个比赛,以后进行研究后不必在用爬虫进行爬取,并且在群中的知乎工作人员也说在比赛结束后数据依旧公开

2:知乎提供的数据最大限度地保留了原始数据信息:标题的单字和词语、问题描述的单字和词语、话题标签。并且提供了每个词语的word2vec数据,这样一来比赛词语的分析的时间将大大缩小,要省了不少的精力

3:这些词汇语句之间的词条中包含有不同的层次结构,这样分类将变得容易.

准确率计算公式:

2. EDA

word2vec数据:

char_embedding.txt:包括11973个不同的char,char_id格式为'c' +整数。word_embedding.txt:包括411720个不同的word,word_id格式为'w' +整数。

训练集与测试集:

question_train_set.txt和question_topic_train_set.txt:2999967行,5列、2列

question_eval_set.txt:217360行:5列

5列特征:quesiton_id,title_char,title_word,desc_char,desc_word

2列目标:quesiton_id,topic

话题信息:

topic_info.txt:知乎的话题标签构成了一个有向无环图。

数据分布来自比赛官网

词句的长度分布:

在以下的直方图中,红色代表测试集,蓝色代表训练集。

上图:title_char(标题单字)的分布,主要集中在10~20个字。


上图:title_word(标题词语)的分布,主要集中在10个词左右,略少于标题单字的数量。

上图:取对数之后的desc_char(描述单字)分布;取对数的具体函数为:lambda x: np.log(x + 1),其中x是原始问题里的单字数量。可见,大量的问题并没有描述,但有一些问题有极长的描述,呈现一个skewed distribution。取对数之后,问题描述单字长度呈近似正态分布。最长的问题描述有25698个单字。

上图:取对数之后的desc_word(描述词语)分布。不出意外地,除零点处的峰值以外,取对数后的描述词语数量呈正态分布。训练集和测试集中,最长的描述只有2787个词,比较符合现实的习惯。如果有描述,那么平均的描述词语数量约为60个。

上图:话题标签数量的分布。同一个问题,最多有19个标签,但一般都集中在5个以内。

3:模型的思路

理论上讲,只要足够大的RNN结构就能去生成任意复杂的序列结构。

但是我看师兄们用bilstm+atten居然还不如cnn

应该是train的设计出错了吧

用LSTM算了下不收敛

但是基本的bilstm回到0.375

所以有理由相信rnn+attn更高

但是我觉得我觉得给一个小数据集拿来验证比较好,拿topic model跑出来的结果没法评判主题学习的怎么样.并且embedding的语义距离对调参的方向有比较大的影响

看了看一些代码,大致可以跑到0.4左右:

其余的,等我学学这再说吧!

PS:

链接: https://pan.baidu.com/s/1nvJmEa1密码: 9jq7这个是我解压后上传的数据大家有需要的可以去上面下载数据不是广告

版权印为您的作品印上版权20066889

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容