实战美年健康AI大赛之二_相关问题与思考

1. 说明

 上次把钉钉号写回复里了,最近就有不少师兄加我,问一些关于比赛的问题,五一后可能也没啥时间回复了,下面就把常见的问题统一总结一下,只是我个人理解,欢迎大家纠正指导。

2. 你用了哪些方法做到0.286?

 说出来可能有人不信,我只用了五折的lightgbm,参数都没怎么调,去缺失值,去噪,特征选择,归一化,模型融合,目前为止都没做,所有时间都花在NLP上了,其中很多试尝还在进行中,还未加入模型,也不知最终能不能提分。

 目前的方案中,一方面是把一些数值字符混合型数据变成数值型代入模型,另外还有在做NLP时发现的一些关键性的字段,提取出了其中是否含有某个关键字作为新的特征,总共涉及不到10个特征。

3. 怎么提分?

 常被问到的一个问题是被卡在某一瓶颈了,怎么提分?我觉得大多情况是特征不足。如果以数值为主,要多看看自然语言处理,再找些特征,毕竟特征决定了上限,而优化模型只能是不断接近该上限。

4. 不做NLP最高多少分?

 这要看如何区分数值特征和文本特征,我的数值特征有2000多个,去掉缺失值多的也有1000多。

 是否使用NLP是很抽象的界限,像“详见纸质报告”和数值中的“单位”,“增大”,“减少”,对它们进行处理后数值变量会增加很多,这种处理算不算NLP呢?有人说用纯数值能到0.3以下,我觉得主要还是看怎么判定数值特征。

5. 从文本提取特征的方法都有什么?

 有的文本特征我处理成:一个旧列对应一个新布尔列/数值列/枚举列,有的是一个旧列对应几个新列,主要还是和文本内容相关。

 特征有两千多列,确实不能一一分析,但仔细看一下,去掉可转成数值和枚举的特征之后,纯文本的特征顶多一百来个。

6. 特征多好,还是特征少好?

 我觉得这就好比破案,线索肯定是越多越好,但真正用得上的,其实没几个.不是多少的问题,是质量的问题.

 一开始肯定要通过搜索,组合的方式寻找更多的特征,尤其像双高这种赛题,包含在文本中的特征太多了.但是在后期代入模型时,去掉一些无用和干扰的特征,速度和质量都会提高.

 在大数据集中的无用特征,会降低性能;在小数据集中的干扰特征,会过拟合测试集.美年数据相对比较多,加了无用特征降分的影响其实不是太大,就是比较花时间(降也降不了太多)。

 所以我觉得应该是:寻找更多高质量特征,去掉低质量特征."模型狗代言人"在糖尿病比赛top2技术分享贴(在天池精准医疗大赛的技术圈),"北方的郎"在盐城上牌答辩上(在往期直播中),都介绍了特征筛选方法及其效果.

7. 有什么自然语言处理相关的书籍?

 乔姆斯基是现代语言学的泰斗级人物,传说他著作的引用率排名人文领域的前10位(仅次于马克思,列宁,莎士比亚,圣经,亚里士多德,柏拉图和弗洛伊德,排在黑格尔和西塞罗之前).他的书就是所谓"经典著作":人都希望已经读过,但却没人愿意去读.比较学术性,需要花大量时间和精力。中文译本也不多,他的理论在研究过程中不断进化,如果想看,建议看他后期的作品。反正我是读不下去:P

 我比较喜欢史蒂芬•平克,他的书可以归类为:自然语言,生物科学,心理学,或者人工智能.幽默且文笔非常好,看起来比较轻松.做自然语言处理,推荐看他写的《语言本能》.如果有空,推荐看他的"语言与人性"三部曲:《语言本质》,《思想本质》,《心智探奇》,都是大而厚的书.

 从技术的角度,推荐《Python自然语言处理》,以NLTK为核心,其中有很多实例和习题,可以边看边做.不过主要针对英文.
如果,各位师兄有什么好的推荐,请给我留言.

8. 常见的坑

 大家都希望构建一个对所有特征都可用,且简单明了的处理逻辑。但我觉得自然语处理相关的问题,并没那么简单,它更像是建立一棵树,我们把不同情况归类,对各个类别使用不同的处理方式。大家很多时候是卡在找不到一种通用的处理方法,而不是完全没有思路。而通用的方法可能根本就不存在。

9. 为啥比赛?

 之前试过同时打几个比赛,有时候一天几套代码来回切.但是效果非常不好,回头看就是哪个都没能深入.我希望自己在每个比赛中都有不同的提升,不是名次的提升.

 比如糖尿病的核心的GBDT模型和特征工程,双高是自然语言处理,汽车上牌是时序问题,之后还想找些神经网络和图片的.但是有时候不自觉的,用习惯一种模型就变着法得往里代入.

 参加比赛的目的是什么?不可能每个人都排名前十,排行榜除了激励作用,其它名次还有啥用?虽然我在竞争过程中,也不自觉地刷名次.

 重要的还是在研究问题过程中的积累吧,我以文章的方式积累,也有积累代码的,积累人气的……至少想清楚,积累什么?否则很容易被环境左右,弄得挺闹心的。

10. 是菜鸟还是大牛?

 加好友,常被问到的问题有:学弟 or 学长?毕业了吗?你多大?在哪个城市?工作了吗?工作几年?——各种标签.先评价一下能力,毕竟这不是个交友的平台,合作就要看水平;然后,看一下是不是一路人;再决定交流的态度;其实不用那么麻烦.

 劝一句:新来的同学,有什么问题,客气点直接问,毕竟加了好友,一般知道的,能说的,都会说.像比较核心的,或者占用大量时间和精力的,需要的亲密关系也不是一半天能建立起来的.搭顺风车和走捷径也并不容易.

 再劝一句:大神,您也尽量保持谦虚和开放的心态.谁说大牛都得德艺双馨、有问必答,还都得回答正确?能帮上忙的不妨搭把手,不想说不想做,就客气的说NO好了,无需解释,也无需想太多.
 (我既不是大神,也不是菜鸟)

 如果我跟你说“大神,以后我有问题就找你了啊!”,你啥感受?

 之前旁听过一段佛教《中观》课,里面的同学无论男女老幼都互称师兄,第一次被一位大爷叫师兄的时候心里毛毛的,后来就习惯了.在说话前先称呼别人师兄的时候,也会不自觉地代入一种谦虚、朴素的心态.

 并不是想假装小学妹,只是觉得这样交流比较舒服。咱们互为师兄,相互学习。

 您说呢,师兄?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容