大数据:掌握过半GRE单词,居然只要看懂20部电影!?

  杀G之路漫漫,求索之人跄跄。如何边看电影边记单词,娱乐学习两不误?且让大数据告诉我们,究竟哪些影视作品大量出现GRE单词?看懂多少部影视作品,就可以掌握过半GRE词汇?

【先放结论1】都说没有调查就没有发言权,本文通过对11万部影视作品进行大数据分析,为大家找出那些与GRE最相关的作品。原来包含最多GRE单词的是哈姆莱特!看懂时长4小时的哈姆莱特可以帮你掌握915个GRE单词!而掌握过半GRE词汇,可能只需要看懂20部电影!

数据来源

  感谢射手站长,他将15年来积累的海量字幕数据无私分享出来,供广大群众学习研究使用。其中包括对应于26万部影视作品的66万份字幕文件,压缩后大约75G。经过压缩格式分类,解压缩,字幕格式分类,编码转换,英文识别,数据清理等过程后,得到对应于114198部影视作品的225190份英文字幕文件2

数据分析

1. 英文字幕中有多少GRE单词?

  绝大部分英文字幕包涵0-300个GRE单词,平均值108,方差52,概率分布如下图。GRE单词最多的单个字幕文件来自于莎翁的《哈姆莱特/Hamlet》,内含915个GRE单词,难怪让人如痴如醉!所谓“一千个读者,就有一千个哈姆莱特”,大概是……看到这些单词不认识啊!所以就只好乱猜啦,然后每个人都猜得不一样!反正本宝宝是看得醉了……

英文字幕中的GRE单词分布

2. 最“学术”的十大影视作品

  有的作品包含GRE单词比较多,但时间也很长。到底哪些影视的“性价比”最高呢?根据GRE单词占所有英文词条的比例排序,以下列出10大最“学术”(GRE单词占比最高)的影视作品供参考。其中有来自莎翁的作品有三部——《哈姆莱特/Hamlet》,《麦克白/Macbeth》和《奥塞罗/Othello》,平均每4个不同单词里面就有一个可以在红宝书里找到!现在,你们知道谁是真正的GRE狂魔了么!!!

  经常有一种错觉,那些喜欢看纪录片的同学都逼格很高。现在知道,这并不是错觉!在top 10高频GRE电影中,六成是来自Discovery,国家地理和BBC的纪录片。所以,人家用来思考说话的语言就已经和凡人拉开档次了好嘛!

GRE单词占比Top 10影视作品 词条数 GRE单词数 GRE单词占比
海底奇观/ (Discovery) Secrets of the Deep Splendors of the Sea 568 154 27.1%
掠食者系——昆虫王国/(Discovery) Hunters - The Crawling Kingdom 1143 299 26.2%
哈姆莱特/Hamlet 3604 915 25.4%
人间天堂/(National Geographic) The Living Edens 990 251 25.4%
我们一起游荡在夜的黑暗中,然后被烈火吞噬/ In Girum Imus Nocte et Consumimur Igni 2073 523 25.2%
昆虫战役/ (National Geographic) Insect Wars 901 223 24.8%
麦克白/Macbeth 2281 559 24.5%
大堡礁/(National Geographic) Australias Great Barrier Reef 1110 272 24.5%
奥塞罗/Othello 2563 625 24.4%
艺术即力量——毕加索/(BBC) Power of Art - Picasso 1423 344 24.2%

3. 看电影背GRE的学习曲线

  现在问题来了,走过多少路才叫做成长,最少看完多少电影才学完GRE?考虑到不同影片的单词大量重复,这并不是一个简单的问题。

  用数学的语言说,是给定全集U以及一个包含n个集合且这n个集合的并集为全集的集合S,要找到S的一个最小的子集,使得他们的并集等于全集,简称最小集合覆盖,是一个经典的NP难问题。

            (😅一脸懵逼,能不能说人话!)

  翻译成中文就是说,这个问题很难,非常难,难到本宝宝不会,地球人到现在也没有找到优雅的解法😅……所以本宝宝就偷懒用贪心算法做个简版的回答啦~如果本宝宝每次都观看可以使当前GRE词汇量增加最多的一部影片,那么本宝宝的GRE学习曲线将是如下这样,红线表示累计学到的GRE词汇量,绿线表示每多看一部电影可以学到的GRE新词数目。在这时,本宝宝发现了一个秘密:如果看懂x轴上的前20部影片,本宝宝就可以掌握4143个GRE单词,超过全部8250个GRE单词3的半数!本宝宝决定把这份电影清单分享给大家,如果想要知道特定电影的GRE单词数目,读者也可以简信询问本宝宝哦~

GRE单词学习曲线
囊括半数GRE词汇的20部影视作品 词条数 GRE单词数 GRE单词占比
哈姆莱特/Hamlet 3604 915 25.4%
永不入睡:猛鬼街传奇/Never Sleep Again: The Elm Street Legacy 3874 717 18.5%
时代精神:迈步向前/Zeitgeist: Moving Forward 901 223 24.8%
国家公园:最后的避难所/The National Parks Americas: The Last Refuge 2682 540 20.1%
酣歌畅戏/Topsy-Turvy 2555 533 20.9%
无形的帝国/Invisible Empire 3042 600 19.7%
我们一起游荡在夜的黑暗中,然后被烈火吞噬/In Girum Imus Nocte et Consumimur Igni 2814 579 20.6%
林肯/Lincoln 2387 493 20.7%
电子游戏如何改变世界/How Video Games Changed the World 2747 510 18.6%
刺杀肯尼迪/JFK 3012 555 18.4%
魔法师的宝典/Prospero's Books 1981 471 23.8%
天外来菌/The Andromeda Strain 2609 495 20.0%
鹅毛笔/Quills 1992 453 22.7%
巴黎,让时光回溯/Paris, la ville à remonter le temps 2108 482 22.9%
时间之旅/Voyage of Time 2256 503 22.2%
午宴之歌/The Song of Lunch 1475 327 22.2%
国家公园:大自然的圣经/The National Parks: The Scripture of Nature 2413 504 20.9%
奥塞罗/Othello 2563 625 24.4%
故园风雨后/Brideshead Revisited 2842 424 14.9%
老子说/Laozi Says 1764 420 23.8%

Take away

1. 看懂时长4小时的哈姆莱特就可以帮你掌握915个GRE单词哦!

2. GRE成绩最好的那个同学可能是威廉·莎士比亚。

3. 看纪录片提高逼数是可以有科学原理的!

4. 学完半数GRE单词可能只需看懂20部剧作。

1注:并不保证看电影学英语是最高效的GRE的备考方法。
2注:因字幕版本,文件格式,内容分节等原因,有的作品对应有若干份字幕。
3注:本宝宝搜集了网上不同版本的GRE词汇列表,合并起来共8250个单词。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 这些字幕翻译,有没有让你会心一笑?如今,刷剧观影已经成为我们必不可少的娱乐消遣。难以想象,如果没有字幕组的翻译,影...
    铲屎的猫阅读 584评论 0 0
  • 实现外网利用ssh反向隧道访问内网主机 准备 实现内网穿透都需要一台外网主机,而且是可以访问的 内网主机A IP:...
    vczyh阅读 6,864评论 1 6
  • 下午6点约了中介看一个铺子,在北京公认人数最多,档次最高的社区之一———双井。这个铺子约5米宽的门面,地上一层,地...
    两个天才Peter阅读 657评论 0 0
  • 多得恋爱有了期限,情侣间不再闹别扭,牵手、接吻、做爱……通常都会在一星期内完成,甚至更快。 在升降机门关上的一刻,...
    素心待旬阅读 377评论 0 0
  • 《基础管理学》告诫我们――用错人或者培养错人,是要付出额外多维成本的。基于此,就解释了“‘宁缺毋滥’为什么是名企择...
    与期和阅读 2,316评论 1 2