我的英语糟透了,于是我做了这件事

截止到现在写博客为止,我的英语处于糟透了的状态,是个合格的英语弱鸡。

最近对英语莫名其妙的感兴趣了,我想学英语。

我也想学外语.jpg

都说日常交流要不了多少词汇量,到底要多少啊,为了得到这个答案,我开始百度。。

百度出来的东西都乱七八糟的,有说1000的,有说2000的,有说5000的,有说12000的,我也不知道到底是多少,不如我自己来统计一下。

于是我选择了了《查理成长日记》第一季这个家庭喜剧作为我统计的目标,OK,目标已经定好了,那应该怎么统计呢,来看看我最开始的想法,写一个app,或者小demo,打开视频,人物每说一句话,我就把英文单词记下来,按照这个方法记录完所有的单词。当时还特么觉得这是个不错的方法,现在想想真是蠢爆了,直接下载字幕,分析字幕不就行了吗。

于是我下载第一季1-10集的字幕,字幕打开长这样子。

(随便截取的某一集的其中一段)

4
00:00:19,930 --> 00:00:21,560
Happy Birthday, sweetie.

5
00:00:21,570 --> 00:00:23,410
I love you, baby girl.

6
00:00:23,410 --> 00:00:25,570
You're the best.

7
00:00:25,570 --> 00:00:28,100
I'm just here for the cake.

8
00:00:29,510 --> 00:00:33,510
Well, four out of the five Duncans are excited.

不行啊,这格式不是我想要的格式,于是我写了一些Java代码,将我想要的句子整理出来保存到一个新的文件里面,最后字幕长这样:

i close my eyes  take a bite
grab a ride  laugh out loud
there it is up on the roof
i've been there  i've survived
so just take my advice
hang in there  baby  things are crazy
but i know your future is bright
hang in there  baby
there is no maybe
eveything turns out all right
sure life is up and down

nice!,这就是我想要的效果。

于是我继续优化我的代码,慢慢统计。

最后总算得到了一个满意的结果,以下是我想要知道的信息:

  1. 一共使用了多少单词
  2. 每个单词的使用频率是多少

来看看最后我统计的结果:


单词统计1.jpg

看看上面那个表,单词总使用个数是只对话中一共用到了多少单词,这里包含重复的单词,单词个数则是指对话中用到了哪些单词。看表是不是有点二八定律的意思,80%的对话都只用到了20%的词汇。不过由于生词增加的速度越来越慢,所以越到后面,词汇量的需求会越来越稳定。我们根据自己的需求记单词就行了,假设你需要99%的东西你都要懂,那你需要掌握的词汇量就很多了。待会我们来分析词汇量的问题。

只出现过一次的单词个数是指在整个对话中,只出现过唯一一次的单词的个数。大概占了词汇量的50%,这是否意味着,如果只记高频率单词,你会有50%的对话都听不懂呢?肯定不是,因为这是低频词汇,所以不能代入到整个对话情景中,这里说个大概,如果没有掌握这50%的低频词汇,跟别人交流,大概有10%以内的意思没有完美理解,不过也许人家换个含有简单词汇的句子再给你解释一边,我想,应该也能懂。

情景对话:(假设方括号中是你的生僻词)

小明:今天天气好好哦。
小红:对啊,今天是[晴天],是我最喜欢的天气。
小明:[晴天]是什么意思?
小红:就是万里无云的意思

是不是给人一种智障的感觉= =
可能例子太简单了,换个难一点的

小明:我想吃那个,我们一起去吃
小红:好啊,我们就吃那个
小明(吃了一会儿):哇,快看,那个看起来好好吃啊,我也要吃
小红:你怎么跟个[饕餮]似的
小明:啥是[饕餮]
小红:就是说你很贪心的意思

这个看着是不是就没啥违和感。所以低频词汇不掌握全也没啥关系。

做一个折线图:


折线图.jpg

走势是不是有点慢慢变平缓的意思?我们再加10集的词汇

单词统计2.jpg

再来更加折线图


折线图2.jpg

是不是确实平缓了,随着对话时间增加,单词的使用量虽然也会增加,但是所需词汇量的增加速度就越来越慢了。

一集大概20分钟,这里有20集,也就是400多分钟,假设上述数据记为标准,也就是要跟人聊日常需要词汇量4000,但是这里有一半的词汇都只出现过一次,所以90%的聊天只需要2000词汇量。所以这是结论吗?

其实根据上述数据可以算出来,大概1100的词汇量满足80%的日常生活对话,假设你的词汇量是2000,你可以满足88%的日常对话,看啊,1100的词汇量就能满足80%了,再加900词汇量,只能增加8%。这里的词汇量不包含那些低频率词汇。

给大家看看我通过代码计算出来的频率超过200的单词有哪些:

you:1834
i:1759
the:1171
to:1113
a:1091
and:737
it:637
is:604
that:598
my:491
what:474
me:468
i'm:449
in:447
oh:434
of:425
your:417
this:414
we:388
no:386
on:383
have:343
do:340
so:329
be:316
just:305
for:301
not:298
are:298
okay:287
out:283
know:281
well:278
it's:265
with:262
get:260
like:260
all:259
don't:257
right:257
was:253
but:249
here:245
hey:239
you're:238
that's:226
there:224
go:223
yeah:219
gonna:215
up:213
charlie:209
about:207

一共使用了49834个单词,看看这些使用次数超过200的单词。是不是都是我们认识的。

来看看这些单词对应频率的折线图长什么样子。

单词使用频率.jpg

由于单词有4000多个,所以横坐标不可能显示全。

对于单词的频率分析就到这里,根据频率记单词应该没有问题,

顺便补充两个电影的单词频率分析,头脑特工队和超人总动员2
结论是:

单词总使用个数:20914
出现单词个数:2745
只出现过一次的单词的个数:1429

两个电影时间加起来大概三个小时半,用到的词汇不过才2745个,去掉低频词汇,居然只有1316的单词。

一通分析下来,感觉口语也没那么难嘛。我特么学这么多年英语都在干啥。

源码:https://github.com/qixuefeng/WordSharp

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容