截止到现在写博客为止,我的英语处于糟透了的状态,是个合格的英语弱鸡。
最近对英语莫名其妙的感兴趣了,我想学英语。
都说日常交流要不了多少词汇量,到底要多少啊,为了得到这个答案,我开始百度。。
百度出来的东西都乱七八糟的,有说1000的,有说2000的,有说5000的,有说12000的,我也不知道到底是多少,不如我自己来统计一下。
于是我选择了了《查理成长日记》第一季这个家庭喜剧作为我统计的目标,OK,目标已经定好了,那应该怎么统计呢,来看看我最开始的想法,写一个app,或者小demo,打开视频,人物每说一句话,我就把英文单词记下来,按照这个方法记录完所有的单词。当时还特么觉得这是个不错的方法,现在想想真是蠢爆了,直接下载字幕,分析字幕不就行了吗。
于是我下载第一季1-10集的字幕,字幕打开长这样子。
(随便截取的某一集的其中一段)
4
00:00:19,930 --> 00:00:21,560
Happy Birthday, sweetie.
5
00:00:21,570 --> 00:00:23,410
I love you, baby girl.
6
00:00:23,410 --> 00:00:25,570
You're the best.
7
00:00:25,570 --> 00:00:28,100
I'm just here for the cake.
8
00:00:29,510 --> 00:00:33,510
Well, four out of the five Duncans are excited.
不行啊,这格式不是我想要的格式,于是我写了一些Java代码,将我想要的句子整理出来保存到一个新的文件里面,最后字幕长这样:
i close my eyes take a bite
grab a ride laugh out loud
there it is up on the roof
i've been there i've survived
so just take my advice
hang in there baby things are crazy
but i know your future is bright
hang in there baby
there is no maybe
eveything turns out all right
sure life is up and down
nice!,这就是我想要的效果。
于是我继续优化我的代码,慢慢统计。
最后总算得到了一个满意的结果,以下是我想要知道的信息:
- 一共使用了多少单词
- 每个单词的使用频率是多少
来看看最后我统计的结果:
看看上面那个表,单词总使用个数是只对话中一共用到了多少单词,这里包含重复的单词,单词个数则是指对话中用到了哪些单词。看表是不是有点二八定律的意思,80%的对话都只用到了20%的词汇。不过由于生词增加的速度越来越慢,所以越到后面,词汇量的需求会越来越稳定。我们根据自己的需求记单词就行了,假设你需要99%的东西你都要懂,那你需要掌握的词汇量就很多了。待会我们来分析词汇量的问题。
只出现过一次的单词个数是指在整个对话中,只出现过唯一一次的单词的个数。大概占了词汇量的50%,这是否意味着,如果只记高频率单词,你会有50%的对话都听不懂呢?肯定不是,因为这是低频词汇,所以不能代入到整个对话情景中,这里说个大概,如果没有掌握这50%的低频词汇,跟别人交流,大概有10%以内的意思没有完美理解,不过也许人家换个含有简单词汇的句子再给你解释一边,我想,应该也能懂。
情景对话:(假设方括号中是你的生僻词)
小明:今天天气好好哦。
小红:对啊,今天是[晴天],是我最喜欢的天气。
小明:[晴天]是什么意思?
小红:就是万里无云的意思
是不是给人一种智障的感觉= =
可能例子太简单了,换个难一点的
小明:我想吃那个,我们一起去吃
小红:好啊,我们就吃那个
小明(吃了一会儿):哇,快看,那个看起来好好吃啊,我也要吃
小红:你怎么跟个[饕餮]似的
小明:啥是[饕餮]
小红:就是说你很贪心的意思
这个看着是不是就没啥违和感。所以低频词汇不掌握全也没啥关系。
做一个折线图:
走势是不是有点慢慢变平缓的意思?我们再加10集的词汇
再来更加折线图
是不是确实平缓了,随着对话时间增加,单词的使用量虽然也会增加,但是所需词汇量的增加速度就越来越慢了。
一集大概20分钟,这里有20集,也就是400多分钟,假设上述数据记为标准,也就是要跟人聊日常需要词汇量4000,但是这里有一半的词汇都只出现过一次,所以90%的聊天只需要2000词汇量。所以这是结论吗?
其实根据上述数据可以算出来,大概1100的词汇量满足80%的日常生活对话,假设你的词汇量是2000,你可以满足88%的日常对话,看啊,1100的词汇量就能满足80%了,再加900词汇量,只能增加8%。这里的词汇量不包含那些低频率词汇。
给大家看看我通过代码计算出来的频率超过200的单词有哪些:
you:1834
i:1759
the:1171
to:1113
a:1091
and:737
it:637
is:604
that:598
my:491
what:474
me:468
i'm:449
in:447
oh:434
of:425
your:417
this:414
we:388
no:386
on:383
have:343
do:340
so:329
be:316
just:305
for:301
not:298
are:298
okay:287
out:283
know:281
well:278
it's:265
with:262
get:260
like:260
all:259
don't:257
right:257
was:253
but:249
here:245
hey:239
you're:238
that's:226
there:224
go:223
yeah:219
gonna:215
up:213
charlie:209
about:207
一共使用了49834个单词,看看这些使用次数超过200的单词。是不是都是我们认识的。
来看看这些单词对应频率的折线图长什么样子。
由于单词有4000多个,所以横坐标不可能显示全。
对于单词的频率分析就到这里,根据频率记单词应该没有问题,
顺便补充两个电影的单词频率分析,头脑特工队和超人总动员2
结论是:
单词总使用个数:20914
出现单词个数:2745
只出现过一次的单词的个数:1429
两个电影时间加起来大概三个小时半,用到的词汇不过才2745个,去掉低频词汇,居然只有1316的单词。
一通分析下来,感觉口语也没那么难嘛。我特么学这么多年英语都在干啥。