科学背单词法: 按 "真题中单词出现频率高到低"背诵。
一、前言:
方案: 针对高考、四六级、考研英语,爬取历年英语真题数据,进行数据分析,得到最权威的《真题单词词频表》。致力帮助没有放弃或想学好英语的人,让最疼头的背单词,变得有趣、科学。对于听力和口语单词词频表,后面有时间也会分析整理分享给最有需要的童鞋。
二、《科学背单词法》专题计划:
[1].考研英语历年真题数据爬取1_1、考研英语历年真题数据分析1_2
[2].英语四六级历年真题数据爬取2_1、英语四六级历年真题数据分析2_2
[3].高考英语历年真题数据爬取3_1、高考英语历年真题数据分析3_2
三、今天主题:英语四六级历年真题数据爬取2_1
(1)数据爬取前闲聊
1.1 目标网址:http://www.xsfanwen.com/
1.2 CET4真题:http://www.xsfanwen.com/Class/sijixiazai/sijixiazai01.html
http://www.xsfanwen.com/Class/sijixiazai/sijixiazai02.html
1.3 CET6真题:http://www.xsfanwen.com/Class/liujixiazai/liujixiazai01.html
http://www.xsfanwen.com/Class/liujixiazai/liujixiazai02.html
(2)查看网站代码分析
2.1 cet4真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面
2.2 cet6真题下载链接页面
分析结果:下载链接全包含在id="clickeye_content"的DIV标签里面
2.3 cet4真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面
2.4 cet6真题内容展示页面
分析结果:真题内容全包含在id="Ad"的DIV标签里面
(3)分析清楚了,上代码(顺带说下思路:获取网页-->解析得真题下载链接-->获取真题内容网页-->解析得内容-->保存为文件-->大功告成!)
四、结果展示
五、闲聊
[1].代码截止2019-03-07调试无误。
[2].下一篇将今天爬取的所有真题数据,做数据分析-->得出词频排序表。
让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!