需求:
核心需求:
1、选取3-5个代表性的新闻网站(比如新浪新闻、网易新闻等,或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等,或者体育领域的腾讯体育、虎扑体育等等)建立爬虫,针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息,存储在数据库中。
2、建立网站提供对爬取内容的分项全文搜索,给出所查关键词的时间热度分析。
技术要求:
1、必须采用Node.JS实现网络爬虫
2、必须采用Node.JS实现查询网站后端,HTML+JS实现前端(尽量不要使用任何前后端框架)
一.爬虫实现
选取网站:爬取新闻网站可以利用数据对社会热点现象进行分析以及直观的展示,并且可以在一定程度上对未来进行预测,具有现实性的价值,所以选择该类网站进行爬取。
最终选择了两个新闻门户网站进行爬虫:网易新闻(https://www.163.com/)、新浪新闻(http://news.sina.com.cn)。
网站分析:
网易新闻:
新闻界面:
可以看到网站的url为https://www.163.com/news/article/G8OJ66A60001899O.html?clickfrom=w_yw,内容包括/news/article/(16位的字符,包含大写的英文字母与数字).html。所以url判断的正则表达式可写为:/\/news\/article\/(\w{16}).html/。\w{16}表示英文字母与数字皆可匹配,数量为16。
再分析该网页的源代码信息,得到我们要存储在mysql中的信息位置以及在源代码中的关键词,通过对这些位置的内容的抓取得到我们所要的信息。修改如下:
$('某字段'),$符号就是查找的意思。其中某字段如果以.开头,表示在源代码中是一个类;
如该post_info类中包含日期与来源信息,通过抓取该内容即可得到发布时间与新闻来源。
若以meta开头则表示在源代码中是以<meta>形式存储;
通过var author_format = "$('meta[name=\"author\"]').eq(0).attr(\"content\")";,.eq(0)表示第一个字段,.attr(\"content\")表示获取content里的内容,这里为“网易”,从而可以得到author信息。
新浪新闻:
新闻界面:
url为:https://news.sina.com.cn/w/2021-04-29/doc-ikmyaawc2463267.shtml,所以写的判断url的正则表达式为/\/(\d{4})-(\d{2})-(\d{2})\/doc-(\w{15}).shtml/。
通过对网站源代码的分析,将爬取格式设置如下:
与网易新闻有一定程度上的区别,但是在大体格式上一致。
2.爬虫使用到的包:
request:
应用:1.读取种子界面,获取所有的新闻链接
2.读取具体新闻链接
iconv-lite:
转码为规定的encoding方式,这里使用的是utf-8
cheerio:
加载你想要访问的HTML页面,主要是为了用在服务器端需要对DOM进行操作的地方。有了它我们才能对网页做进一步处理操作。
在用cheerio读取网站源代码的时候,网站内的信息会分门别类存储到各自对应的$中去,完成信息爬取。
var $ = myCheerio.load(html, { decodeEntities: true });
3.定时爬取:
每天手动爬取容易遗忘,且较为麻烦,可以将程序运行,让其在每天的固定时间自动帮助你爬取目标网站的新闻。
需要使用node-schedule包。times为爬取时间的小时数,如图中为在每天的0、3、6、9、12、20、22点30分爬取。
4.遇到的问题:
在爬取的过程中有时会因为网站的问题遇到一些异常错误导致爬取失败,具体分析网站的问题并解决耗时耗力,所以出现异常选择直接return该函数作为处理方法,不让其影响其他网站的爬取。
二.数据存储
将数据存储在数据库中,结构化存储节省空间且方便查询。
使用老师的数据库设计,设置的column为id,url,source_name,titile,keywords,author,publish_date,crawltime,content,createtime。
三、前后端设计
查询界面:
查询后端函数实现:
用mysql的查询语句获得title中包含查询关键词的数据,因为正文内容太长不在页面中显示,其余都作为结果,最后用JSON的stringfy函数将结果作为字符串传入前端。
查询前端界面实现:
一个文本输入框,type设为button,点击后就将查询关键词传入后端作为mysql的查询关键词。
因为要在当前界面使用表格进行数据的展示,所以在此html文件下使用javascript语言编写前端代码,click后执行函数处理返回的mysql查询结果,利用定义的表格样式将数据逐一放入,比直接展示查询结果美观。
热点图界面:
一般来说趋势图用折线图较为合适,但是因为爬取的新闻天数不是很多,用柱状图更加直观、好看,所以权衡之下选择了柱形图展示关键词热点图。
热点图后端实现:
对按照关键词搜索的查询结果按照publish_date进行group by统计频数,并按照时间升序排列作为返回结果。结果大致为:4.26 19。
热点图前端界面实现:
选择使用highcharts绘制热点柱形图,将上述的查询结果按照highcharts的要求传入json中进行绘制。
四、总结
此次实验我初次接触了javascipt语言,也是第一次使用nodejs做爬虫(之前使用的是python)。上手很困难,可能nodejs确实比较适合爬虫,较其他语言速度更快更加高效,但是日后的使用频率也不会很高。积累了一些前端设计的经验,知道了前后端连接的方式,受益匪浅。