用Nodejs爬取网站信息并展示

需求:

核心需求:

1、选取3-5个代表性的新闻网站(比如新浪新闻、网易新闻等,或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等,或者体育领域的腾讯体育、虎扑体育等等)建立爬虫,针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息,存储在数据库中。

2、建立网站提供对爬取内容的分项全文搜索,给出所查关键词的时间热度分析。

技术要求:

1、必须采用Node.JS实现网络爬虫

2、必须采用Node.JS实现查询网站后端,HTML+JS实现前端(尽量不要使用任何前后端框架)

一.爬虫实现

选取网站:爬取新闻网站可以利用数据对社会热点现象进行分析以及直观的展示,并且可以在一定程度上对未来进行预测,具有现实性的价值,所以选择该类网站进行爬取。

最终选择了两个新闻门户网站进行爬虫:网易新闻(https://www.163.com/)、新浪新闻(http://news.sina.com.cn)。

网站分析:



网易新闻:

新闻界面:

可以看到网站的url为https://www.163.com/news/article/G8OJ66A60001899O.html?clickfrom=w_yw,内容包括/news/article/(16位的字符,包含大写的英文字母与数字).html。所以url判断的正则表达式可写为:/\/news\/article\/(\w{16}).html/。\w{16}表示英文字母与数字皆可匹配,数量为16。

再分析该网页的源代码信息,得到我们要存储在mysql中的信息位置以及在源代码中的关键词,通过对这些位置的内容的抓取得到我们所要的信息。修改如下:

$('某字段'),$符号就是查找的意思。其中某字段如果以.开头,表示在源代码中是一个类;

如该post_info类中包含日期与来源信息,通过抓取该内容即可得到发布时间与新闻来源。

若以meta开头则表示在源代码中是以<meta>形式存储;

通过var author_format = "$('meta[name=\"author\"]').eq(0).attr(\"content\")";,.eq(0)表示第一个字段,.attr(\"content\")表示获取content里的内容,这里为“网易”,从而可以得到author信息。



新浪新闻:

新闻界面:


url为:https://news.sina.com.cn/w/2021-04-29/doc-ikmyaawc2463267.shtml,所以写的判断url的正则表达式为/\/(\d{4})-(\d{2})-(\d{2})\/doc-(\w{15}).shtml/。

通过对网站源代码的分析,将爬取格式设置如下:

与网易新闻有一定程度上的区别,但是在大体格式上一致。



2.爬虫使用到的包:

request:

应用:1.读取种子界面,获取所有的新闻链接

2.读取具体新闻链接

iconv-lite:

转码为规定的encoding方式,这里使用的是utf-8

cheerio:

加载你想要访问的HTML页面,主要是为了用在服务器端需要对DOM进行操作的地方。有了它我们才能对网页做进一步处理操作。

在用cheerio读取网站源代码的时候,网站内的信息会分门别类存储到各自对应的$中去,完成信息爬取。

var $ = myCheerio.load(html, { decodeEntities: true });


3.定时爬取:


每天手动爬取容易遗忘,且较为麻烦,可以将程序运行,让其在每天的固定时间自动帮助你爬取目标网站的新闻。

需要使用node-schedule包。times为爬取时间的小时数,如图中为在每天的0、3、6、9、12、20、22点30分爬取。



4.遇到的问题:

在爬取的过程中有时会因为网站的问题遇到一些异常错误导致爬取失败,具体分析网站的问题并解决耗时耗力,所以出现异常选择直接return该函数作为处理方法,不让其影响其他网站的爬取。


二.数据存储

将数据存储在数据库中,结构化存储节省空间且方便查询。

使用老师的数据库设计,设置的column为id,url,source_name,titile,keywords,author,publish_date,crawltime,content,createtime。



在navicat查询数据的存储信息

三、前后端设计

查询界面:

查询后端函数实现:

用mysql的查询语句获得title中包含查询关键词的数据,因为正文内容太长不在页面中显示,其余都作为结果,最后用JSON的stringfy函数将结果作为字符串传入前端。

查询前端界面实现:

一个文本输入框,type设为button,点击后就将查询关键词传入后端作为mysql的查询关键词。


因为要在当前界面使用表格进行数据的展示,所以在此html文件下使用javascript语言编写前端代码,click后执行函数处理返回的mysql查询结果,利用定义的表格样式将数据逐一放入,比直接展示查询结果美观。

热点图界面:


一般来说趋势图用折线图较为合适,但是因为爬取的新闻天数不是很多,用柱状图更加直观、好看,所以权衡之下选择了柱形图展示关键词热点图。

热点图后端实现:


对按照关键词搜索的查询结果按照publish_date进行group by统计频数,并按照时间升序排列作为返回结果。结果大致为:4.26 19。

热点图前端界面实现:


选择使用highcharts绘制热点柱形图,将上述的查询结果按照highcharts的要求传入json中进行绘制。

四、总结

此次实验我初次接触了javascipt语言,也是第一次使用nodejs做爬虫(之前使用的是python)。上手很困难,可能nodejs确实比较适合爬虫,较其他语言速度更快更加高效,但是日后的使用频率也不会很高。积累了一些前端设计的经验,知道了前后端连接的方式,受益匪浅。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容