IR08-四川大学公共管理学院新闻数据采集实验报告

文章结构:
实验主题、实验工具、实验过程、错误报告与错误分析、小组个人利用scrapy爬取教师信息实验报告

一. 实验主题

爬取四川大学公共管理学院新闻动态上的新闻,包括标题、发布时间、正文。

二. 实验工具

八爪鱼采集器7.3.8

三. 实验过程

八爪鱼是一款可视化的网络爬虫制作工具。本次实验使用八爪鱼的自定义采集,完成数据采集实验。

  1. 将新闻动态的网址,复制粘贴到采集网址处后,点击保存网址,系统会进入到流程设计页面并自动打开输入的网址。


    新建任务
  2. 采集新闻动态属于分页列表详细信息采集,我们先建立分页循环流程,鼠标点击浏览器页面的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”。


    建立分页循环

下面对新闻标题创建循环点击

我们要把每个新闻的链接打开,进入详情页面,然后再采集详情里面的数据。结合前面建立的翻页循环,我们就能自动点击下一页翻页,对每一页的新闻标题列表都能逐个打开进入详情页,从而完成对所有新闻详细数据的点击并最终达到提取所有数据的效果。

  1. 鼠标点击下图中第一个新闻标题“行政管理系成功举办台湾台北大学张四明教授学术讲座”链接,这时候点击右边操作提示框中的“选择全部”选项,然后再选择“循环点击每个链接”选项即可。


    循环点击

接下来就是最终提取数据的步骤了。

  1. 鼠标点击页面中要提取的内容,包括标题,发布时间和正文,连续选择提取内容,默认“采集该元素的文本”,选择好后,点击“采集数据”。


    选择爬取数据
  2. 这样提取完毕之后我们可以点击流程按钮,修改字段名称以及简单的处理一下提取到的数据。在下面的界面中,左侧是采集任务的逻辑图,在右侧修改字段名称。修改完成后,点击“确定”保存。


    流程

    采集逻辑如下图所示:


    采集逻辑
  1. 在上图中,我们可以看见在时间字段中,包括“发布时间:”这几个字,通过八爪鱼,我们可以在采集的时候将这几个字去掉。选中时间这个字段,点击“自定义数据字段”。



    依次点击“格式化数据”,“添加步骤”,“正则表达式匹配”,输入如图所示正则表达式,点击“计算”和“确定”,即可。


    正则表达式

    然后再次点击“确定”,即可回到流程界面,这时可以看见时间字段中,数据只有日期了。
  2. 点击“保存”后,点击“开始采集”,再在弹出的对话框中选择“启动本地采集”(其他几种方式需要付费)
    采集结果如下图:


    采集结果

系统会在本地电脑上开启一个采集任务并采集数据,任务采集完之后会弹出一个采集结束的提示,接下来选择导出数据,我们选择将数据导出为csv文件,采集完之后,我们发现有41条重复数据,最终我们采集到400条新闻。


任务完成
数据样例

四. 错误报告与错误分析

错误报告:

错误报告

错误分析

提取数据的目标网页是:

目标网页

  1. 新闻栏中有专题栏目,点击进入后与目标页面网页结构不一致,采集失败
    专题
  2. 链接中含有来自四川大学网站的新闻,点击进入后与目标页面网页结构不一致,采集失败
    四川大学网站的新闻
  3. 新闻中有英文专题,也是因为网页结构不一致的原因,采集失败。
    英文专题
  4. 还有来自CCTV官网的视频新闻
    视频新闻

数据重复的原因

目标新闻网页存在重复:


重复新闻

五. 总结

当前使用八爪鱼所设置的爬取规则太过简单,缺乏对特殊情况的判断和处理。

六. 小组成员个人利用scrapy爬取公共管理学院教师信息的实验报告

cc01——使用scrapy爬取四川大学公共管理学院教师信息实验报告
yjl33——scrapy学习
zl36——八爪鱼+Scrapy爬取公共管理学院新闻动态&教师信息

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容