一次爬取数据的尝试

大概是因为mayu解散了fc,基本没有复出的可能性,多余的爱无处发泄:)突然想到可以抓取她博客的数据进行一些粗浅的分析,于是就尝试了下,虽然经过几次尝试都不能算成功(主要是没搞定翻页的问题),但整个过程还是值得记录一下。
一开始想到的是利用为知笔记中自带的博客下载器,以前曾经用它来下载过新浪微博,效果还可以,所以先想利用它尝试一下。


2017-06-18_154229.png

输入地址点击分析,它会自动填写名称和RSS地址,但完全没用,无法下载ameba博客。
然后想起IDM也有抓取整站的功能。但第一次用的时候,没有配置好抓取方案,导致它找到了很多不相干的东西,反而需要的博客正文下载一直无法正常工作。
这时,想起我有RStudio,R语言也比较常用来抓取网站,于是就上网搜索有没有这方面的资源,很快找到了Rvert包,并跟随教材,先用了一个网页来测试,一切顺利地抓取到了正文内容。但是因为博客数量很多,我需要它根据目录页中的链接来一个个抓取,并且自动加载下一页目录。而这个R包貌似满足不了我的需求。
在垂头丧气的时候,想起IDM的整站抓取功能,还是决定再试一次。这次我仔细自定义了抓取方案,确定了只向下钻取一层,并只下载html文件。改好以后,IDM查找资源的速度果然快多了,很快我就下载好了51篇博客,但它也有一个问题,就是前几个目录页会重复,而且无法直接下载指定标题的文件。ameba博客的正文url是“entry-随机数.html”,它下载下来的文件名称不是博文标题,而是这个url,所以看上去完全无规律。最后由于时间关系,没有继续深入下去了的。
第二天,不甘心没有扒完mayu的博客,又再尝试了下。
昨天用r语言没办法搞定翻页,于是问了程序员朋友,什么工具处理这个问题比较有效,他回复说是python. 正好之前(已经忘了是什么原因)装过python,于是正好可以拿来用。
在网上搜了下,python爬虫的包主要是requests,但在Google它如何处理翻页的时候,有人提到了八爪鱼采集器,说是它比较简单好用。我的重点还是在于mayu的博客内容本身,如果能有好用的工具可以加快速度的话,我更倾向于使用现成的工具。
下载了八爪鱼,它的功能对我来说比较全面,而且引导新手做的比较好,看一遍教程就会用了。只是最后264篇文章,花了近5个小时才完成下载,而且下载的数据还不全(264/287),这点比较让人失望。
看来还是得自己动手才能丰衣足食啊,在硬盘里扒拉了下,发现之前下载过一本python网络数据采集(由此可见有使用场景这点多么重要,要不就永远只是“觉得应该学”的东西,而不是“我一定要用”的东西,就没有内在驱动力了)的电子书,看目录由浅入深讲的很完备,又符合我的需求,决定还是从头开始学习,自己动手打造一个网络爬虫,达到的效果是这样的:1.利用博客的目录页,自动下载好所有博文,包括正文及相关数据(发布时间、点赞数、引用数等);2.单独有个文件夹存放博客中的所有图片;3.以后定时监控博客,有新更新自动提醒,并且利用深度学习技术监测图片里有没有她本人的自拍,如果有在提醒中着重提示。
看上去还是挺困难的,但相信有爱:)和努力,就能办到。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容