【RTube-2】用R自动抓取和分析网页

互联网上有非常多的数据可供数据玩家们挖掘,有些网站会提供API供程序访问,但是很多情况下需要自己写一些爬虫程序去自动抓取和分析网页上的内容(也叫做Web Scraping)。现在比较流行的是用Python来写爬虫,但是作为一名Rapper,学会用R来写爬虫也是必须的。

已经有人用R开发出了一个专门做Web scraping的包rvest:
https://github.com/hadley/rvest
https://cran.r-project.org/web/packages/rvest/index.html

rvest使用起来比较方便,有一定HTML基础的同学看看github上的文档和CRAN上的vignettes很快就能学会写一些基本的爬虫程序。

我在YouTube上找了几个rvest相关的视频,选择了1个还比较不错的和大家分享。
http://v.qq.com/x/page/x0318p23una.html

看过之后是不是也想自己写个爬虫来玩呢?在下一期的“R图秀”中,我会给大家展示如何用R来抓取和分析网站上的数据,敬请关注!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,588评论 25 709
  • 你爬了吗? 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网...
    Albert新荣阅读 2,254评论 0 8
  • 喜欢微博上的一首小诗: 我和我的猫都很想你 哈哈哈 我是骗你的 我没有猫 也没有你 从来...
    漂泊旳貓阅读 378评论 0 2
  • 今天再次陷入处理细节事务的思维当中,当一天快结束时,发现自己很多事情还没有做,整个一天都在忙活一件事,那就是统计参...
    digman阅读 192评论 0 0
  • 净空法师语音答疑 身体健康的就很得意,身体衰弱的又很苦恼,都是不平。这个世界谁能把这桩事情做得真平等?阿弥陀佛有这...
    拜托啦师父阅读 303评论 1 2