互联网上有非常多的数据可供数据玩家们挖掘,有些网站会提供API供程序访问,但是很多情况下需要自己写一些爬虫程序去自动抓取和分析网页上的内容(也叫做Web Scraping)。现在比较流行的是用Python来写爬虫,但是作为一名Rapper,学会用R来写爬虫也是必须的。
已经有人用R开发出了一个专门做Web scraping的包rvest:
https://github.com/hadley/rvest
https://cran.r-project.org/web/packages/rvest/index.html
rvest使用起来比较方便,有一定HTML基础的同学看看github上的文档和CRAN上的vignettes很快就能学会写一些基本的爬虫程序。
我在YouTube上找了几个rvest相关的视频,选择了1个还比较不错的和大家分享。
http://v.qq.com/x/page/x0318p23una.html
看过之后是不是也想自己写个爬虫来玩呢?在下一期的“R图秀”中,我会给大家展示如何用R来抓取和分析网站上的数据,敬请关注!