RCurl-入门1

Term Project需要做一个爬虫-Crawler。爬什么、怎么爬,都不确定。索性网上搜教程开始学。很多语言都可以实现这个功能,比如JavaPythonR这三个我感兴趣的语言。

今晚看到的教学视频是关于R的。

R的爬虫Package为RCurl,首先需要在RStudio或R上安装,然后新建R Script后,引用该库。

library(RCurl)

今晚两小时,主题是:RCurl最重要的三个函数。只看到了第一个的两个基本命令。

getURL()

首先看一个很基本的查询网页是否存在的命令。

url.exist("http://www.baidu.com")

当网页存在是返回TRUE,否则返回FALSE

第二个基本命令可以查询Header。

d = debugGatherer
temp <- getURL("http://www.dataguru.com",debugfunction=d$update,verbose=TRUE)
cat(d$value()[3])#提交给服务器的Header
cat(d$value()[1])#服务器地址和端口号
cat(d$value()[2])#服务器返回的Header

其中的verbose=TRUE参数表示是否要将结果存储在d中。ddebugGatherer赋予了三个method,分别是updatevaluereset。当需要请求Header信息时,采用update函数,将信息存储在value中,如果需要重置value,则可使用reset。同时,如果verbose=FALSE,则会发现value中不会存储此次操作的信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,951评论 19 139
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,535评论 0 17
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,766评论 18 399
  • //Clojure入门教程: Clojure – Functional Programming for the J...
    葡萄喃喃呓语阅读 3,771评论 0 7
  • 孤单或是寂寞,这情绪难明。想见不得见,只惦着一片虚无,并多年如一日的倾注。乐此不疲于你可曾看见。只是那么一个人,只...
    青春被忘路阅读 357评论 0 0