RCurl和rvest

这篇是很久之前学习r爬虫时写的,搬到这里来

格式转化

iconv(text,"UTF-8")

方法一,通过RCurl实现

正则表达式/xml

install.packages("RCurl")
install.packages("XML")
library(RCurl)
library(XML)

myHttpheader <- c(
"User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
"Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8",
"Accept-Language"="en-us",
"Connection"="keep-alive",
"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7")

url <- "https://book.douban.com/top250?icn=index-book250-all"

webpage <- getURL(url,httpheader=myHttpheader,.encoding="UTF-8")

pagetree <- htmlTreeParse(webpage,encoding="UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

node<-getNodeSet(pagetree, "//p[@class='pl']/text()")
info<-sapply(node,xmlValue)
info

node

方法二,通过rvest实现

知识储备:css/xpath

install.packages("rvest")
library(rvest)
web<-read_html("https://book.douban.com/top250?icn=index-book250-all",encoding="UTF-8")

position<-web %>% html_nodes("p.pl") %>% html_text()

position

评价书

选取所有的评价

position2<-web %>% html_nodes("span.pl") %>% html_text()

position2<-web %>% html_nodes("div span.pl") %>% html_text()

选区所有的简介(2种写法)

position3<-web %>% html_nodes("p.quote") %>% html_text()

position3<-web %>% html_nodes("span.inq") %>% html_text()

选取所有的书名

position4<-web %>% html_nodes("a[title]") %>% html_text()

position5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,969评论 19 139
  • 下课了,一群孩子涌向操场,如开闸泄水的水般,虽然只有短短的10分钟,却毫无顾忌的奔跑着,你追我赶,脸上洋溢着笑容...
    涂莹阅读 2,732评论 0 0
  • 别整天把我挂在嘴上, 你给不了我想要的未来。 请你不要随便, 在我身边说爱。
    渡岸孤山阅读 2,844评论 17 27
  • 25和120,这两个数字有什么含义?有什么不同?“0”的位置放错了?应该是250是尔?或者,十个25在一起就等于一...
    魔之瞳阅读 3,405评论 0 1
  • 关键词:道德经第一章道规律 世间万物共存共生,我在四季轮回、岁月流转之中,观察万物循环往复的规律。 —*—*—*—...
    彼岸悟语阅读 11,171评论 33 18

友情链接更多精彩内容