爬虫学习一

1.使用BeautifulSoup库解析网页

from bs4 import BeautifulSoup

2.使用requests库取得网页

import requests
url= 'http://xxx.html'
wb_data = requests.get(url)

3.将网页通过lxml方法简析

soup = BeautifulSoup(wb_data, 'lxml')

4.通过css selector 选择需要爬去的位置信息,通过[0]索引并以文本形式输出

title = soup.select('div.con_l > div.pho_info > h4')[0].text

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 其实node.js也可以做爬虫,相信前端的同学已经有所了解,但今天我们要讲的是如何用python,python实现...
    我是上帝可爱多阅读 362评论 0 3
  • 这几天发现一个比较适合Python爬虫初学者的网站,我是跟着里边的kingname老师学习,这就当作是一个学习笔记...
    MuYi0420阅读 558评论 0 4
  • 课程目标 爬取百度百科Python词条相关多个页面的词条和简述 并将数据以表格的形式保存成html 程序包含五个模...
    牵丝笼海阅读 468评论 0 2
  • 溜过三个本命年,七十古稀已过半。今宵夜冷月光寒,僵居陋室回头看。忆及当年小伙伴,别离多年聚首难。八九岁时两小无猜,...
    米雷聪聪阅读 208评论 0 0
  • 2017.5.30 记得上次有写过一篇文章,当时写那篇文章时,我们之间的关系还不确定,至少还让我有一丝丝的希...
    壬雨阅读 296评论 0 1