2019-09-20 python爬虫

import requests# 导入requests包

import re

from bs4import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}

# 中国旅游网

url ='http://www.cntour.cn/'

strhtml = requests.get(url,headers=headers)

# 用lxml解析

soup = BeautifulSoup(strhtml.text, 'lxml')

# 抓取select的内容

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

for itemin data:

result = {

'title': item.get_text(),

        'link': item.get('href'),

        # 正则去ID数字

        'ID':re.findall('\d+',item.get('href'))

}

print(result)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,374评论 6 28
  • 爬虫三大库 request、BeautifulSoup、lxml库 推荐使用lxml作为解释器,其效率高 使用请求...
    李玉奇_1aeb阅读 3,283评论 0 0
  • 爬取策略 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重...
    陈small末阅读 2,920评论 0 0
  • 一、爬虫介绍: 什么是爬虫? 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以...
    SlashBoyMr_wang阅读 4,434评论 0 1
  • requests的简单使用: import requests requests是对urllib的封装,可以实现ur...
    __晴天___阅读 3,846评论 0 1