简单的python爬虫

import requests        #导入requests包

from bs4 import BeautifulSoup

url = '...'

#...这里输入爬虫的网址

#为了不轻易被识别出来,用户代理

headers={

'User-Agent':'...'

}

#...这里输入自己的浏览器的用户代理

resp = requests.get(url,headers=headers)        #Get方式获取网页数据

#print(resp.text)#网页内容  文本

#print(resp.content.decode('utf-8'))#网页内容 二进制

html=resp.text

soup=BeautifulSoup(html,'html.parser')

infos = soup.find('div',{'class':'con1Text'}).get_text()

print(infos)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,377评论 6 28
  • 使用到框架:requests+bs4(BeautifulSoup)+pymysqlrequests: 一个数据抓取...
    cocoawork丶阅读 2,286评论 0 1
  • 爬取策略 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重...
    陈small末阅读 2,920评论 0 0
  • 我是一个喜欢每天吃着一日三餐而无所事事的人。不想工作,不想接触外面的世界的人。我很佩服那些每日坚持上班的人,因为我...
    晴天尼尼阅读 663评论 0 2
  • “山无棱、天地合、才敢与君绝 ”,“你是风儿、我是沙...”多么气壮山河的爱情,可是我的愿望很简单,我所...
    带着爱寻梦阅读 1,417评论 0 0