#所需要的环境
#控制台输入
#pip install requests
#pip install beautifulsoup4
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
link = "https://maoyan.com/"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
resp = requests.get(link,headers=headers)
resp.encoding = "utf-8"
resp = resp.text
soup = BeautifulSoup(resp,"lxml")
#======link里面填网址======上面代码不要动!===========
getdata = soup.select("")#填想要获取元素结点的路径,class是. id是# 标 签不处理
爬虫模板
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 首先分析官网上给出的示例代码: 疑问:1.Rule.LinkExtractor能不能直接使用xpath进行过滤Li...
- 老婆是影楼做后期的,经常要下载模板,看老婆点开86ps.com网站,一个一个点,然后找下载地址,这过程真是麻烦,既...
- 创建爬虫时,需要用scrapy genspider -t crawl 爬虫名 域名例如:本例子 scrapy ge...