爬虫入门(一)

一、爬前准备

1、安装pip安装套件

pip install requests

pip install BeautifulSoup4

2、Chrome用户内建开发人员工具

检查—>Network—>Doc

3、编辑视窗

pip install jupyter

#  进行编辑:jupyter notebook

二、使用requests.get取得页面内容:

import requests

res = requests.get("http://finance.ifeng.com/" )  # 调用网页链接

res.encoding = "utf-8"     # 汉显

print(res.text)

三、使用BeautifulSoup将页面内容剖析出来('html.parser'—剖析器)

1、范例提取页面相关内容:

调用BeautifulSoup包,爬取页面全部内容
提取<h1></h1>内容
提取<a></a>内容

2、取得特定css属性元素:

3、在网页的连接上,取得所有a标签内的链接

例:

3、确定元素抓取位置:

三、根据不同HTML标签取得对应内容

根据HTML标签爬取内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容