爬虫入门（一）

一、爬前准备

1、安装pip安装套件

pip install requests

pip install BeautifulSoup4

2、Chrome用户内建开发人员工具

检查—>Network—>Doc

3、编辑视窗

pip install jupyter

# 进行编辑：jupyter notebook

二、使用requests.get取得页面内容：

import requests

res = requests.get("http://finance.ifeng.com/" ) # 调用网页链接

res.encoding = "utf-8" # 汉显

print(res.text)

三、使用BeautifulSoup将页面内容剖析出来（'html.parser'—剖析器）

1、范例提取页面相关内容：

调用BeautifulSoup包，爬取页面全部内容

提取<h1></h1>内容

提取<a></a>内容

2、取得特定css属性元素：

3、在网页的连接上，取得所有a标签内的链接

例：

3、确定元素抓取位置：

三、根据不同HTML标签取得对应内容

根据HTML标签爬取内容

最后编辑于：2017.12.10 02:49:40

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文