4.爬虫

4.爬虫

1.网页数据的采集与urllib库

image.png

urllib自带标准库

#coding=utf-8
from  urllib import request
url="http://www.baidu.com"
response=request.urlopen(url,timeout=1)
print(response.read().decode('utf-8'))

库bs4

from bs4 import BeautifulSoup

html_doc = """
    <html>
<head>
<meta charset="utf-8">

<title>呵呵</title>

</head>

<body>
<!--  网页控件元素，类似按钮/图片/文章什么的都写在这里  -->
</body>

</html>

"""

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())

#获取网页title
print(soup.title)
#获取title的内容
print(soup.title.string)

print(soup.body)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1.网页数据的采集与urllib库

库bs4

友情链接更多精彩内容