Python BeautifulSoup

代码示例

#!/usr/bin/python  
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
#soup = BeautifulSoup(open('page.html'),'lxml')
soup = BeautifulSoup(html, "lxml")

# 根据标签获取标题
print soup.head.string

# 标签名为a
# class为关键字加_,样式为sister
# href包含example
# recursive=False,只查询body的直接下级
for tag in soup.body.find_all(name='a',class_='sister',href=re.compile('example'),recursive=False):
    print tag.attrs['href']

#获取https://www.wxqfb.com/weixin/index/id/139.html的示例代码
data = list();
for item in soup.select('.newsllist li'):
    link = item.a['href']
    image = item.a.img['src']
    #title = item.a.find('div',class_='title').contents[0]
    title = item.a.select('div.title')[0].contents[0]
    data.append({'link':link,'image':image,'title':title})
f = open('home.json','w+')
f.write(json.dumps(data))
f.close()   

简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容