【1】模块功能
Beautiful Soup主要用于html\xml文件的处理。
【2】相关函数及使用
1、BeautifulSoup(html_target,'lxml'):生成beautifulsoup对象。
soup = BeautifulSoup(html_target,'lxml')
2、soup.prettify():soup对象格式化,生成标准的html格式对象。
soup.prettify()
3、soup.title:获取html格式中的title标签
print(soup.title)
4、soup.title.string:获取title标签的内容
print(soup.title.string)
5、soup.find('a','class=?'):查找符合class=?属性的第一个a标签
print(soup.find('a','class=http://..'))
6、soup.find_all('a','class=?'):查找符合class=?属性的所有a标签
print(soup.find_all('a','class=http://..'))
7、soup.p.get('class'):获取p标签的class属性内容。
print(soup.p.get('class'))
8、soup.p.span:获取p标签下的span标签。
print(soup.p.span)