Python-正则表达式

import re
import requests
from fake_useragent import UserAgent

ua = UserAgent()
headers = {'User-Agent': ua.random}

html = requests.get('http://www.baidu.com/',headers = headers)
html.encoding = 'utf-8'
html = html.text
title = re.findall(r'<a href="(http://.*?.com)" name="tj_tr.*?" class="mnav">(\w{2})</a>',html)
print(title)

输出

[('http://news.baidu.com', '新闻'), ('http://map.baidu.com', '地图'), ('http://v.baidu.com', '视频'), ('http://tieba.baidu.com', '贴吧'), ('http://xueshu.baidu.com', '学术')]
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容