摘要
css选择器作为页面样式表的选择器,具有十分简便的语法规则,对前端了解的人一定会喜欢用一种熟悉的方式去选择页面中的元素;那么,python中的lxml模块中的cssselect就是很好的选择
说明
对应css选择器的语法规则这里并不详细说明,因为这是属于css样式表的范畴。
以下代码默认已导入lxml中的etree
from lxml import etree
解析过程如下:
- 通过html页面内容生成selector
- 通过selector的cssselect方法获取元素
例如:
# html内容
html = "<!DOCTYPE HTML><html><body><p><a>123</a></p></body></html>"
# 生成解析html的selector
selector = etree.HTML(html)
a = selector.cssselect("a")[0]
print(a.text) # 123
上面代码实现了输出a标签的文本内容