个人学习笔记,方便自己查阅,仅供参考,欢迎交流
解析库:XPath、Beautiful Soup、pyquery
使用正则表达式提取页面信息不方便,所有要使用解析库提高效率。
XPath
1.概述
对于网页的节点来说,它可以定义 id class 或其他属性 而且节点之间还有层次关系,在网
中可以通过 XPath css 选择器来定位一个或多个节点 那么,在页面解析时,利用 XPath css
选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,不就可以提取我们想要的
任意信息了吗?