本文运用入门水平的XPath爬取猪八戒网站的相关信息:
爬取信息目标:服务商的公司名,服务内容,价格
代码如下
运行后的部分结果
代码所在行的2个小小知识点:
第8行: html文本用HTML参数,同理,各用各的参数,不能混淆,如常用的:XML以及parse
第12-29行,由于网站的代码略微复杂,如果一个个去看节点的位置,眼睛得瞎.所以采用小技巧方式:
点击1--鼠标移动到2--鼠标左键点击一次(就可以看到网页内容对应的源代码)--点击鼠标右键--Copy--Copy XPath(就成功复制了目标信息在文本中的节点位置)--
重复上面的步骤依次找出公司名,价格,服务内容,观察他们相应的路径,即可得出相应规律. 避免了因网页源代码较为复杂找节点容易出错,变相浪费时间.