2018-01-15 剖析新闻标识符 用于下一个的爬取评论

开头 怎么说  慢慢学吧  

开始 对网址进行剖析 URL = news.sina.com.cn/c/nd/2018-01-15/doc-ifyqptqv9660647.shtml

对于下一次的爬取评论用到的import json这个再说

爬取url中的fyqptqv9660647这一部分 没办法 要用到

还是图片


然后就是结果


可以看出 已经按/进行剖析了 list 

还有图片


可以看出不同 多了一个[-1]

结果图片


然后怎么把所需要的拿出来呢 用到的是rstrip和lstrip


用的rstrip

加上lstrip


over!

#不怎么习惯加标点 下一遍文章看情况把

#软件用的pychram虽说很难用 但是比myeclipse好用点

还有一个方法进行剖析 比上一个简单

用到 re search group


看图


首先导入re

用search进行选择 主要内容就是(.*)

然后用到group进行获取 有0有1                        看图


group1轻松的剖析出所需内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。