2019-04-30

pthon爬虫--天眼查实战-嗷嗷嗷~~~

要知道https://guangzhou.tianyancha.com/search/p1这100个公司的id信息：先抓包，信息在返回的html文档中，不是我们喜闻乐见的json文件，好吧，只能暴力抓了。

在自定义Spider的parse函数调用response.xpath('xxxxxxx').extract_first()可以很轻松的获得这100家公司的URL，从中获取id及其它信息，再把item传给Pipeline。

在自定义的Pipeline中可以调用数据库保存相关的信息，注意信息的去重，我在新建表的SQL函数是这样写的：

天眼查机智的将几个字段的数字映射调换了一下位置，比如：

再比如：

怎么找到规律呢？抓包！找字体文件（Chrome按F12，选中‘Font’，刷新一下页面就有了）。

怎么样，映射关系出来了吧，uni30就是0

写个映射函数转换一下：

其实这次爬虫整体没有爬到很多数据量，因为天眼查有100的限制，后续的重点是怎么充分利用天眼查的search功能，爬到更多的公司id，其实或者穷举也行，像某不知名的B站那样…

这期就给大家分享到这里, 点个小红心吧, 留下大佬们的建议, 嗷嗷嗷~~~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。