爬虫基本思路(以bf99为例)

  • 页面分析

  1. 明确自己需要获取的信息:如个人年龄居住地联系方式,获取比较完善的信息,以备绘制用户画像。
  2. 以下图用户信息为例,假如我们需要获取年龄,其对应html元素为class = nav2-25下的第一个font元素的innerText,其他信息同理。
Paste_Image.png
  1. 以上个页面为例,其页面地址为:其地址是一个不规则散列,所以我们需要找到用户信息页入口。
Paste_Image.png
  1. 在网站首页,观察网页结构,我们可以以2步的形式获取到,每个用户名带有用户主页连接,其保存在class=photodbgtd标签下的a链接中。至此页面分析结束
Paste_Image.png
  • 爬虫思路

  1. 编写爬虫基本内容,伪造请求头
  2. 编写函数get_href(),其接受参数end_page,end_pages代表最大爬取页面,get_href会爬取从第一页到end_page的所有class为photodbg的td标签下的a的href,保存这些href
  3. 编写函数get_content(),其参数参数href,会爬取对应href下个人信息,并保存。

至此,基本功能完成

More...

此网站在不登陆情况下无法获取用户联系方式,所以需要模拟登录,并且保存cookie与session。模拟登录时需要填写表单,并且异步获取验证码,暂时打算用PIL解析验证码,手动输入,之后就能获取所有信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,103评论 25 709
  • 一、命令基本格式 命令提示符 当登录linux系统时,最常见的命令就是:** [root@bogon ~]#**其...
    鲁克巴克诗阅读 4,353评论 0 6
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,195评论 4 61
  • 我对于我自己其实是很多的期待,可是一般我做不到自己期待的样子,特别是需要在外界获得一些力量的情况下。 但是如果我觉...
    子苏半夏阅读 1,768评论 0 0
  • 没有什么永垂不朽的,就像如今的我们,在这喧嚣的城市里,为着明天的好奇做着准备,到头来一成不变。 时间不会因为你的可...
    梨泰院阅读 1,209评论 0 1