爬取百度关键词搜索链接

背景:

前两天boss给了一个网站的主站链接,要求对其进行信息收集。

       好嘛,按照我的思路肯定是先看下网站的大致内容,然后收集二级域名,查看下whois信息,google搜索一下,网站的敏感信息,收集服务器、程序、组件的bannner信息,然后看看服务器都开放了哪些端口,运行了哪些服务。。。

      后来发现我单纯了,baidu搜索了一下网站的关键词,发现此网站有很多分身,于是我就苦逼的一页一页的点击链接,收集相关网址,查询网站的whois信息和ip归属地,当时我的想法就是,一定要写一个脚本,自动化完成这些浪费时间且无意义的工作。于是就有了以下尝试:

功能一:

爬取百度关键词搜索相关链接:


# _*_ coding:utf_8 _*_

# coding by gooyii 2016/09/25

import urllib2 as url

import urllib

import string

import re

from pyquery import PyQuery as py

links = []

pagee = []

visited = []

def baidu_Search(keyword):

   p ={'wd': keyword}

   res = url.urlopen("http://www.baidu.com/s?"+urllib.urlencode(p))

   html = res.read()

   returnhtml

def surf(URL):

   res = url.urlopen(URL)

   html = res.read()

   return html

def get_List(regex,text):

   arr = []

   res = re.findall(regex,text)

  if res :

    for r in res:

      arr.append(r)

      return arr

def get_links(html):

   py_html = py(html)

   h3s = py_html('.t')

   for h3 in h3s.items():

      h3_hrefs = h3('a')

      for h3_href in h3_hrefs.items():

         if h3_href.attr('href') not in links:

         links.append(h3_href.attr('href'))

             for link in links:

                 print link

   returnlinks


def get_pages(html):

   py_html = py(html)

   pages = py_html('#page')

   for p in pages.items():

        page_hrefs = p('a')

        for  page_hrefs_a in page_hrefs.items():

               next_page = page_hrefs_a.attr('href')

               URL ="http://www.baidu.com"+ next_page

               pagee.append(URL)

   returnpagee


search_html = baidu_Search("天下无贼")

visits = get_pages(search_html)

for visit in visits:

    if visit not in visited:

        print("LINK: %s"% visit)

        html= surf(visit)

      a = get_pages(visit)

      if a not in visits:

          visits.append(a)

      get_links(html)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 9,932评论 0 6
  • 原文 她,不自觉地已经坠入了暮年人的园地里,当一种暗示发现时,使人如何的难堪!而且,电影似的人生,又怎样能挣...
    sherry214阅读 345评论 0 0
  • 在赢家每天都有收获和进步,这里就是爱与支持的能量场。对照开年后工作的这几天,自己需要提升服务能力和敏感度,语言表达...
    谢谢我的家人阅读 186评论 0 0
  • 丰富的一年,终于要结束了,年终总结太长,来不及了,希望来年一切顺利,加油! Always Zuo,Never Die!
    不存在的风阅读 192评论 0 0