爬取百度关键词搜索链接

背景:

前两天boss给了一个网站的主站链接,要求对其进行信息收集。

       好嘛,按照我的思路肯定是先看下网站的大致内容,然后收集二级域名,查看下whois信息,google搜索一下,网站的敏感信息,收集服务器、程序、组件的bannner信息,然后看看服务器都开放了哪些端口,运行了哪些服务。。。

      后来发现我单纯了,baidu搜索了一下网站的关键词,发现此网站有很多分身,于是我就苦逼的一页一页的点击链接,收集相关网址,查询网站的whois信息和ip归属地,当时我的想法就是,一定要写一个脚本,自动化完成这些浪费时间且无意义的工作。于是就有了以下尝试:

功能一:

爬取百度关键词搜索相关链接:


# _*_ coding:utf_8 _*_

# coding by gooyii 2016/09/25

import urllib2 as url

import urllib

import string

import re

from pyquery import PyQuery as py

links = []

pagee = []

visited = []

def baidu_Search(keyword):

   p ={'wd': keyword}

   res = url.urlopen("http://www.baidu.com/s?"+urllib.urlencode(p))

   html = res.read()

   returnhtml

def surf(URL):

   res = url.urlopen(URL)

   html = res.read()

   return html

def get_List(regex,text):

   arr = []

   res = re.findall(regex,text)

  if res :

    for r in res:

      arr.append(r)

      return arr

def get_links(html):

   py_html = py(html)

   h3s = py_html('.t')

   for h3 in h3s.items():

      h3_hrefs = h3('a')

      for h3_href in h3_hrefs.items():

         if h3_href.attr('href') not in links:

         links.append(h3_href.attr('href'))

             for link in links:

                 print link

   returnlinks


def get_pages(html):

   py_html = py(html)

   pages = py_html('#page')

   for p in pages.items():

        page_hrefs = p('a')

        for  page_hrefs_a in page_hrefs.items():

               next_page = page_hrefs_a.attr('href')

               URL ="http://www.baidu.com"+ next_page

               pagee.append(URL)

   returnpagee


search_html = baidu_Search("天下无贼")

visits = get_pages(search_html)

for visit in visits:

    if visit not in visited:

        print("LINK: %s"% visit)

        html= surf(visit)

      a = get_pages(visit)

      if a not in visits:

          visits.append(a)

      get_links(html)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 9,819评论 0 6
  • 原文 她,不自觉地已经坠入了暮年人的园地里,当一种暗示发现时,使人如何的难堪!而且,电影似的人生,又怎样能挣...
    sherry214阅读 333评论 0 0
  • 在赢家每天都有收获和进步,这里就是爱与支持的能量场。对照开年后工作的这几天,自己需要提升服务能力和敏感度,语言表达...
    谢谢我的家人阅读 175评论 0 0
  • 丰富的一年,终于要结束了,年终总结太长,来不及了,希望来年一切顺利,加油! Always Zuo,Never Die!
    不存在的风阅读 127评论 0 0