关于网站

获取网站相关信息

import dns.resolver
import urllib2
resp = urllib2.urlopen('http://www.www.com')
print type(resp)
print resp.headers
print resp.headers['Server']
print resp.getcode()
print resp.geturl()

获取title

import mongo
import header
import pymongo
import random
import requests
import urllib2
from bs4 import BeautifulSoup


#----------------------------------------------------------------------
def url_info(url):
    """"""
    data = urllib2.Request(url,headers=header.get_header()) 
    html_url = requests.get(url, timeout=random.randint(5,10))
    #print type(data.headers)
    soup = BeautifulSoup(html_url.content, 'html.parser') 
    
    try:
        print soup.title.string
        encoding_url = html_url.encoding
        title_url = soup.title.string
        
        mongo.ls_Info.update({"URL":url},
                                 {"$set":{'title':title_url,'encoding':encoding_url}},
                                 upsert = True) 
    except Exception,e:
        print str(e)
        pass

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 转: 首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1、扁平...
    bianji阅读 3,411评论 0 4
  • 基于不同的需求,网站在注册页面和后续流程所呈现的也大不相同,但是不管怎么样变化,核心点始终是网站为用户后续提供的服...
    还在呢死胖纸阅读 4,030评论 1 7
  • 前段时间做了一个PHP(TP框架)的项目,同时整合了Ucenter与Discuz论坛打通,实现了同步注册与登录,开...
    Eric__Cui阅读 5,619评论 0 0
  • 什么是长尾关键词?举个例子:我们的目标关键词“SEO”,那么长尾关键词可以分为“SEO是什么意思”、“SEO教程”...
    fsfwwwqw阅读 3,047评论 0 0
  • 本文将着重从几个方面网站建设的几项意见与建议。 移动互联网 互联网发展速度相当惊人,特别是2011年~2014年下...
    寒之阅读 3,150评论 0 1

友情链接更多精彩内容