获取网站相关信息
import dns.resolver
import urllib2
resp = urllib2.urlopen('http://www.www.com')
print type(resp)
print resp.headers
print resp.headers['Server']
print resp.getcode()
print resp.geturl()
获取title
import mongo
import header
import pymongo
import random
import requests
import urllib2
from bs4 import BeautifulSoup
#----------------------------------------------------------------------
def url_info(url):
""""""
data = urllib2.Request(url,headers=header.get_header())
html_url = requests.get(url, timeout=random.randint(5,10))
#print type(data.headers)
soup = BeautifulSoup(html_url.content, 'html.parser')
try:
print soup.title.string
encoding_url = html_url.encoding
title_url = soup.title.string
mongo.ls_Info.update({"URL":url},
{"$set":{'title':title_url,'encoding':encoding_url}},
upsert = True)
except Exception,e:
print str(e)
pass
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。