登录注册写文章

用python3爬虫

Timmyk

用python3爬虫

识别网站所用技术

python3.6 安装builtwith模块

import builtwith

builtwith.parse('https://ggstudy.herokuapp.com/')

寻找网站所有者

pip install python-whois

import whois

whois.whois('https://ggstudy.herokuapp.com')

下载网页

import urllib.request

urllib.request.urlopen(url).read().decode('utf-8')

查询域名是否被注册

import urllib.request

req= urllib.request.urlopen('http://panda.www.net.cn/cgi-bin/check.cgi?area_domain=ggstudy.herokuapp.com')

print(req.read().decode('utf-8'))

网页解析

#python2为 urlparse

import urllib.parse

最后编辑于：2017.12.11 03:47:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,267评论 45赞 523
零基础自学用Python 3开发网络爬虫
由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想...
Python程序媛阅读 591评论 0赞 0

Python爬虫之Requests和Response
http header 消息通常被分为4个部分：general header即头部, request header...
徐薇薇阅读 32,253评论 0赞 5
入门指引
1、开启公众号开发者模式公众平台的技术文档目的为了简明扼要的交代接口的使用，语句难免苦涩难懂，甚至对于不同的读者...
good7758阅读 1,646评论 0赞 1
这是一封修仙者的求职邮件
尊敬的HR：您好，这是来自一位修仙者的求职信。我是2014级南开大学有机化学专业研究生连杰。我对阅读、文字很感...
沙漏时光阅读 701评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文