网络爬虫通用代码框架

import requests

def getHTMLText(url):
    try:
        kv = {'user-agent':'Mozilla/5.0'}
        r = requests.get(url,headers=kv,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

最后编辑于：2018.02.01 11:27:58

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】
-Modest_Proud- 一、爬取网页的通用代码框架首先，我们使用Requests库进行网页访问的时候，经...
Modest_Proud阅读 5,706评论 1赞 4
通用Python网络爬虫框架
王一航阅读 3,514评论 0赞 0

Python网络爬虫---scrapy通用爬虫及反爬技巧
一、通用爬虫通用爬虫一般有以下通用特性: 爬取大量(一般来说是无限)的网站而不是特定的一些网站。不会将整个网站都...
我为峰2014阅读 5,345评论 0赞 2
Java企业通用开发平台框架源码 java框架平台代码生成器开发利器
获取【下载地址】官网http://www.fhadmin.org/ A调用摄像头拍照，自定义裁剪编辑头像，头像图...
cnemsg阅读 3,897评论 0赞 2
基于Vert.x和RxJava 2构建通用的爬虫框架
最近由于业务需要监控一些数据，虽然市面上有很多优秀的爬虫框架，但是我仍然打算从头开始实现一套完整的爬虫框架。在技...
fengzhizi715阅读 8,929评论 1赞 17

赞1赞

赞赏

手机看全文