网络爬虫实战(5个案例)

案例1:京东商品页面的爬取

商品链接

import requests
url = "https://item.jd.com/2967929.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

案例2:亚马逊商品页面的爬取

商品链接

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

案例3:百度360关键词提交

搜索引擎关键词提交接口

百度的关键词接口:http://www.baidu.com/s?wd=keyword
360的关键词接口:http://www.so/com/s?q=keyword

import requests
keyword = "Python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
import requests
keyword = "Python"
try:
    kv = {'q':keyword}
    r = requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

案例4:网络图片的爬取和存储

网络图片链接的格式:http://www.example.com/picture.jpg
国家地理
选择一个图片Web页面:
http://www.nationalgeographic.com.cn/photography/photo_of_the_day/3921.html
该图片地址:http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg

import requests
import os
url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

案例5:IP地址归属地的自动查询

http://m.ip138.com/ip.asp?ip=ipaddress

import requests
url = "http://m.ip138.com/ip.asp?ip="
try:
    r = requests.get(url + '202.204.80.112')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[-500:])
except:
    print("爬取失败")
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,554评论 25 709
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,150评论 45 523
  • 进入当前的行业工作以来,时间已被公司工作和日常生活排满。对于写作,理工类男本身就是个缺点,连拼音都弱爆了,...
    渝城俊_阅读 138评论 0 0
  • 有些人一直在你的记忆当中,不是他对你有多么的重要,也不是你永远都放不下他,只是单纯的因为,他陪你走过的那一段路,是...
    婉彤Sharon阅读 605评论 0 0
  • 如今,失了玩闹的心,肩上多了叫做责任的情。 在社会上摸爬滚打伤痕累累,偶尔梦回的泪诉说着疲惫,你可知此刻,我最是想...
    德菲阅读 227评论 0 1