Python小脚本-爬取补天厂商列表

采用Python第三方模块requests与beautifulsoup,可实现简单的爬虫功能;若需要复杂功能,可采用scrapy爬虫框架。

#-*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup
import sys

reload(sys) #重载sys模块
sys.setdefaultencoding('utf-8') #设置默认编码格式为utf-8,这个是为了将结果重定向到文件中,可选择。

for i in range(1,138):
    url = 'https://butian.360.cn/company/lists/page/' + str(i)
    r = requests.get(url)
    r.encoding = 'utf-8' #设置编码格式为utf-8,与网页保持一致,正确显示中文
    soup = BeautifulSoup(r.text, "lxml")
    for tag in soup.find_all(href=re.compile("^/company/info/id/")): #观察网页格式
        print tag.string, #获取厂商名称
        print ",",
        print tag.find_next().string # 获取厂商地址
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容