Python实战计划学习笔记0702

实战计划第五天,抓了58同城。

最终成果是这样的:

Paste_Image.png

我的代码:

#!/usr/bin/env python    #告诉计算机执行程序在系统环境变量中的名字,详细位置在环境变量中设置好了
#-*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import time
import requests

def get_info(link):
    wb_detail = requests.get(link)
    soup = BeautifulSoup(wb_detail.text, 'lxml')
    # nth-of-child(3)改成nth-of-type(3)就可以唯一爬去本页面的信息了 conditions 和 areas爬出来后需要去掉特殊符号
    types = soup.select('#header > div.breadCrumb.f12 > span:nth-of-type(3) > a')
    titles = soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.mainTitle > h1')
    dates = soup.select('#index_show > ul.mtit_con_left.fl > li.time')
    prices = soup.select(
        '#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-of-type(1) > div.su_con > span')
    conditions = soup.select(
        '#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-of-type(2) > div.su_con > span')
    areas = soup.select(
        '#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-of-type(3) > div.su_con > span')

    for type, title, date, price, condition, area in zip(types, titles, dates, prices, conditions, areas):
        data = {
            'type' : type.get_text(),
            'title' : title.get_text(),
            'data' : date.get_text(),
            'price' : price.get_text(),
            'conditions' : list(condition.stripped_strings),   #list()用法
            'area' : list(areas[0].stripped_strings) if soup.find_all('span', 'c_25d') else None,
            'view' : get_view(link)
        }
        print(data)

def get_view(url):  #获取浏览量
    infoid = url.split('?')[0].split('/')[-1].strip('x.shtml')
    api = 'http://jst1.58.com/counter?infoid={}'.format(infoid)

    '''这里要加上header信息'''

    headers = {'User-Agent':r'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',
               'Cookie':r'id58=c5/ns1ct99sKkWWeFSQCAg==; city=bj; 58home=bj; ipcity=yiwu%7C%u4E49%u4E4C%7C0; als=0; myfeet_tooltip=end; bj58_id58s="NTZBZ1Mrd3JmSDdENzQ4NA=="; sessionid=021b1d13-b32e-407d-a76f-924ec040579e; bangbigtip2=1; 58tj_uuid=0ed4f4ba-f709-4c42-8972-77708fcfc553; new_session=0; new_uv=1; utm_source=; spm=; init_refer=; final_history={}; bj58_new_session=0; bj58_init_refer=""; bj58_new_uv=1'.format(str(infoid)),
               'Accept': '*/*',
               'Accept-Encoding': 'gzip, deflate, sdch',
               'Accept-Language': 'zh-CN,zh;q=0.8',
               'Cache-Control': 'max-age=0',
               'Connection': 'keep-alive',
               'Host':'jst1.58.com',
               'Referer':r'http://bj.58.com/pingbandiannao/{}x.shtml'.format(str(infoid))
               }
    js = requests.get(api,headers = headers)
    #js = requests.get(api)
    view = js.text.split('=')[-1]
    return view

def get_links_info(page):
    urls = ['http://bj.58.com/pbdn/1/pn{}'.format(str(i)) for i in range(1,page)]   #必须是个list
    for url in urls:
        wb_data = requests.get(url)
        soup = BeautifulSoup(wb_data.text,'lxml')
        schemes = soup.select('#infolist tr td.t a')   #为什么写成这样就可以爬取了??
        print(schemes)
        time.sleep(2)



        for scheme in schemes:
            link = scheme.get('href')
            if link[:17] == 'http://bj.58.com/':     #用这种select有效连接
                get_info(link)



get_links_info(20)

总结和问题

  • list()用法
  • CSSpath没有>
  • 字典写文件语句
  • open路径前面加r
  • 确定浏览量代码
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,581评论 25 708
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,554评论 0 17
  • http://python.jobbole.com/85231/ 关于专业技能写完项目接着写写一名3年工作经验的J...
    燕京博士阅读 7,631评论 1 118
  • 晚上就要开学典礼了,内心止不住还那么激动了一下下. 但最近偶尔也会蹦出一两个问题,不怕您笑,问题啊还都相当之俗套,...
    Gouwal阅读 162评论 0 0
  • 日常生活中你是否也在苦恼,回到家看到家里乱糟糟的原本就不是很好的心情更糟糕了,又或者是时常为找一样小东西花费不少时...
    荒了就像白活了一场阅读 323评论 0 2