python四周实战——第一周作业

总算做出来了第一周的作业，自己觉得勉强符合课件里的要求了吧，还没来得及看作业详解。还是觉得很方啊，像课程里的什么反爬虫什么的都没加上去

总结：

感觉这个作业跟第三课的练习非常地像，借鉴了很多。另外作业描述得不是很清楚，开始是爬取除了转转和方框里的推广，但是只有第一页有3条，后面的一条都没有，于是自作主张爬取转转，CSS selector都重新加过。
包装进zip的时候，开始由于有一个页面是没有“区域”显示的，于是这个页面就没有加进来，本来才3个页面就剩2个了。试了很久也没想到办法，只好看了下答案，发现没有zip，直接构造data了，而且还为每个元素设置了默认值。有默认值就好办多了
即使是默认值，发现自己还是只能抄抄了，对于python的数据类型不够熟，自己写的都报错，改改答案的，不明觉厉。明天得好好看讲解还有翻书查文档补一下。
提示里说的运用所学去反爬取吧，还有浏览量的问题，结果我运行着发现不需要反爬取啊，而且浏览量也和其他元素一样顺利抓取了。。。是哪里搞错了？很方很方。。。呃，感谢58网站那么给力
第四课的练习还没完成啊，网址打不开得翻墙，虽然介绍了几个，还没来得及去体验。自己打开花瓣也是这种类型的爬取了一下，发现。。发现。。没有发现规律啊，爬取的功夫还没到位，被专业的反爬取给打败了。
先交作业，虽然不完美，但是先做出来才能找到差距，这周末继续补一补基础。

代码：

from bs4 import BeautifulSoup
import requests
import time

urls = ['http://bj.58.com/pbdn/0/pn{}/'.format(page) for page in range(1,5)]

def get_link(url):
    Wb_data = requests.get(url)
    time.sleep(2)
    soup = BeautifulSoup(Wb_data.text, 'lxml')
    links= soup.select('#infolist > div.infocon > table > tbody > tr.zzinfo > td.t > a.t')
    for link in links:
        href = link.get('href')
        get_detail_info(href)

def get_detail_info(url,data=None):
    Wb_data = requests.get(url)
    soup = BeautifulSoup(Wb_data.text,'lxml')

    items = soup.select('#nav > div > span:nth-of-type(4) > a')
    times = soup.select('#index_show > ul.mtit_con_left.fl > li.time')
    prices= soup.select('body > div > div > div > div > div.info_massege.left > div.price_li > span > i')
    qualis= soup.select('body > div > div > div > div > div.info_massege.left > div.biaoqian_li')
    areas = soup.select('body > div > div > div > div > div.info_massege.left > div.palce_li > span > i')
    views = soup.select('body > div > div > div > div > div.box_left_top > p > span.look_time')

    data = {
            'item' :list(items[0].stripped_strings),
            'title':soup.title.text,
            'time' :times[0].text if len(times) > 0 else "",
            'price':prices[0].text if len(prices) > 0 else 0,
            'quali':list(qualis[0].stripped_strings) if len(qualis) > 0 else [],
            'area' :list(areas[0].stripped_strings) if len(areas) > 0 else [],
            'view' :views[0].text if len(views) > 0 else 0
    }
    print(data)

for single_url in urls:
    get_link(single_url)

python四周实战——第一周作业

python四周实战——第一周作业

总结：

代码：

相关阅读更多精彩内容

友情链接更多精彩内容