python四周实战——第一周作业

总算做出来了第一周的作业,自己觉得勉强符合课件里的要求了吧,还没来得及看作业详解。还是觉得很方啊,像课程里的什么反爬虫什么的都没加上去

总结:

  1. 感觉这个作业跟第三课的练习非常地像,借鉴了很多。另外作业描述得不是很清楚,开始是爬取除了转转和方框里的推广,但是只有第一页有3条,后面的一条都没有,于是自作主张爬取转转,CSS selector都重新加过。
  2. 包装进zip的时候,开始由于有一个页面是没有“区域”显示的,于是这个页面就没有加进来,本来才3个页面就剩2个了。试了很久也没想到办法,只好看了下答案,发现没有zip,直接构造data了,而且还为每个元素设置了默认值。有默认值就好办多了
  3. 即使是默认值,发现自己还是只能抄抄了,对于python的数据类型不够熟,自己写的都报错,改改答案的,不明觉厉。明天得好好看讲解还有翻书查文档补一下。
  4. 提示里说的运用所学去反爬取吧,还有浏览量的问题,结果我运行着发现不需要反爬取啊,而且浏览量也和其他元素一样顺利抓取了。。。是哪里搞错了?很方很方。。。呃,感谢58网站那么给力
  5. 第四课的练习还没完成啊,网址打不开得翻墙,虽然介绍了几个,还没来得及去体验。自己打开花瓣也是这种类型的爬取了一下,发现。。发现。。没有发现规律啊,爬取的功夫还没到位,被专业的反爬取给打败了。
  6. 先交作业,虽然不完美,但是先做出来才能找到差距,这周末继续补一补基础。

代码:

from bs4 import BeautifulSoup
import requests
import time

urls = ['http://bj.58.com/pbdn/0/pn{}/'.format(page) for page in range(1,5)]

def get_link(url):
    Wb_data = requests.get(url)
    time.sleep(2)
    soup = BeautifulSoup(Wb_data.text, 'lxml')
    links= soup.select('#infolist > div.infocon > table > tbody > tr.zzinfo > td.t > a.t')
    for link in links:
        href = link.get('href')
        get_detail_info(href)

def get_detail_info(url,data=None):
    Wb_data = requests.get(url)
    soup = BeautifulSoup(Wb_data.text,'lxml')

    items = soup.select('#nav > div > span:nth-of-type(4) > a')
    times = soup.select('#index_show > ul.mtit_con_left.fl > li.time')
    prices= soup.select('body > div > div > div > div > div.info_massege.left > div.price_li > span > i')
    qualis= soup.select('body > div > div > div > div > div.info_massege.left > div.biaoqian_li')
    areas = soup.select('body > div > div > div > div > div.info_massege.left > div.palce_li > span > i')
    views = soup.select('body > div > div > div > div > div.box_left_top > p > span.look_time')

    data = {
            'item' :list(items[0].stripped_strings),
            'title':soup.title.text,
            'time' :times[0].text if len(times) > 0 else "",
            'price':prices[0].text if len(prices) > 0 else 0,
            'quali':list(qualis[0].stripped_strings) if len(qualis) > 0 else [],
            'area' :list(areas[0].stripped_strings) if len(areas) > 0 else [],
            'view' :views[0].text if len(views) > 0 else 0
    }
    print(data)

for single_url in urls:
    get_link(single_url)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,006评论 25 707
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,800评论 6 342
  • 01 “人的细胞平均七年会完成一次整体的新陈代谢。也就是传说中的七年之痒。不管是爱情还是婚姻进行到第七年,陷入平淡...
    林书薇阅读 508评论 6 10
  • “我们到此结束吧,我给你自由。”静心平静的说道。 许久之后…… “好。” 静心闭上了眼睛,心里的痛只有她自己明白,...
    简悠然阅读 513评论 2 0