Python青苔计划(七)简单爬虫

青苔计划

探索了有一阵子,写爬虫时却无从下手,今天琢磨了一个小爬虫,于我而言跟确切的说,我实现了抽取网站html代码,然后在代码上搜索的功能,这样算爬虫吗?!

自我感觉学习似乎到了转折点,站在放弃和坚持中线,锚点显得更加重要,这篇文章就是锚点

  • 运行环境:Python3.6.1
  • 使用模块BeautifulSoup4,requests

提取简书7日热门第一页文章的标题和作者
提取思路:按照各个对象标签属性的不同进行提取

  1. 文章名称


    文章名称
  2. 作者的昵称


    作者昵称标签

代码如下(附解析):

#这里有一个库,模块,函数的区分
#导入模块
from urllib.request import urlopen    #从urllib.request引入urlopen函数
from bs4 import BeautifulSoup

#抓取网页并处理
html=urlopen("http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop")  #打开目标链接
bsObj=BeautifulSoup(html.read(),"lxml")  #用BeautifulSoup对网页进行处理,注:Python3会主动建议添加‘lxml’
x=bsObj.findAll(class_="title",target="_blank")  #查找所有文章标题
y=bsObj.findAll(class_="blue-link",target="_blank")  #查找所有作者

#将数据整理进入列表
a=[] #分别建立用于储存文章标题和作者的列表
b=[]
for x1 in x:
    k=x1.get_text() #去除查找到的语句中的链接和标签
    a.append(k) #将文章标题加入a列表中
for y1 in y:
    m=y1.get_text()
    b.append(m)

#遍历输出
n=0
for k in range(1,len(a)+1): #循环遍历列表并输出
    print('《',a[n],'》'"  ",b[n])
    n+=1

输出结果(简书七日热门第一页):

C:\python36\python.exe C:/Users/Administrator/PycharmProjects/untitled2/hh.py
《 我也是第一次当 女朋友 》   不凡大叔
《 30个孤独的夜晚,我为你准备了30段独白和30张照片 》   有备而来的路人甲
《 为什么我可以靠阅读挣钱,你不行 》   彭小六
《 生而为穷人,我很抱歉! 》   衷曲无闻_
《 《人民的名义》:寒门再难出贵子 》   墨客书院
《 拿了一年的1.5K,可我没打算辞职 》   可可为
《 人潮拥挤,而我刚好遇见你 》   朝歌晚丽
《 希望你那么忙,做的都是自己热爱的事 》   有备而来的路人甲
《 过去的一年里,我偷拍了100个一眼忘不掉的陌生人(一) 》   有备而来的路人甲
《 家是最好的美颜塑身场所,美颜塑身DIY看这一篇就够了 》   fly九小仙儿
《 你好,西安 》   妄劫歌
《 一个人旅行走遍全国32个省是什么样的体验(附一个人旅行攻略) 》   潘帕斯雄鹰
《 人物专题征文公告|写出你心中最爱的那个作家 》   乔克儿
《 拼了命,我终于活出了父母讨厌的样子 》   沈万九
《 《人民的名义》之祁同伟:平民孩子想登天,一靠不服二靠干! 》   妖明岳
《 我喜欢你,认真且怂,从一而终 》   阿念姑娘
《 大学两年读了200多本书,向你推荐这7本 》   瓯南
《 如何在三个月内健康自然地变美? 》   二十初仲夏的树
《 坚持写手帐135天,生活发生了哪些改变? 》   萌薇
《 #青春不一YOUNG# 青春映象节参赛规则 》   我是简小妹

Process finished with exit code 0
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容