Python 简单爬去简书文章列表

运行环境:python3.5.1 , 库:bs4
爬取一位大神的简书文章列表
直接代码:

# coding=utf-8

from urllib.request import urlopen
from urllib.error import URLError
from bs4 import BeautifulSoup


def getName(url):
    try:
        html = urlopen(url)
    except URLError as e:
        print(e)
        return None

    try:
        bsObj = BeautifulSoup(html, "html.parser")
        namelist = bsObj.select('h4 > a[target="_blank"]')
    except AttributeError as e:
        print(e)
        return None
    for name in namelist:
        print(name.string)


for index in range(1, 10):
    getName(
        "http://www.jianshu.com/users/c98451170fd6/latest_articles?page=%d" % index)

如果你是使用subl IDE 利用插件直接在subl 中运行的话,可能会在subl控制台中发现中文都是乱码,这个问题我也一直找不到解决办法。为了得到正确的运行结果请在终端下用命令进行运行。
运行结果:

weiwangdeMacBook-Pro:Desktop wangwei$ python findName.py 
百词斩PK词汇重点整理(2016.6)
简明Python教程笔记(附代码)
Python input和raw_input的区别
Python算法100题--034
linux硬链接和软链接
Linux用户及文件权限管理
Linux概念和基础操作
Linux系统介绍
操作系统知识总结
Linux常用命令
PyCharm教程
Python算法100题--033
Python算法100题--032
时间管理的七句话---阮一峰
请分别列出HTML、JavaScript、CSS、Java、php、python的注释代码形式。
TCP/IP常问问题
常见网络协议及对应端口号
TCP/UDP区别
网络架构模型
常见正则表达式
常见网络操作命令
进制的计算
开源版本讨论
Python算法100题--031
脸谱化过去的你
HTML 李炎恢笔记
IP地址分类
Python算法100题--030
...
...
...
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,593评论 25 708
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,974评论 6 342
  • 文|Summerie_墨 很小的时候看过一篇故事,故事里的爷爷去世了。临走前跟孙子说,不要说再见,说一声“你好”吧...
    Summerie_墨阅读 825评论 1 1
  • 下了一场雨。 屋檐上浮起一层薄雾。 我撑伞伫立,听不见世界的声音。 嘘,嘘。 喧哗不绝于耳,始终不入于心。 我转身...
    凉凉的小指甲阅读 247评论 0 0
  • 正月十五一过,这个年就算过完了,万象更新万物重新走上正轨。新的开始要讨个好彩头,今天我们就来讲常胜将军赵子龙,祝大...
    阿拉蕾蕾的世界阅读 819评论 0 0