python 爬虫 尝试

MacBook-Air:~ huangyong$ python3

Python 3.6.1 (default, Apr  4 2017, 09:40:21)

[GCC 4.2.1 Compatible Apple LLVM 8.1.0 (clang-802.0.38)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> import urllib.request as ur

>>> s=ur.urlopen('https://www.zhihu.com')

>>> sl=s.read()

#略去print(sl)

>>>from bs4 import BeautifulSoup

>>> bsObj = BeautifulSoup(s.read())

#使用bsObj = BeautifulSoup(sl)的话会有警告

>>> print(bsObj.h1)

<h1 class="logo hide-text">知乎</h1>


bs4是用来给html代码分块的。

>>> f=open('test.txt','w+')

没有test.txt 会自动创建一个,python读写文件还是非常简单的。

>>> f.write(sl.decode('utf-8'))

把整个页面信息保存下来了,f.write()只能保存字符串,不解码也不能保存,


Make sure you use the right version ofpiporeasy_installfor your Python version (these may be namedpip3andeasy_install3respectively if you’re using Python 3).

pip pip3的区别是一个下载到python2.*,一个下载到python3.*

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,668评论 0 17
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,822评论 6 28
  • python3 import urllib.request as ur s=ur.urlopen('https:/...
    你说你要一场阅读 410评论 0 0
  • 原创文|苏吉儿 1.《临江仙•羽境》格一 偶遇友人挥羽醉,四方球竟飞行。 一枝独秀似雷鸣。 挥拍如剑罄,竟也闻锵声...
    苏吉儿阅读 237评论 0 1
  • 原想这一次远游 就能忘记你秀美的双眸 就能剪断 丝丝缕缕的情愫 和秋风也吹不落的忧愁 谁曾想 到头来 山河依旧 爱...
    umarare真実阅读 1,045评论 0 0