今天是第十一天,前几天由于太忙,都没来及学习和更新。
今天继续。
这两天实在不好看书,没办法净下心来。
但是学习不能耽搁,于是我找了一个最最简单的爬虫教程来练练。
from bs4 import BeautifulSoup
from lxml import html
import xml
import requests
url = "https://movie.douban.com/chart"
f = requests.get(url) #Get该网页从而获取该html内容
soup = BeautifulSoup(f.content, "lxml") #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" ) #因为calss和关键字冲突,所以改名class_
for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签
a = k.find_all('span') #在每个对应div标签下找span标签,会发现,一个a里面有四组span
print(a[0].string) #取第一组的span中的字符串
这是第一段的代码,截取了豆瓣电影里面的一段代码。
试试运行。
报错了,大概原因是这个库,我应该没有调用过来。
我查查资料。
原因的确是还没有安装BeautifulSoup的工具。
装好这个终端之后,开始装beautifulsoup。
于是,开始更新
然后输入 pip install beautifulsoup4,开始安装。
再次运行试试。
还是不对。
试了试去了anaconda,在里面下载。
还是报错,崩溃中
其实应该是安装好了,可是为什么就是提示有问题呢。。。
想了想,应该是我一开始安装的时候,装了各个版本的python以及ide,有点混乱了。。
还是决定到家后,用windows来试试。
see you