Python版本:Python3.5 ;
技术路线:requests-bs4 。
功能描述:
俗话说“有人的地方就有江湖”,那么有大学的地方就有排名。2018年大学排名是怎样的呢?最好大学网上提供了2018年的中国大学排名榜。
链接:http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html
我们要一个程序,它能够通过链接爬取大学排名,并将大学排名信息屏幕输出。所以,功能需求如下:
- 输入:大学排名URL链接
- 输出:大学排名信息的屏幕输出(排名,大学名称,总分)
可行性分析:
首先,我们要确定需要的信息是不是写在HTML页面的代码中。如果是通过JavaScript等脚本语言生成的,用requests和BeautifulSoup库是无法获取它的信息的。其次,还有网站robots协议里是否有相关约定。
- 代码写是否写在了HTML页面
- robots协议
1.打开浏览器,输入我们要访问的网站,我们看到有中国大学排名的页面信息。
2.点击右键,查看源代码。可以看到每个大学相关信息对应的代码部分,这块代码是通过<tr>标签来索引的,且里面索引参数都写在了HTML页面信息中。因此这个定向爬虫是可以设计和实现的。
3.此外,还有看一下这个定向爬虫网站是否提供了robots协议的约定。打开http://www.zuihaodaxue.com/robots.txt,看到404 Not Found网页不存在,说明这网站并没有通过robots协议对爬虫做相关限制。因此我们爬取大学排名这个功能是完全合法的。^ _^
4.综合以上:可行性OK
程序的结构设计:
- 步骤1:从网络上获取大学排名网页内容,定义函数:
getHTMLText()
- 步骤2:提取网页中信息并放到合适的数据结构定义函数:
fillUnivList()
- 步骤3:利用数据结构展示并输出结果,定义函数:
printUnivList()
有了这三个函数,我们可以把程序封装成这三个模块,可读性更好。
代码编写:
1.首先,由于这里边实现了网络访问请求,所以我们要 import requests库 和 BeautifulSoup库。
import requests
from bs4 import BeautifulSoup
2.根据前面定义的三个函数编写代码。由于这个时候,我们还没有对函数内部功能进行设计和实现,所以我们只需要写出函数的定义就可以。还有别忘了对接口的定义。
def getHTMLText(url):
# 输入是URL信息,输出是对应HTML的内容
retunrn ""
def fillUnivList(ulist, html):
# 将HTML页面放到一个列表(ulist)中
pass
def printUnivList(ulist, num):
# 将ulist信息打印出来,num表示打印元素的数量
print("Suc" + str(num))
def main():
uinfo = []
# 大学信息所放置的列表
url = http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html
html = getHTMLText(url)
# 调用函数,将url转化成html
fillUnivList(uinfo, html)
# 将html信息提取后放在uinfo变量中
printUnivList(uinfo, 20)
# 打印前20所大学信息
main()
3.写了上面代码后,整个mian函数和结构框架已经很清晰了,但还仅仅是个半成品,所以要进一步填写三个函数的功能~
- 第一个函数
getHTMLText(url)
,需要 requests库 返回页面信息,这里我们可以用通用代码框架,如下:
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
# 如果爬取失败,产生异常信息
r.encoding = r.apparent_encoding
# 使用apparent_encoding修改编码
return r.text
# 将网页的信息内容返回
except requests.HTTPError:
return ""
# 若出现错误,返回空字符串
- 第二个函数
fillUnivList(ulist, html)
,程序的核心部分,需要 BeautifulSoup库 解析页面,中间使用isinstance()
函数需要调用 bs4库 。- 所有除了之前的以外,还需
import bs4
- 所有除了之前的以外,还需
import bs4
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
# 用BeautifulSoup类煲这锅靓汤,使用html解析器
for tr in soup.find("tbody").children:
# 这步骤需要观察网页源代码,解析html中的<tbody>
if isinstance(tr, bs4.element.Tag):
# 在<tbody>中找的对应的<tr>
# 检测<tr>类型,若不是bs4库定义的Tag类型,将被过滤 (import bs4)
tds = tr("td")
# 找到<tr>中的<td>,并将其存储在列表tds中
ulist.append([tds[0].string, tds[1].string, tds[2].string])
# 增加对应字段到列表ulist
- 第三个函数
printUnivList(ulist, num)
,使用 format()方法 格式化输出。这里要啰嗦一句:使用format()方法输出时,定义了槽的大小且输出内容包含中文字符,当中文字符不够槽的宽带时,将默认西文字符填充,但是中文和西文字符对空间的占用又不一样...- 这意味着什么呢?意味着我们输出的格式很难对齐,灰常不美观...
- 所以我们要用中文空格符填充~
- utf-8编码对应中文空格字符为:12288,so,填充的字符就是chr(12288)啦~
def printUnivList(ulist, num):
tplt = "{0:^10}\t{1:{3}^12}\t{2:^10}"
print(tplt.format("排名", "学校名称", "总分", chr(12288)))
# 先打印表头
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288)))
# 打印每一所学校的信息
- 至此,所有的代码都写完啦,我们已经成功写完了定向爬虫了,好激动有木有?赶紧运行一下程序试试看哟~
最终代码:
# 实践:中国大学排名定向爬取
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except requests.HTTPError:
return ""
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find("tbody").children:
if isinstance(tr, bs4.element.Tag):
tds = tr("td")
ulist.append([tds[0].string, tds[1].string, tds[2].string])
def printUnivList(ulist, num):
tplt = "{0:^10}\t{1:{3}^12}\t{2:^10}"
print(tplt.format("排名", "学校名称", "总分", chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288)))
def main():
uinfo = []
url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"
html = getHTMLText(url)
fillUnivList(uinfo, html)
printUnivList(uinfo, 20)
main()
1.本帖仅作为学习笔记;
2.有错误之处欢迎指出;
3.也欢迎大家一起学习交流~(๑•̀㉨•́ฅ✧)