中国大学排名爬虫

#CrawUnivRankingB.py
import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
    
def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 定向爬虫--针对固定网站的网页进行爬虫 目标网站--http://www.zuihaodaxue.cn具体网页:h...
    五秋木阅读 2,338评论 0 0
  • “它们曾经可能属于你,也可能属于别人。但是,一旦它们你拥有了它们,它们就很难再属于别人了。” 这,就是一双鞋子的宿...
    顾宇阅读 3,655评论 3 0
  • 久别重逢喜相聚, 温馨话儿心畅舒。 各倾创业路甘苦, 互励同进齐祝福。
    六月天气阅读 1,800评论 2 10
  • 当你的才华还撑不起你的野心时,那你就应该静下心来学习;当你的能力还驾驭不了你的目标时,那你就应该沉下心来历练。...
    泡桐姑娘阅读 3,604评论 0 5
  • 作者原创,转载请联系作者 作者将以系列文章进行解析Nginx-Rtmp模块代码,地址为nginx-rtmp-mod...
    Alfie20阅读 5,051评论 0 2