获取网页所有的url地址

今天在试图爬虫新闻网站时想把网页上的所有url抓下来并归类,所以写了几行小代码。
为了促进自己学习,就把简陋的代码放在简书上发布,也当是一份学习笔记。

# -*- coding: utf-8 -*-
"""
Created on Sun Jul  3 00:31:06 2016

@author: Cy
"""

import requests
from bs4 import BeautifulSoup


def getallurl(url=r'http://www.sina.com.cn'):
    r=requests.get(url)
    s=BeautifulSoup(r.content,'lxml')

    atag=s.find_all('a')
    listurl=[]
    for each in atag:
        try:
            listurl.append([each['href'],each.text])
        except:
            listurl.append(['',each.text])
    return listurl

            
if __name__ == '__main__':
    #inputurl=str(input("input the url: \n"))
    #listurl=getallurl(inputurl)
    listurl=getallurl()
    for i in range(len(listurl)):
        print("The %sth url is: %s, and the titileis: %s \n" % (i,listurl[i][0],listurl[i][1]))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容