href中的相对地址如何补全

最近在写爬虫的时候发现,有很多网页中的翻页以及列表的中的选择项的超链接都是采用的相对地址。那么你要抓取对应的网页,则必须先将其补全为绝对地址,再进行request,才能抓取到对应的内容。

那么如何进行补全呢?我简单地讲述一下我所遇到的几种情况,以及在Python中的具体解决方式。

  1. 以 '/' 开头
    表示根地址+相对地址
  2. 以 './' 开头
    表示当前目录的地址+相对地址
  3. 以 '../' 开头
    表示上一级目录的地址+相对地址
  4. 除上述三种情况外,不以任何符号作为开头
    与第二种情况一致,表示当前目录的地址+相对地址

下面以具体的例子分别讲述如何用python代码补全相对地址:

current_url表示当前页面的网址
relative_url表示我们获取到的相对地址
complete_url表示补全后的地址

第一种情况:以 '/' 开头
理论:根地址+相对地址
分析:根地址就是‘://’和下一个 '/' 中间的一段,运用字符串的切片方法,按照斜杠进行切片,最后再进行组装即可。

>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = current_url.split('/')[0]+ '//' + current_url.split('/')[2] + relative_url
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'

第二种情况:以 './' 开头
理论:当前目录的地址+相对地址
分析:当前目录的地址,如图1所示。斜杠就表示分级,就和本地文件夹一致,用斜杠来表示层次结构。

图1 地址栏的URL结构解析
>>>current_url = "http://www.zhitongcaijing.com/content/detail/67357.html"
>>> relative_url = "./67331.html"
>>> complete_url = current_url.replace(current_url.split('/')[-1], relative_url [2:]) # 将最后一个斜杠后面的字符串(注意保留最后一个斜杠)用相对地址替换掉,注意将相对地址中的'./'抹掉
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67331.html'

第三种情况:以 '../' 开头
理论:<font color="red">上一级目录的地址+相对地址</font>
分析:首先要判断相对地址中有多少个 '../' ,才能进一步确定要向上返回多少级。如图2所示,中证网的网页结构。那么如何判断一个字符串中有多少个给定子字符串呢,作者采用正则表达式的方式进行判断的,详见代码如下。

图2 中证网中的相对地址举例
>>> import re # 引入正则表达式的库
>>> dire_Regex = re.compile(r'\.\./') # 创建正则表达式对象
>>>current_url = "http://www.cs.com.cn/ssgs/ssb/201707/t20170707_5363166.html"
>>> relative_url = "../../gppd/sjjj/201707/t20170708_5363690.html"
>>> length = len(dire_Regex.findall(each_url)) # 确定'../'的个数
>>> complete_url = current_url.replace("".join(current_url.split('/')[-length - 1:]), relative_url[length * 3:])
>>> complete_url
'http://www.cs.com.cn/gppd/sjjj/201707/t20170708_5363690.html'

第四种情况:
与第二种情况一致,不再赘述。


最后介绍一种简单的办法,笔者在历经多重磨难之后,终于发现,原来Python有一个库自带了补全相对地址的办法 (/(ㄒoㄒ)/~~)

>>> from urllib.parse import urljoin
>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = urljoin(current_url, relative_url)
>>>  complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'

如果给定的是空链接,则补全的结果仍然是原链接;

>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = ""
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/hbr2014/article/details/46514277'

如果给定的是完整的链接,则补全的结果是新的链接。

>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = "http://blog.csdn.net/firewall5788"
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/firewall5788'


该文章于2017年7月4日于CSDN上首次发表,2017年12月24日搬家至此!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,672评论 18 139
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,168评论 2 33
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,190评论 25 707
  • Ubuntu的发音 Ubuntu,源于非洲祖鲁人和科萨人的语言,发作 oo-boon-too 的音。了解发音是有意...
    萤火虫de梦阅读 99,282评论 9 467
  • 我对美食的热爱在朋友圈里是出了名的,尤其喜欢吃甜品,也要感谢郑州这几年的飞速发展,全国各地的美食在大街小巷都能找得...
    作精小怪兽阅读 340评论 0 1