import re
#----------------------------------------------------------------------
def get_domain(url):
""""""
url = url.strip('\n').strip('\r')
if url.startswith('http://'):
url = url.replace('http://','')
if url.startswith('www.'):
url = url.replace('www.','')
if url.find('ac.cn') != -1:
url = 'ac.cn'
if url.find('.com.cn') != -1:
url = re.split('\.', url)[-3] + '.' + re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]
if url.find('.edu.cn') != -1:
url = re.split('\.', url)[-3] + '.' + re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]
if url.find('.com') != -1 and url.find('.cn') == -1:
url = re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]
if url.find('cetc.com') != -1:
url = 'cetc.com'
return url
print get_domain('http://baidu.com')
print get_domain('http://www.ss.ss.com.cn/')
print get_domain('http://www.beng.cn')
print get_domain('http://www.test.edu.cn')
print get_domain('http://www.aedu.cn')
print get_domain('http://www.b.co')
print get_domain('http://www.c.gov.cn')
print get_domain('http://www.d.org.cn')
python 网站连结获取主站
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 目的:使用爬虫抓取网站异步加载数据 part1:什么是异步加载? 异步加载即网页上没有页码跳转按钮,鼠标往下滚即可...
- 作为新人,对于如何学好PYTHON也是一头雾雨,也很想能得到别人的帮助。今天看到这篇文章,感觉学习起来有了一个方向...