我的第二个py脚本

import time

import urllib

import urllib.request

import requests

from lxml import etree

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

def allimg(url):

url=requests.get(url,headers=header).content

url=etree.HTML(url)

#提取标题

title=url.xpath('//div[@class="show"]/h1/text()')

title=title[0]

#替换图片命名时标题中不可辨认的字符

title=title.replace('/','1')

print(title)

#提取最终链接

link=url.xpath('//div[@class="show"]/a/img/@src')

link=str(link[0])

link=link[2:]

link=link[:-14]

link="http://"+link

print(link)

time.sleep(5)

urllib.request.urlretrieve(link,'D:\\test\\%s.jpg'%title)

def allpages(url,parturl):

url=requests.get(url,headers=header).content

url=etree.HTML(url)

maxpage=url.xpath('//div[@class="epages"]/a/text()')

maxpage=int(maxpage[-1])

for i in range(1,maxpage):

allpages=parturl+'_'+str(i)+'.html'

allimg(allpages)

url='https://www.mrtui.com/'

url=requests.get(url,headers=header).content

url=etree.HTML(url)

pageurl=url.xpath('//div[@class="content"]/ul[@class="list"]/li/a/@href')

for pageurl in pageurl:

#制作字符串切片，为后面的操作做准备

pageurl='https://www.mrtui.com/'+pageurl

parturl=pageurl[:-5]

allpages(pageurl,parturl)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

我的第二个py脚本

我的第二个py脚本

相关阅读更多精彩内容

友情链接更多精彩内容