我的第二个py脚本


import time

import urllib

import urllib.request

import requests

from lxml import etree

header = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

def allimg(url):

url=requests.get(url,headers=header).content

url=etree.HTML(url)

#提取标题

title=url.xpath('//div[@class="show"]/h1/text()')

title=title[0]

#替换图片命名时标题中不可辨认的字符

title=title.replace('/','1')

print(title)


#提取最终链接

link=url.xpath('//div[@class="show"]/a/img/@src')

link=str(link[0])

link=link[2:]

link=link[:-14]

link="http://"+link

print(link)

time.sleep(5)

urllib.request.urlretrieve(link,'D:\\test\\%s.jpg'%title)


def allpages(url,parturl):

url=requests.get(url,headers=header).content

url=etree.HTML(url)

maxpage=url.xpath('//div[@class="epages"]/a/text()')

maxpage=int(maxpage[-1])

for i in range(1,maxpage):

allpages=parturl+'_'+str(i)+'.html'

allimg(allpages)

url='https://www.mrtui.com/'

url=requests.get(url,headers=header).content

url=etree.HTML(url)

pageurl=url.xpath('//div[@class="content"]/ul[@class="list"]/li/a/@href')

for pageurl in pageurl:

    #制作字符串切片,为后面的操作做准备

    pageurl='https://www.mrtui.com/'+pageurl


    parturl=pageurl[:-5]

    allpages(pageurl,parturl)




©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 沉默 是孤单的影子 一分一秒奢侈的期盼 和祈祷的橄榄 延伸 一丝一缕记忆的藤蔓 和汩汩的疼痛 坟冢 回首是执著的忏...
    竹亭落F阅读 229评论 0 2
  • 人的本性是什么?人本善?后天的学习教育在绝大部分,生活环境都会造成人的改变。 你把商家价值30多万元的手镯摔坏了,...
    A把时间当做朋友阅读 157评论 0 3
  • 朋友问我说,格格,你这么大了为什么不着急找对象呢,我愣住,我急呀,这么大了,怎么会不着急呢。 朋友就会...
    格格妞的小部落阅读 240评论 0 0
  • 风吹落叶纷飞时 混沌天地 青涩一须臾 拂去 红尘掠影 雨打残花凋零后 悲怆乾坤 苍茫几黄昏 追忆 陈年往昔
    缘来如此嚣张阅读 157评论 0 0