python文件下载

百度云源代码和几k,mm图片分享

下载简书交友的图片.网站 https://www.jianshu.com/c/bd38bd199ec6

import urllib.request
import urllib.parse
import re
import os
import random

def get_road(url0):
    req=urllib.request.Request(url0)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode("utf-8")
    pattern=re.compile(r'<a class="title" target="_blank" href="(.*?)"')
    result=re.findall(pattern,html)
    return result

def get_jiaoyou_url(result,s0):
    s=s0
    return geturl(result,s)
    

def gethtml(ur):
    url=ur
    req=urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode("utf-8")
    return html

def getpath(html):
    #reg=r'.*?\.png'
    reg=r'<img data-original-src="(.*?\.png)"'
    imgre=re.compile(reg)
    urls=imgre.findall(html)
    return urls

def  geturl(url,s):
    urls=[s+str(i) for i in url]
    for i in range(len(urls)):
        print(urls[i])
    print("url_length=",len(urls))
    return urls
    
    
def download(urls):
    global x
    print("++++++++++++++++")
    print(urls)
    print("length=",len(urls))
    if len(urls)==0:
        print("not download")
        return 0
    for url in urls:
        filename='/home/dflx/下载/jiaoyou_photo/'+str(x)+'.png'
        urllib.request.urlretrieve(url,filename)
        x+=1
    print(x)
    
def download_one(url):
    #ur='https://www.jianshu.com/p/407dac18983c'
    ur=url
    html=gethtml(ur)
    path=getpath(html)
    urls=geturl(path,'https:')
    download(urls)
    
    
def download_all(urls):
    print(len(urls))
    print('---------------')
    index=0
    while index<len(urls):
        print(urls[index])
        download_one(urls[index])
        index+=1
        print("********")
        

#urpath="https://www.jianshu.com/c/bd38bd199ec6?order_by=added_at&page="        
def page(url,start,end):
    print("$$$$$$$$$")
    lturl=[]
    for i in range(start,end):
        lturl.append(url+str(i))
    print(lturl)
    return lturl
        
        
        
       
        
 x=0   
def main():
    
    if __name__  == '__main__':
        """
        ur='https://www.jianshu.com/p/189d1b8101e6'
        download_one(ur)
        """
        
        urpath="https://www.jianshu.com/c/bd38bd199ec6?order_by=added_at&page=" 
        urall=page(urpath,0,999)
        for url in urall:
            print("the end url")
            print(url)
            result=get_road(url)
            allurls=get_jiaoyou_url(result,'https://www.jianshu.com')
            download_all(allurls)
        
    
    """
    url0="https://www.jianshu.com/c/bd38bd199ec6"
    #ur='https://www.jianshu.com/p/407dac18983c'
    ur='https://www.jianshu.com/p/189d1b8101e6'
    html=gethtml(ur)
    path=getpath(html)
    urls=geturl(path,'https:')
    download(urls)
    
    url0="https://www.jianshu.com/c/bd38bd199ec6"
    result=get_road(url0)
    allurls=get_jiaoyou_url(result,'https://www.jianshu.com')
    download_all(allurls)
    
 """
    
meizi.png

有500m,应该大概遍历了所有的文章

爬取 http://www.mm29.com/ ,下载图片

import urllib.request
import urllib.parse
import re
import os
import random

def get_road(url0):
    req=urllib.request.Request(url0)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode("utf-8")
    pattern=re.compile(r'<a href="http://www.mm29.com/tag/(.*?)"')
    result=re.findall(pattern,html)
    print(result)
    return result

def get_jiaoyou_url(result,s0):
    s=s0
    return geturl(result,s)
    

def gethtml(ur):
    url=ur
    req=urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                 '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode("utf-8")
    return html

def getpath(html):
    #reg=r'.*?\.png'
    reg=r'<img class="scrollLoading" data-original="http://img.mm29.com/images/(.*?.jpg)/800.jpg"'
    imgre=re.compile(reg)
    urls=imgre.findall(html)
    print("////////////////////////")
    print(urls)
    return urls

def  geturl(url,s0):
    urls=[s0+str(i) for i in url]
    for i in range(len(urls)):
        print(urls[i])
    print("url_length=",len(urls))
    return urls

def  get_imag_url(url,s1,s2):
    urls=[s1+str(i) for i in url]
    urls=[str(i)+s2 for i in urls]
    for i in range(len(urls)):
        print(urls[i])
    print("url_length=",len(urls))
    return urls
    
    
def download(urls):
    global x
    print("++++++++++++++++")
    print(urls)
    print("length=",len(urls))
    if len(urls)==0:
        print("not download")
        return 0
    for url in urls:
        filename='/home/dflx/下载/mm_picture/'+str(x)+'.jpg'
        urllib.request.urlretrieve(url,filename)
        x+=1
    print(x)
    
def download_one(mm_url):
    print("*****++++++")
    print(mm_url)
    html=gethtml(mm_url)
    url=getpath(html)
    imag_url=get_imag_url(url,"http://img.mm29.com/images/","/800.jpg")
    download(imag_url)
    
    
def download_all(urls):
    print("for count=",len(urls))
    print('---------------')
    index=0
    while index<len(urls):
        print(urls[index])
        download_one(urls[index])
        index+=1
        print("********")
        

#urpath="https://www.jianshu.com/c/bd38bd199ec6?order_by=added_at&page="        
def page(url,start,end):
    print("$$$$$$$$$")
    lturl=[]
    for i in range(start,end):
        lturl.append(url+'/'+str(i))
    print(lturl)
    return lturl
        
        
        
       
        
x=0
def main():
    url0="http://www.mm29.com/"
    s0="http://www.mm29.com/tag/"
    result=get_road(url0)
    mm_url=get_jiaoyou_url(result,s0)
    print("88888",mm_url[22])
    for i in range(23):
        url=page(mm_url[i],0,16)
        download_all(url)
        
      
    
```

下载了5000多张,大约也是500M,网站应该有反扒措施,我离开了后被禁止了.



©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,926评论 25 707
  • 注:所有代码部分均为连续的,“结果”为在jupyter分步运行结果代码部分 结果human init //huma...
    Yao_0阅读 276评论 0 0
  • 母亲典型的江南女子,皮肤白皙,个头高挑,容貌俏丽,年轻时吸引了不少男孩子的眼光,也不知怎么的就那么“不开眼”的找了...
    蕊寒香冷绾青丝阅读 329评论 0 4
  • 1 当小影结婚的消息传到我耳朵的那一瞬间,我突然感觉心被什么东西扎了一下,疼得有些让我无法呼吸。那一刹那我无比清晰...
    要不要洗碗阅读 584评论 0 1