爬虫练习:爬取电影天堂下载链接


import requests

import regex

for m in range(31):

    url ='https://www.dy2018.com/html/gndy/dyzz/index_'+str(m)+'.html'

    html = requests.get(url)

    html.encoding ='gb2312' #设定网页编码类型

    data = regex.findall('<a href="(.*?)" class="ulink"', html.text)

    # print(data)

        for n in data:

        url2 ='https://www.dy2018.com'+n

        html2 = requests.get(url2)

        html2.encoding ='gb2312'

        ftp = regex.findall('<a href="(.*?)">.*?</a></td>',html2.text)

        # print(ftp)

        #写入文件

        with open(r'C:\Users\Administrator\Desktop\dy\dytt.txt', 'a',encoding='gb2312') as f:

            f.write(ftp[0]+'\n')

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容