台湾苹果新闻爬虫

爬虫设计要点和心得:

1.设置代理,上文中已经有讲诉如何设置代理

2.重写start_urls指定爬取页面的范围

def start_requests(self):

    print("网速较慢,耐心等待!")

    for iin range(1,4):

            self.url ='https://tw.video.appledaily.com/actionnews/ajaxmore/appledaily/entertainment/20190317/1532811/{}'.format(i)

            #print(self.url)

            yield scrapy.Request(url=self.url,callback=self.parse)

3.防反爬虫机制处理:

(1)禁止cookies

(2)设置user-agent

结果展示:

        

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容