百度新闻、新浪新闻的新闻爬取

       先说一个遇到一个很大的问题,一开始我想要爬取大概一两万条的数据,然后发现虽然显示检索的数据有两百多万条但实际上只能查看280条的数据,我更换过不同的关键词检索,但是都是只能显示少量的数据

        这里选择的是百度的资讯,而不是网页,因为直接检索网页的话,不同网站上信息存储的位置不同,我暂时有两个想法,1.直接对抓取的网页,清除掉html的格式,也就是分析网页的结构。2.采用多个爬虫爬取(主流网站)


显示检索到的数据
实际只能显示的数据28*10=280条



©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。