首先生成项目结构
定义要抓取的数据为:新闻标题、新闻发生时间、新闻具体内容和uil
找到item文件并进行修改
但是修改失败了(不知道原因)把修改的url=scrapy.Field()这句删掉后表示修改成功,后面发现这不是主要原因。修改失败主要是权限问题,使用root来修改时表现为成功。
进入所在项目子文件
编写提取item数据的Spider
整个实验过程最困难的就是这段代码过程,定位方法选择的是xpath,感觉它对于非熟练者较为友好。我选择只爬取了官网主页的12条新闻。
在代码编写过程中出现了两个类似问题(感觉都是xpath定位不准导致的语法错误):1、在详情页爬取的过程中,对时间的爬取出现了一定方面的理解误差,导致最后没能实现对时间的爬取2、在尝试对新闻具体列表页进行爬取时出现了类似的问题,但报错的内容集中在类似于SyntaxError: Non-ASCII character '\xce' in file
/home/lc/venv/news/news/spiders/newsscrapy.py on lin这种,应该还是语法错误。