利用scrapy写了一个日本国立情报研究所北本研究室台风资料的爬虫
http://agora.ex.nii.ac.jp/digital-typhoon/search_date.html.en
内容包括1951年到2018年北半球的台风资料。
资料包括每个台风每个记录的经纬度,中心气压,台风等级,风速。
spider.py:
items.py:
settings.py:
需要在设置文件中加入
HTTPERROR_ALLOWED_CODES = [404]
scrapy是不处理404网页的,所以需要设置允许,才能在循环中将404网页掠过进入下一年
FEED_EXPORT_FIELDS = ['NO', 'time', 'lat', 'lon', 'pressure', 'cla', 'wind']
用于输出时保存数据的顺序。
有个问题就是,1954年的02号台风记录缺失,所以循环到02号台风就进入下一年,1954年爬取到的数据仅有01号台风。
可以在爬取中重新设置开始时间为1954年03号台风。
后面1954年10号台风也无记录,处理方法相同。
可以在终端中输入 scrapy crvawl lcc.py -o lcc.csv进行保存。
lcc为我的spider名称,可以自定,csv文件的名称也可以自定义。