日本国立情报研究所北本研究室台风(转气象家园)

利用scrapy写了一个日本国立情报研究所北本研究室台风资料的爬虫
http://agora.ex.nii.ac.jp/digital-typhoon/search_date.html.en
内容包括1951年到2018年北半球的台风资料。
资料包括每个台风每个记录的经纬度,中心气压,台风等级,风速。

spider.py:


items.py:

settings.py:
需要在设置文件中加入

HTTPERROR_ALLOWED_CODES = [404]

scrapy是不处理404网页的,所以需要设置允许,才能在循环中将404网页掠过进入下一年

FEED_EXPORT_FIELDS = ['NO', 'time', 'lat', 'lon', 'pressure', 'cla', 'wind']

用于输出时保存数据的顺序。


有个问题就是,1954年的02号台风记录缺失,所以循环到02号台风就进入下一年,1954年爬取到的数据仅有01号台风。
可以在爬取中重新设置开始时间为1954年03号台风。
后面1954年10号台风也无记录,处理方法相同。


可以在终端中输入 scrapy crvawl lcc.py -o lcc.csv进行保存。
lcc为我的spider名称,可以自定,csv文件的名称也可以自定义。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容