登录注册写文章

日本国立情报研究所北本研究室台风（转气象家园）

日本国立情报研究所北本研究室台风（转气象家园）

利用scrapy写了一个日本国立情报研究所北本研究室台风资料的爬虫
http://agora.ex.nii.ac.jp/digital-typhoon/search_date.html.en
内容包括1951年到2018年北半球的台风资料。
资料包括每个台风每个记录的经纬度，中心气压，台风等级，风速。

spider.py：

items.py:

settings.py:
需要在设置文件中加入

HTTPERROR_ALLOWED_CODES = [404]

scrapy是不处理404网页的，所以需要设置允许，才能在循环中将404网页掠过进入下一年

FEED_EXPORT_FIELDS = ['NO', 'time', 'lat', 'lon', 'pressure', 'cla', 'wind']

用于输出时保存数据的顺序。

有个问题就是，1954年的02号台风记录缺失，所以循环到02号台风就进入下一年，1954年爬取到的数据仅有01号台风。
可以在爬取中重新设置开始时间为1954年03号台风。
后面1954年10号台风也无记录，处理方法相同。

可以在终端中输入 scrapy crvawl lcc.py -o lcc.csv进行保存。
lcc为我的spider名称，可以自定，csv文件的名称也可以自定义。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python django开发教程 & 机器学习
title: python语法练习参考阮一峰等多个文件用来练习python基本语法 [TOC] import文件...
采香行处蹙连钱阅读 2,401评论 0赞 2
日本国家名字来历介绍，日本国名和中国汉字有大关系
日本文化体系的建立离不开中国文化，日本可能是全世界上向中国学习最多的一个国家。不过日本的优点是，往往能把他国的精粹...
倒到糖我在阅读 1,475评论 0赞 1
有感于日本“处女座” 情结的教育—— 《日本国立小学365天》读后感
最近在读《日本国立小学365天》这本书，作者是一位日语翻译妈妈，决定让儿子在小学的最后一年到日本上学。在陪伴儿子在...
娜年娜梦阅读 4,013评论 0赞 2
日本国立癌症研究中心：多吃柑橘类水果，预防胰腺癌
胰腺癌发病隐匿、治疗困难，被称为“癌中之王”，近年来，其全球发病率始终保持上升趋势。此前有关食疗法抗癌的研究较多，...
自在的营养师阅读 534评论 0赞 2
Python网络爬虫实战项目代码大全（长期更新，欢迎补充）
WechatSogou[1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫...
Python中文社区阅读 17,938评论 14赞 281

2赞3赞

赞赏

手机看全文