Google推出Dataset search
结论
Google search让信息垂手可得,Google dataset search让数据垂手可得。
从IT时代,到DT时代,真的来临。
Google dataset search解决了数据科学家、研究学者、科学家、记者等人员“数据从何而来”的问题,通过聚合互联网上的开放数据,提供数据搜索引擎,让数据垂手可得。
1. 价值
基本上为人工智能机器学习所需要的语料提供了一个聚合、检索平台。可以检索互联网上公开的数据集。提供开放数据集的检索手段,为数据科学工作者、数据新闻记者、科学家解决了数据来源问题。
2. 开源数据
Google datase searh搜索的数据集来自互联网上各中网站上公开的数据。
在Google dataset search出现之前,已经有很多开源数据网站,开源数据检索引擎如kaggle。
2.1 Kaggle
2.2 zenodo
2.3 figshare
https://figshare.com/ 科学数据开放访问网站。可以找数据,也可以创建数据。
2.4 ceicdata
https://www.ceicdata.com/zh-hans,宏观微观经济数据体验最全面的经济数据库,覆盖超过195+个国家。
2.5 google publicdata
Google攒的一些数据并公开了。
https://www.google.com/publicdata
2.6 加拉大政府公开数据
2.7 DataHub
https://old.datahub.io/ 用户可以上传数据,或者检索数据。
2.8 英国政府公开数据
2.9 世界银行开放数据
2.10 data.world
这个网站很不错,数据社交的世界,可以上传数据,也可以下载数据。
https://data.world/
....
互联网上的公开数据太多了,现在好了,google提供dataset search工具,可以检索这些互联网上公开的数据。
3. 谁会受益
3.1 机器学习开发者
可以下载很多语料用于机器学习的模型训练。特别是NLP学习者可以检索到好多有用的语料数据集。比如我试了一下word vector,
3.2 经济分析师
经济分析师们可以直接检索下载各类经济类数据集,比如中国的GDP等宏观经济数据。
3.3 经济研究学者
经济研究学者们可以很方便的得到人口、居民消费等数据了。
3.4 数据科学家
大数据行业的开发者们,数据学家有福了。
3.5 记者
记者调查问题时可以使用。特别是数据新闻类的写作,记者可以利用google dataset search。
4. 数据类型
4.1 机器学习训练用的语料数据
比如wordvector等。
4.2 宏观经济类数据
包含世界各国,各产业宏观经济数据。
4.3 人口数据
4.4 居民消费数据
4.5 世界各国政府公开的数据
4.6 学术数据
4.7 气候数据
4.8 股票价格数据
4.9 航天等科研领域数据
米航空宇宙局(NASA)や米海洋大気庁(NOAA)のほか、Hardvard大学の「Dataverse」などの学術機関のレポジトリのデータが情報提供者や更新日などの情報とともに表示される。