データを使って何かを実現したいと思った時に、扱えるデータがそもそもないといったことがあった。そのようなケースにおいては公的な機関が公開しているデータを頼りにして検索することが多いが、そもそもデータが掲載されているサイトにたどり着くのが困難であったり、たどり着いてもデータに不備があることもあった。今回は自分がいくつか当たってみて使えそうだったサイトをまとめて載せておくことにした。
Dataset Search
Googleが提供しているDataset Searchは2018年に公開されたサービスで、世界中の機関で公開されているデータセットを検索できるものになっている。普通のグーグル検索よりもデータセットに特化している上に、「更新日」「データ形式」「ライセンス」といった項目で絞ることも出来るので非常に使いやすい。
datasetsearch.research.google.com
欧米のデータセット
DATA.GOV
アメリカ政府が公開するサイトで、政府機関を始め各州・都市が持っているデータを集めて公開しているサイトである。使いやすいようにCSV形式になっているものもあれば、地図や図形で使われるような形になっているものもある。
EU Open Data Portal
EU各国のデータを集めたポータルサイトである。欧州のメジャーなところから、我々にとっては少し馴染みのない東欧までデータが網羅されている。データのフォーマットもCSVやTSVで提供されていて使いやすい形となっている。
一企業やサービスが提供
NASA
一企業が公開しているパターンを想定したときに思い浮かんだNASA、調べてみたら見事に提供していました。NASAのすごいところはデータだけではなくコードなども公開しているところかなと思います。
Kaggle
やはりコンペティションを開催しているだけあってたくさんのデータセットが置いてありました。しかし、データの説明が少ないものもあって、補助的に使うといいかもしれません。