読者です 読者をやめる 読者になる 読者になる

お手伝いで見つけたもの。Open Data in Grobal Environmental Research: The Blmont Forum's Open Data Survey

先日、知人からちょっとした相談を受けて、オープンデータやオープンサイエンス関連の文献を調べました。調べたという程じっくりやる時間はありませんでしたが‥。

いくつかピックアップした中で、自分でも特に気になったものはちゃんと読んでおこう、と。それが表題の調査報告。

zenodo.org

※Belmont Forum というのはこれ↓で、
About IGFA & the Belmont Forum | Belmont Forum

気候変動に関する研究に資金提供を行っている機関のフォーラム(IGFA)の中の主要な評議会、らしい。世界中の主だった資金提供機関からひとが集まって、共同研究への資金提供をコーディネートしたりしているそう。日本のJSTも参加機関。このBelomnt Forumが抱えるワーキンググループが実施した調査なのですね。

調査はウェブ上でのアンケート形式。調査対象は、環境科学・地球科学・海洋/極地科学・生物学・社会経済科学分野の研究者・データサイエンティスト・データ管理者・技術者など。有効回答数は1253。

調査の主な狙いは以下3点を明らかにすること。データ提供者/利用者としてのユーザ視点から見て、ということが強調されていた。

・地球環境の変化を扱う様々な科学コミュニティにおいて、オープンデータの活動の最良/先駆的な例はなにか

・新しい/他の(たぶん学問的な)発展によってデータ共有の強化が望まれるであろう領域はどこか

・”Open data shareing”に対する障壁となっているものはなにか

狙いどおり回答者の多くが研究者ということで、ユーザの認識が強く反映された調査結果なのだろう、と思っている。しかも、オープンデータやオープンサイエンスにある程度馴染みや関心がある人たちの。

 

結果からいくつか抜き出し。

・オープンデータの特性として、重要だと思うことは?

→トップ3は、良質であること、メタデータがそろっていること、アクセスが容易であること。一方で、アクセス制限が可能であること、というのが一応Not important最多の項目。とはいえ、個人情報や希少種の情報に関わるデータのように、Openの概念に馴染まないものも本当は多いはずと思ったり。

 

 ★ライセンスに対する関心は低い。回答者の75%が特に知らない、という結果に。学術機関、資金提供者が策定するポリシー、データジャーナルのガイドラインW3CやDOIスタンダードなどのテクニカルガイドの認知度も低い。少なからずオープンデータやオープンサイエンスに関心があるはずの層が調査対象であっても、なのだなあ。この部分への懸念と注目は報告書内に常に漂っている感じで、上位団体がBelmont Forumなこともあってか、資金提供側は何ができるのか、がDiscussionでも言及されていた。

 

★データをオープンに公表する動機はなにか(全体と、回答数が多かった英米独仏伊豪のみと)

→研究促進のため、自分の研究活動の周知のため、個人的な義務感や関心、データ利用者からの要望、資金提供者のポリシーなど。

 

・研究データをオープンとするにあたっての障害はなにか?

→第一は、データの前に研究成果の方を発表したいこと、次いで法的な制約、正当な評価がなされないこと、誤った解釈や利用がなされてしまう可能性と続く。研究成果をまず先に、と望む傾向は30代前半までで特に顕著だけれど、それ以上の年齢層でも40-57%の回答者がこの点を主な障害と感じている。

 

・データの見つけ方

雑誌論文の引用から(80%)、検索エンジン(71%)、特定のデータリポジトリ(64%)、そして41%が、データ提供者に直接リクエストしてデータをもらっていた。

ふと、リポジトリに論文を掲載することに必ずしも乗り気でなかった研究者の方の言葉を思い出す。誰でも自分の論文を自由に見て、ダウンロードして持っていけるようになってしまったら、”出会い”がなくなってしまうんだよね。論文をもらえませんか、というやりとりから、共同研究の話が進むこともあるのに、と。タイムリーに考えていた、研究支援のためのSNSって…という悩みもふわっと。

 

・データのアーカイブ

データを見るけるためによく使われているデータリポジトリやポータルの一例。

GBIFFree and Open Access to Biodiversity Data | GBIF.org

PangeaData Publisher for Earth & Environmental Science

GenbankGenBank Home

NCBINational Center for Biotechnology Information

NOOANOAA - National Oceanic and Atmospheric Administration

NASANASA

ECMWFECMWF | World leader in global medium-range numerical weather prediction

USGSWelcome to the USGS - U.S. Geological Survey

 あとGoogleも。

一方、データを公表するためによく使われているのは、Pangea,NCBI,Genbank,NOOA,期間リポジトリの他に以下。

DrynadDryad Digital Repository - Dryad

ENAEuropean Nucleotide Archive < EMBL-EBI

Paleoclimatilogy DataPaleoclimatology Data | National Centers for Environmental Information (NCEI) formerly known as National Climatic Data Center (NCDC)

Figsharefigshare - credit for all your research

GitHubGitHub · Where software is built

CDIACCarbon Dioxide Information Analysis Center (CDIAC)

BADChttp://badc.nerc.ac.uk/home/index.html

GBIFには個人がデータを直接公表する機能はないのだけど、認知度ゆえかこれもよく名前が上がっていたよう。

 

他の項目

・オープンデータ用インフラの機能に期待することは?

・自分の研究分野のコミュニティにとって、オープンデータはどのように重要か?

・データにアクセスしたり、データを利用したりする際に障害となることは?

・オープンデータへの要望

・分野間の違い

 

考察は結果をふまえて、Belmont Forumへの提言のかたちでまとめられている。

第一には、資金提供者はデータアーカイブの義務を課すべきだということ。併せて、データ共有や再利用のための倫理規定も考慮に入れるべきこと、データや情報のプロとして研究者をとらえて支援を行うこと、各分野のデータインフラの相互運用性を高めること、が述べられている。

 

研究者の認識ってどんなものなんだろう、と思っていたし、自分のバックグラウンドにある分野の事は特に知りたかった。調べ物の機会があってよかったけれど、もっと力になれたはず、という後悔も少し。zenodoを初めていじってみれたのもよかったかな。