玉置 雄大(2017年度 本科/学生)
今回は、科学技術とイノベーションにまつわるデータをどのように分析しているのか、その裏側についてお話しいただきました。講師は原泰史先生(政策研究大学科学技術イノベーション政策研究センター 専門職)です。
科学は経済を潤していますか?
科学技術は経済に貢献しているのでしょうか?例えば、過去の大量の医薬品に貢献した基礎研究の論文が増えたことによって、日本人の平均寿命が2年伸びた、という結論が得られれば、国から基礎研究に多くの予算がつくでしょう。冒頭の「科学技術は経済に貢献しているか?」という問いに答えるためには過去何万、何十万の大量の論文、特許データを使って分析する必要があります。原先生は膨大な論文、特許データの分析、いわゆるビッグデータ分析を専門とされています。本講義ではデータの分析を行うために必要なことを教えていただきました。
まずは、データを把握しよう!
分析をする前にまずはデータを把握する必要があります。論文データはWeb of Science
、特許はgoogle patentなどのデータベースにアーカイブされています。このようなデータベースにアクセスすることで、だれが、いつ、どこでどんな論文、特許を引用したのかわかります。この情報を利用することで、例えば、ある製品の論文、特許の過去の流れを、時間軸を追いながら体系的に把握することができるわけです。
ノーベル章受賞者の披引用パターン
原さんは論文データベースを利用して過去のノーベル章受賞者の主要論文の引用パターンを調べました。その結果、ノーベル賞受賞者の主要論文は引用され始まるタイミングが、他の論文に比べて遅いことが明らかとなりました。つまり、ノーベル賞受賞者の主要研究は、はじめは見向きもされないけれど、数十年後にやっとその価値に皆が気付いていくという傾向があるのです。天才は時代の何十年も先を行っているというわけなのですね。
データ解析をするまでが大変
データの分析と言えば、相関回帰分析といった統計処理や、主成分分析、クラスター解析等を思い浮かべる方もいるかもしれません。ソフトウェアの発達が著しい今日、分析自体は誰でもすぐにできるような環境が整いました。いまやスマホの上でも実行できるのです。原先生は、分析するためのデータを作ることこそが、実は大変なのだとおっしゃっていました。たとえば、名前が間違って登録されていたり、ほしいデータがなかったりした場合はその都度修正する、他のデータベースから補うといった作業が必要になります。分析のために生のデータを分析可能なデータフォーマットに変換する作業も必要です。特に、データの変換について一定の知識が要求され、ハードルが高くなってしまうのです。
相関か因果かを見分けるコツ
最後の質疑応答で「相関関係なのか因果関係なのか、見分ける方法はあるか?」という問いがありました。原先生は、自分でデータに触れて手を動かしてみること、常に「この変数とこの変数は本当に因果関係にあるのか?」といったツッコミを入れることが大切だとおっしゃっていました。また、自分の背景知識と照らしあわせることで、勘がよくなることも話されていました。実は因果関係を証明することは意外と難しいのです。だからこそ常に冷静な視点でデータを見つめる、いろんな角度から泥臭く分析してみることが大切なのです。
「ビッグデータの時代」と言われている現代、データを扱う仕事はますます重要になってくるでしょう。本講義はデータと向き合う上で大切な心構えを学ぶことができました。
原先生、ありがとうございました!