ビッグデータで新たな科学的発見へ
―新しい統計手法を開発
:産業技術総合研究所/東京工業大学/理化学研究所

 (独)産業技術総合研究所と東京工業大学、(独)理化学研究所は7月23 日、大量のデータ(ビッグデータ)から新しい科学的発見をする統計手法を開発したと発表した。新手法で乳がん細胞のデータを分析したところ、遺伝子が働く際に必要な転写因子の新たな組み合わせが、がん細胞の増殖に関与していることがわかった。今回の成果は、物理学や化学、医学などあらゆる科学分野で有力な研究手法になるという。

 

■物理学や医学など広い分野で有力な手法に

 

 科学技術振興機構のプロジェクトの一環として、産総研の津田宏治主任研究員、東工大の瀬々潤准教授、理研の岡田眞理子チームリーダーらが開発した。
 自然科学で得られるデータ量は増加する一方だが、従来の手法ではデータをとる観測対象が増えれば増えるほど、新しい発見事実が正しいかどうかを検定するための基準を厳しくしなければならかなかった。この結果、有意義な実験データが不当に低く評価され、観測対象が増えたのにかえって科学的発見が減るという「ビッグデータのパラドックス」が問題となっていた。
 研究チームは、「出現頻度の低い組み合わせは誤発見率を変化させない」という数理的性質に着目、意味のない出現頻度の低い組み合わせを取り除くための計算手法として超高速アルゴリズム「無限次数多重検定法(LAMP)」を開発した。この結果、検定基準に使う「データから発見された事実が誤りである確率(P値)」が、従来法に比べて格段に精度よく計算できるようになった。これによって、有意義なデータを無駄にすることなく検定基準を厳しくでき、科学的な発見力を高められるという。
 今回の成果は、複数の遺伝子が原因となっている疾患の特定や脳の機能解明など複合要因に起因する現象の解明、多数の項目からなるアンケートの分析など、広く自然科学、社会科学の研究に役立つと期待される。

詳しくはこちら