とある統計学者の技術 Tips

統計学の話はしないかもしれません

応用論文読み 2020.04.26

コロナ騒ぎで人の研究の話を聞く機会が激減したので,普段の研究とは直接関係のない(でも縁はあるかもしれない)論文を簡単にまとめる.

将来的に実質科学の研究者とコラボすることを意識して,

  • データ解析を利用する研究課題に広く触れ,以下を含む課題解決のスキームを知ること
    • データ解析が有効に働く課題設定の仕方
    • モデリングの方法,根拠づけ
    • 解析結果の解釈と提言
  • それらの研究に統計学者がどのように寄与しているかを知ること
  • 不慣れな方法を具体例とセットで知ること
  • 英語の勉強

あたりを目的にする. 論文の探し方は模索中だが,良質な課題解決が行われているという点で,RSS-Series A,Cだとか,Annals of Applied Statisticsだとか,あるいは和文で統計数理を読むのでもいいかもしれない. 優れた統計家が参画している,最近提案された方法が用いられている(今回)という基準で探しても,面白い研究を効率的に見つけるのは難しそう….

Title

Poppenberg, Kerry E., et al. "The feasibility of developing biomarkers from peripheral blood mononuclear cell RNAseq data in children with juvenile idiopathic arthritis using machine learning approaches." Arthritis research & therapy 21.1 (2019): 1-10.

概要

若年性突発性関節炎について,薬物治療への反応を予測するバイオマーカーの発見に,機械学習の適用可能性を検討した研究. 当該疾患の遺伝子発現は患者による差異が大きく複雑であるため,これまでうまくいった試みは存在しない. 機械学習(※ 特に非線形手法)は既に他の疾患領域でバイオマーカーの発見に寄与する可能性が報告されているため,当該疾患に対しても適用可能性があると考え,本研究を行った.

臨床基準により寛解とされた23例と,活動期にある27例の患者について,(活動期/寛解)を目的変数,Transcriptomeから導出された変数を説明変数とする2値分類問題を考える.事前にHSIC Lassoを用いて変数選択(train:test=7:3)を行い,選択された変数を各手法の入力データとした.

  • k-NN
  • Random Forest
  • cubic kernel SVM
  • gaussian kernel SVM

結果として,80%前後の正解率を示すモデルが得られた. 部分集団解析により,データ全体と部分集団とで11遺伝子が共通して見出された. HSIC Lassoにより見出された35遺伝子については,それらがどのPathwayに属するかが解析された.

コメント

  • 臨床基準で分類された患者を事後的に分類できることはわかるが,イントロで指摘しているような治療前に予後を予測する目的に使用できるかこの結果から判断するのは難しそう.