Loading...
BMC genetics2018Sep17Vol.19issue(Suppl 1)

高次元データの相関変数を説明するために、ランダムフォレストでの再帰機能の排除を使用する

,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
概要
Abstract

背景:ランダムフォレスト(RF)は、一般的に高次元の問題とうまく機能し、予測因子間の非線形関係を可能にする機械学習方法です。ただし、相関する予測因子の存在は、強力な予測因子を特定する能力に影響を与えることが示されています。ランダムフォレスト再帰機能エリミネーションアルゴリズム(RF-RFE)は、この問題を小さなデータセットで軽減しますが、このアプローチは高次元のOMICSデータセットでテストされていません。 結果:680人の個人に202,919の遺伝子型と153,422メチル化部位を統合し、RFとRF-RFEの能力を比較して、これらの変数とトリグリセリドレベルの間のシミュレートされた遺伝子型メチル化相互作用を含むシミュレートされた因果関係を検出しました。結果は、RFがいくつかの高度に相関した変数を持つ強力な因果変数を特定できたことを示していますが、他の因果変数は検出されませんでした。 結論:RF-RFEは相関変数の重要性を減少させましたが、多くの相関変数が存在する場合、因果変数の重要性も減少し、両方が検出を困難にしました。これらの調査結果は、RF-RFEが高次元データに拡大しない可能性があることを示唆しています。

背景:ランダムフォレスト(RF)は、一般的に高次元の問題とうまく機能し、予測因子間の非線形関係を可能にする機械学習方法です。ただし、相関する予測因子の存在は、強力な予測因子を特定する能力に影響を与えることが示されています。ランダムフォレスト再帰機能エリミネーションアルゴリズム(RF-RFE)は、この問題を小さなデータセットで軽減しますが、このアプローチは高次元のOMICSデータセットでテストされていません。 結果:680人の個人に202,919の遺伝子型と153,422メチル化部位を統合し、RFとRF-RFEの能力を比較して、これらの変数とトリグリセリドレベルの間のシミュレートされた遺伝子型メチル化相互作用を含むシミュレートされた因果関係を検出しました。結果は、RFがいくつかの高度に相関した変数を持つ強力な因果変数を特定できたことを示していますが、他の因果変数は検出されませんでした。 結論:RF-RFEは相関変数の重要性を減少させましたが、多くの相関変数が存在する場合、因果変数の重要性も減少し、両方が検出を困難にしました。これらの調査結果は、RF-RFEが高次元データに拡大しない可能性があることを示唆しています。

BACKGROUND: Random forest (RF) is a machine-learning method that generally works well with high-dimensional problems and allows for nonlinear relationships between predictors; however, the presence of correlated predictors has been shown to impact its ability to identify strong predictors. The Random Forest-Recursive Feature Elimination algorithm (RF-RFE) mitigates this problem in smaller data sets, but this approach has not been tested in high-dimensional omics data sets. RESULTS: We integrated 202,919 genotypes and 153,422 methylation sites in 680 individuals, and compared the abilities of RF and RF-RFE to detect simulated causal associations, which included simulated genotype-methylation interactions, between these variables and triglyceride levels. Results show that RF was able to identify strong causal variables with a few highly correlated variables, but it did not detect other causal variables. CONCLUSIONS: Although RF-RFE decreased the importance of correlated variables, in the presence of many correlated variables, it also decreased the importance of causal variables, making both hard to detect. These findings suggest that RF-RFE may not scale to high-dimensional data.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google