Loading...
BMC bioinformatics2019Oct11Vol.20issue(1)

ランダムな森林ベースの帰属は、LC-MSメタボロミクスデータを誘発するための他の方法よりも優れています:比較研究

,
,
,
,
,
文献タイプ:
  • Comparative Study
  • Journal Article
概要
Abstract

背景:LC-MSテクノロジーにより、単一の分析でサンプルの多数の分子特徴の相対的な存在量を測定できます。ただし、特にターゲットではないメタボライトプロファイリングアプローチは、欠損値などの異常になりやすいデータの膨大な配列を生成します。データの欠損値の理由に関係なく、コヒーレントおよび完全なデータマトリックスは、常に正確で信頼できる統計分析のための前提条件です。したがって、欠落を説明し、統計分析のバイアスを減らす適切な代入戦略が必要です。 結果:ここでは、異なる原点の欠損値の4つの異なる割合で9つの代入法を評価した後、結果を提示します。各代入法のパフォーマンスは、正規化されたルート平方誤差(NRMSE)によって分析されました。ランダムフォレスト(RF)は、ランダム(MAR)で欠落し、完全にランダム(MCAR)で欠落している場合、欠損値の推定で最も低いNRMSEを有していることを実証しました。ランダム(MNAR)がないために値がないため、左切り捨てられたデータは、最小値の代入で最もよく帰属しました。また、さまざまな原点の欠落データを含むデータセットのさまざまな代入法をテストしました。RFは、すべての場合に最も正確な方法でした。結果は、異なる原点の欠損データを表すために欠損値が導入されたメタボロミクスデータセットを使用して、評価プロセスを100回繰り返すことによって得られました。 結論:欠落の種類と速度は、代入法のパフォーマンスと適合性に影響します。RFベースの代入法は、さまざまなタイプの組み合わせや欠落率を含む、テストされたシナリオのほとんどで最適に機能します。したがって、不足しているメタボロミクスデータ、特に欠落の種類が事前に知られていない状況では、ランダムな森林ベースの帰属を使用することをお勧めします。

背景:LC-MSテクノロジーにより、単一の分析でサンプルの多数の分子特徴の相対的な存在量を測定できます。ただし、特にターゲットではないメタボライトプロファイリングアプローチは、欠損値などの異常になりやすいデータの膨大な配列を生成します。データの欠損値の理由に関係なく、コヒーレントおよび完全なデータマトリックスは、常に正確で信頼できる統計分析のための前提条件です。したがって、欠落を説明し、統計分析のバイアスを減らす適切な代入戦略が必要です。 結果:ここでは、異なる原点の欠損値の4つの異なる割合で9つの代入法を評価した後、結果を提示します。各代入法のパフォーマンスは、正規化されたルート平方誤差(NRMSE)によって分析されました。ランダムフォレスト(RF)は、ランダム(MAR)で欠落し、完全にランダム(MCAR)で欠落している場合、欠損値の推定で最も低いNRMSEを有していることを実証しました。ランダム(MNAR)がないために値がないため、左切り捨てられたデータは、最小値の代入で最もよく帰属しました。また、さまざまな原点の欠落データを含むデータセットのさまざまな代入法をテストしました。RFは、すべての場合に最も正確な方法でした。結果は、異なる原点の欠損データを表すために欠損値が導入されたメタボロミクスデータセットを使用して、評価プロセスを100回繰り返すことによって得られました。 結論:欠落の種類と速度は、代入法のパフォーマンスと適合性に影響します。RFベースの代入法は、さまざまなタイプの組み合わせや欠落率を含む、テストされたシナリオのほとんどで最適に機能します。したがって、不足しているメタボロミクスデータ、特に欠落の種類が事前に知られていない状況では、ランダムな森林ベースの帰属を使用することをお勧めします。

BACKGROUND: LC-MS technology makes it possible to measure the relative abundance of numerous molecular features of a sample in single analysis. However, especially non-targeted metabolite profiling approaches generate vast arrays of data that are prone to aberrations such as missing values. No matter the reason for the missing values in the data, coherent and complete data matrix is always a pre-requisite for accurate and reliable statistical analysis. Therefore, there is a need for proper imputation strategies that account for the missingness and reduce the bias in the statistical analysis. RESULTS: Here we present our results after evaluating nine imputation methods in four different percentages of missing values of different origin. The performance of each imputation method was analyzed by Normalized Root Mean Squared Error (NRMSE). We demonstrated that random forest (RF) had the lowest NRMSE in the estimation of missing values for Missing at Random (MAR) and Missing Completely at Random (MCAR). In case of absent values due to Missing Not at Random (MNAR), the left truncated data was best imputed with minimum value imputation. We also tested the different imputation methods for datasets containing missing data of various origin, and RF was the most accurate method in all cases. The results were obtained by repeating the evaluation process 100 times with the use of metabolomics datasets where the missing values were introduced to represent absent data of different origin. CONCLUSION: Type and rate of missingness affects the performance and suitability of imputation methods. RF-based imputation method performs best in most of the tested scenarios, including combinations of different types and rates of missingness. Therefore, we recommend using random forest-based imputation for imputing missing metabolomics data, and especially in situations where the types of missingness are not known in advance.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google