Loading...
BMC bioinformatics2018Nov19Vol.19issue(1)

SVM-RFE:非線形カーネルを介した最も関連性の高い機能の選択と視覚化

,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:サポートベクターマシン(SVM)は、観測数よりもほぼ等しいまたは大きい多くの予測因子を使用してデータを分析する強力なツールです。ただし、元々、SVMは予測変数の重要性を評価するために設計されていないため、生物医学データを分析するためのSVMの適用は制限されていました。最も関連性の高い変数のみに基づいて予測モデルを作成することは、生物医学研究では不可欠です。現在、SVMモデルのさまざまな重要性の評価を可能にするために実質的な作業が行われていますが、この作業は線形カーネルで実装されたSVMに焦点を当てています。予測モデルとしてのSVMのパワーは、非線形カーネルの使用によって生成される柔軟性に関連付けられています。さらに、SVMは生存の結果をモデル化するために拡張されています。このペーパーでは、生存分析のための非線形SVMおよびSVMに基づいてランク変数をランク付けする3つのアプローチを提案することにより、再帰機能除去(RFE)アルゴリズムを拡張します。 結果:提案されたアルゴリズムにより、それぞれがRFE反復を視覚化するため、応答変数の最も関連性の高い予測因子の識別が可能になります。イベントからイベントの結果と3つの実際のデータセットに基づいたシミュレーション研究を使用して、擬似サンプルとカーネル主成分分析に基づいて3つの方法を評価し、それらを非線形カーネルの元のSVM-RFEアルゴリズムと比較します。提案した3つのアルゴリズムは、シミュレーション研究の各アルゴリズムによって生成される変数ランクと真に最も関連性のある変数を比較するときに、非線形カーネルのゴールドスタンダードRFEよりも一般的に優れています。一般に、RFE-Pseudo-Samplesは、変数がすべてのテストされたシナリオで相関していると想定されている場合でも、他の3つの方法よりも優れていました。 結論:提案されたアプローチを正確に実装して、変数を選択し、カテゴリまたはイベントまでの応答のためにSVMを使用して生物医学データの分析において関連の方向と強度を評価できます。予測因子と結果の間の関連性の方向と解釈の方向性と結果の方向性と結果の強さを提案したアプローチと、特にRFE-Pseudo-Samplesアプローチでは、生物医学データを分析する際に正確に実装できます。これらのアプローチは、生物医学データの構造に関する現実的なシナリオのために、Guyonの古典的なRFEよりも優れたパフォーマンスを発揮します。

背景:サポートベクターマシン(SVM)は、観測数よりもほぼ等しいまたは大きい多くの予測因子を使用してデータを分析する強力なツールです。ただし、元々、SVMは予測変数の重要性を評価するために設計されていないため、生物医学データを分析するためのSVMの適用は制限されていました。最も関連性の高い変数のみに基づいて予測モデルを作成することは、生物医学研究では不可欠です。現在、SVMモデルのさまざまな重要性の評価を可能にするために実質的な作業が行われていますが、この作業は線形カーネルで実装されたSVMに焦点を当てています。予測モデルとしてのSVMのパワーは、非線形カーネルの使用によって生成される柔軟性に関連付けられています。さらに、SVMは生存の結果をモデル化するために拡張されています。このペーパーでは、生存分析のための非線形SVMおよびSVMに基づいてランク変数をランク付けする3つのアプローチを提案することにより、再帰機能除去(RFE)アルゴリズムを拡張します。 結果:提案されたアルゴリズムにより、それぞれがRFE反復を視覚化するため、応答変数の最も関連性の高い予測因子の識別が可能になります。イベントからイベントの結果と3つの実際のデータセットに基づいたシミュレーション研究を使用して、擬似サンプルとカーネル主成分分析に基づいて3つの方法を評価し、それらを非線形カーネルの元のSVM-RFEアルゴリズムと比較します。提案した3つのアルゴリズムは、シミュレーション研究の各アルゴリズムによって生成される変数ランクと真に最も関連性のある変数を比較するときに、非線形カーネルのゴールドスタンダードRFEよりも一般的に優れています。一般に、RFE-Pseudo-Samplesは、変数がすべてのテストされたシナリオで相関していると想定されている場合でも、他の3つの方法よりも優れていました。 結論:提案されたアプローチを正確に実装して、変数を選択し、カテゴリまたはイベントまでの応答のためにSVMを使用して生物医学データの分析において関連の方向と強度を評価できます。予測因子と結果の間の関連性の方向と解釈の方向性と結果の方向性と結果の強さを提案したアプローチと、特にRFE-Pseudo-Samplesアプローチでは、生物医学データを分析する際に正確に実装できます。これらのアプローチは、生物医学データの構造に関する現実的なシナリオのために、Guyonの古典的なRFEよりも優れたパフォーマンスを発揮します。

BACKGROUND: Support vector machines (SVM) are a powerful tool to analyze data with a number of predictors approximately equal or larger than the number of observations. However, originally, application of SVM to analyze biomedical data was limited because SVM was not designed to evaluate importance of predictor variables. Creating predictor models based on only the most relevant variables is essential in biomedical research. Currently, substantial work has been done to allow assessment of variable importance in SVM models but this work has focused on SVM implemented with linear kernels. The power of SVM as a prediction model is associated with the flexibility generated by use of non-linear kernels. Moreover, SVM has been extended to model survival outcomes. This paper extends the Recursive Feature Elimination (RFE) algorithm by proposing three approaches to rank variables based on non-linear SVM and SVM for survival analysis. RESULTS: The proposed algorithms allows visualization of each one the RFE iterations, and hence, identification of the most relevant predictors of the response variable. Using simulation studies based on time-to-event outcomes and three real datasets, we evaluate the three methods, based on pseudo-samples and kernel principal component analysis, and compare them with the original SVM-RFE algorithm for non-linear kernels. The three algorithms we proposed performed generally better than the gold standard RFE for non-linear kernels, when comparing the truly most relevant variables with the variable ranks produced by each algorithm in simulation studies. Generally, the RFE-pseudo-samples outperformed the other three methods, even when variables were assumed to be correlated in all tested scenarios. CONCLUSIONS: The proposed approaches can be implemented with accuracy to select variables and assess direction and strength of associations in analysis of biomedical data using SVM for categorical or time-to-event responses. Conducting variable selection and interpreting direction and strength of associations between predictors and outcomes with the proposed approaches, particularly with the RFE-pseudo-samples approach can be implemented with accuracy when analyzing biomedical data. These approaches, perform better than the classical RFE of Guyon for realistic scenarios about the structure of biomedical data.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google