著名医師による解説が無料で読めます
すると翻訳の精度が向上します
ランダムフォレスト分類モデルのパフォーマンスは、多くの場合、アウトバッグ(OOB)サンプルを使用して評価および解釈されます。ツリーが訓練されたときにOOBである観測は、そのツリーのテストセットとして機能し、OOBエラーとさまざまな重要性測定値(VIM)の計算に使用されるOOB観測からの予測として機能する場合があります。OOBエラーは、計算が速く、大規模なサンプルの場合、真の予測エラーの良い推定であるため、人気があります。この研究では、ランダムフォレストのカテゴリー予測変数のターゲットベースとターゲットと標的のエンコーディングが、OOBサンプルに基づいてパフォーマンス測定をバイアスする方法を調査します。カテゴリ変数がターゲットベースのエンコーディング方法を使用してエンコードされ、袋詰めの前にエンコーディングが行われる場合、OOBサンプルは真の誤分類率を過小評価し、変数の重要性を過大評価することができることを示します。ターゲットベースのエンコーディング方法を利用するツリーベースの方法のさまざまな重要性および/または予測パフォーマンスを評価する場合、個別のテストデータセットを使用することをお勧めします。
ランダムフォレスト分類モデルのパフォーマンスは、多くの場合、アウトバッグ(OOB)サンプルを使用して評価および解釈されます。ツリーが訓練されたときにOOBである観測は、そのツリーのテストセットとして機能し、OOBエラーとさまざまな重要性測定値(VIM)の計算に使用されるOOB観測からの予測として機能する場合があります。OOBエラーは、計算が速く、大規模なサンプルの場合、真の予測エラーの良い推定であるため、人気があります。この研究では、ランダムフォレストのカテゴリー予測変数のターゲットベースとターゲットと標的のエンコーディングが、OOBサンプルに基づいてパフォーマンス測定をバイアスする方法を調査します。カテゴリ変数がターゲットベースのエンコーディング方法を使用してエンコードされ、袋詰めの前にエンコーディングが行われる場合、OOBサンプルは真の誤分類率を過小評価し、変数の重要性を過大評価することができることを示します。ターゲットベースのエンコーディング方法を利用するツリーベースの方法のさまざまな重要性および/または予測パフォーマンスを評価する場合、個別のテストデータセットを使用することをお勧めします。
Performance of random forest classification models is often assessed and interpreted using out-of-bag (OOB) samples. Observations which are OOB when a tree is trained may serve as a test set for that tree and predictions from the OOB observations used to calculate OOB error and variable importance measures (VIM). OOB errors are popular because they are fast to compute and, for large samples, are a good estimate of the true prediction error. In this study, we investigate how target-based vs. target-agnostic encoding of categorical predictor variables for random forest can bias performance measures based on OOB samples. We show that, when categorical variables are encoded using a target-based encoding method, and when the encoding takes place prior to bagging, the OOB sample can underestimate the true misclassification rate, and overestimate variable importance. We recommend using a separate test data set when evaluating variable importance and/or predictive performance of tree based methods that utilise a target-based encoding method.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。