Loading...
Frontiers in genetics20230101Vol.14issue()

失われたアダプトグループ情報情報クラスター化(魔法) - ラッソ:遺伝子局所発見の力を改善するための表現型予測の新しいパラダイム

,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

はじめに:遺伝データ、豊富な表現型、および生物学的測定をリンクする大規模なバイオバンクの利用可能性は、科学的発見のための強力な機会です。ただし、実際のコレクションには頻繁に膨大な欠落があります。データ予測の欠落は可能ですが、多くのバイオバンクに固有のブロックごとの欠落によってパフォーマンスが著しく損なわれます。方法:これに対処するために、欠落しているグループごとの情報に基づいたクラスター化されたクラスタ(マジック)ラッソを開発しました。これは、欠落に基づいて変数の階層クラスタリングを実行し、その後にクラスター内のシーケンシャルグループラッソを実行します。変数は、完全性によってランク付けされた機能を段階的に含めることを使用して構築された最終モデルを使用して、トレーニングとターゲットセットの欠落とバランスのために事前にフィルタリングされています。この研究は、英国のバイオバンク(n> 500 K)を使用して実施され、未測定のアルコール使用障害識別テスト(監査)スコアを予測しています。結果:測定された総スコアと予測された総スコア間の表現型の相関は0.67でしたが、独立した被験者間の遺伝的相関は0.86> 0.86でした。議論:実際のデータアプリケーションにおける表現型および遺伝的相関、およびシミュレーションは、遺伝子遺伝子座の発見のための力を高めるための方法を有意な精度と有用性を持っていることを示しています。

はじめに:遺伝データ、豊富な表現型、および生物学的測定をリンクする大規模なバイオバンクの利用可能性は、科学的発見のための強力な機会です。ただし、実際のコレクションには頻繁に膨大な欠落があります。データ予測の欠落は可能ですが、多くのバイオバンクに固有のブロックごとの欠落によってパフォーマンスが著しく損なわれます。方法:これに対処するために、欠落しているグループごとの情報に基づいたクラスター化されたクラスタ(マジック)ラッソを開発しました。これは、欠落に基づいて変数の階層クラスタリングを実行し、その後にクラスター内のシーケンシャルグループラッソを実行します。変数は、完全性によってランク付けされた機能を段階的に含めることを使用して構築された最終モデルを使用して、トレーニングとターゲットセットの欠落とバランスのために事前にフィルタリングされています。この研究は、英国のバイオバンク(n> 500 K)を使用して実施され、未測定のアルコール使用障害識別テスト(監査)スコアを予測しています。結果:測定された総スコアと予測された総スコア間の表現型の相関は0.67でしたが、独立した被験者間の遺伝的相関は0.86> 0.86でした。議論:実際のデータアプリケーションにおける表現型および遺伝的相関、およびシミュレーションは、遺伝子遺伝子座の発見のための力を高めるための方法を有意な精度と有用性を持っていることを示しています。

Introduction: The availability of large-scale biobanks linking genetic data, rich phenotypes, and biological measures is a powerful opportunity for scientific discovery. However, real-world collections frequently have extensive missingness. While missing data prediction is possible, performance is significantly impaired by block-wise missingness inherent to many biobanks. Methods: To address this, we developed Missingness Adapted Group-wise Informed Clustered (MAGIC)-LASSO which performs hierarchical clustering of variables based on missingness followed by sequential Group LASSO within clusters. Variables are pre-filtered for missingness and balance between training and target sets with final models built using stepwise inclusion of features ranked by completeness. This research has been conducted using the UK Biobank (n > 500 k) to predict unmeasured Alcohol Use Disorders Identification Test (AUDIT) scores. Results: The phenotypic correlation between measured and predicted total score was 0.67 while genetic correlations between independent subjects was high >0.86. Discussion: Phenotypic and genetic correlations in real data application, as well as simulations, demonstrate the method has significant accuracy and utility for increasing power for genetic loci discovery.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google