Loading...
Bioinformatics advances20230101Vol.3issue(1)

Kompute:高スループットモデル生物に不足している表現型の要約統計

,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

動機:国際マウスの表現型コンソーシアム(IPC)は、マウスゲノムのほぼすべてのタンパク質コーディング遺伝子の遺伝子ノックアウトマウスを体系的に産生および表現し、遺伝子間の関連性をテストすることにより、哺乳類タンパク質コード遺伝子の包括的な機能カタログを構築するよう努めています。機能喪失と表現型。これまで、IMPCは90 000以上の遺伝子表現型の関連を特定してきましたが、各遺伝子についてまだ多くの表現型が測定されていないため、ほとんど不完全なデータが生じています。Association Summary Statisticsの約75.6%は、最新のINPCサマリ統計データセット(IMPCリリースバージョン16)でまだ欠落しています。 結果:これらの課題を克服するために、IPCデータセットに不足している要約統計を帰属させる新しい方法であるKomputeを提案します。多変量正常の条件付き分布特性を使用して、Komputeは、測定された表現型のZスコアを考慮して、特定の遺伝子の未測定の表現型の関連Zスコアを推定します。シミュレートされた現実世界データセットと実際のデータセットを使用したメソッドの評価は、さまざまなシナリオでの特異値分解マトリックス完了方法に対するその優位性を示しています。 可用性と実装:Kompute用のRパッケージは、https://github.com/statsleelab/komputeで公開されており、https://statsleelab.github.io/komputeexamplesのさまざまな表現型ドメインの使用例と結果があります。

動機:国際マウスの表現型コンソーシアム(IPC)は、マウスゲノムのほぼすべてのタンパク質コーディング遺伝子の遺伝子ノックアウトマウスを体系的に産生および表現し、遺伝子間の関連性をテストすることにより、哺乳類タンパク質コード遺伝子の包括的な機能カタログを構築するよう努めています。機能喪失と表現型。これまで、IMPCは90 000以上の遺伝子表現型の関連を特定してきましたが、各遺伝子についてまだ多くの表現型が測定されていないため、ほとんど不完全なデータが生じています。Association Summary Statisticsの約75.6%は、最新のINPCサマリ統計データセット(IMPCリリースバージョン16)でまだ欠落しています。 結果:これらの課題を克服するために、IPCデータセットに不足している要約統計を帰属させる新しい方法であるKomputeを提案します。多変量正常の条件付き分布特性を使用して、Komputeは、測定された表現型のZスコアを考慮して、特定の遺伝子の未測定の表現型の関連Zスコアを推定します。シミュレートされた現実世界データセットと実際のデータセットを使用したメソッドの評価は、さまざまなシナリオでの特異値分解マトリックス完了方法に対するその優位性を示しています。 可用性と実装:Kompute用のRパッケージは、https://github.com/statsleelab/komputeで公開されており、https://statsleelab.github.io/komputeexamplesのさまざまな表現型ドメインの使用例と結果があります。

MOTIVATION: The International Mouse Phenotyping Consortium (IMPC) is striving to build a comprehensive functional catalog of mammalian protein-coding genes by systematically producing and phenotyping gene-knockout mice for almost every protein-coding gene in the mouse genome and by testing associations between gene loss-of-function and phenotype. To date, the IMPC has identified over 90 000 gene-phenotype associations, but many phenotypes have not yet been measured for each gene, resulting in largely incomplete data; ∼75.6% of association summary statistics are still missing in the latest IMPC summary statistics dataset (IMPC release version 16). RESULTS: To overcome these challenges, we propose KOMPUTE, a novel method for imputing missing summary statistics in the IMPC dataset. Using conditional distribution properties of multivariate normal, KOMPUTE estimates the association Z-scores of unmeasured phenotypes for a particular gene as a conditional expectation given the Z-scores of measured phenotypes. Our evaluation of the method using simulated and real-world datasets demonstrates its superiority over the singular value decomposition matrix completion method in various scenarios. AVAILABILITY AND IMPLEMENTATION: An R package for KOMPUTE is publicly available at https://github.com/statsleelab/kompute, along with usage examples and results for different phenotype domains at https://statsleelab.github.io/komputeExamples.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google