Loading...
Molecular & cellular proteomics : MCP2009Oct01Vol.8issue(10)

代謝標識によって生成された定量的プロテオミクスデータの正規化と統計分析

,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

比較プロテオミクスは、成長パラメーターの変化に対する生物学的系の応答について学習するための強力な分析方法です。生物学的反応について自信を持って推論するために、プロテオミクスアプローチは、定量的データの適切な統計的測定を組み込む必要があります。現在の研究では、マイクロアレイベースの正規化と統計分析(有意性テスト)方法を適用して、海洋細菌(Sphingopyxis alaskensis)の代謝標識から生成された定量的プロテオミクスデータを分析しました。1,736の高信頼性タンパク質同定(54%のゲノムカバー)を表す1,172タンパク質の定量データが生成されました。正規化のアプローチをテストするために、細胞を単一の温度で成長させ、(14)nまたは(15)nで代謝的に標識し、異なる比率で組み合わせて、人為的に歪んだデータセットを与えました。比率対平均(MA)プロットの検査により、固定値の中央値正規化がデータに最も適していることが判断されました。異なる存在量を評価するための適切な統計的方法を決定するために、2つの温度で成長した細胞からのプロテオミクスデータに、倍率変化アプローチ、学生のT検定、非モデラ化T検定、および経験的ベイズモデレートT検定に適用されました。逆代謝標識は、複数の技術的および生物学的複製で使用され、文化の等しい光学密度(歪んだデータを提供する)または等量のタンパク質(歪んでいない)を組み合わせた細胞抽出物に基づいて組み合わされた細胞でプロテオミクスが実行されました。任意に複雑な実験固有のパラメーターを説明するために、線形モデリングアプローチを使用して、R/BioconductorのLIMMAパッケージを使用してデータを分析しました。統計的に有意に有意に豊富なタンパク質の高品質リストは、(MAプロットを検査した後)、経験的ベイズモデレートT検定を適用することにより、得られました。また、このアプローチは、虚偽の発見の数を効果的に制御し、storey-tibshiraniの誤検出率を使用した複数のテスト問題に対して修正されました(Storey、J。D.、およびTibshirani、R。(2003)Genomewide研究の統計的有意性。私たちが開発したアプローチは、一般に、多様な生物学的システムの定量的プロテオミクス分析に適用されます。

比較プロテオミクスは、成長パラメーターの変化に対する生物学的系の応答について学習するための強力な分析方法です。生物学的反応について自信を持って推論するために、プロテオミクスアプローチは、定量的データの適切な統計的測定を組み込む必要があります。現在の研究では、マイクロアレイベースの正規化と統計分析(有意性テスト)方法を適用して、海洋細菌(Sphingopyxis alaskensis)の代謝標識から生成された定量的プロテオミクスデータを分析しました。1,736の高信頼性タンパク質同定(54%のゲノムカバー)を表す1,172タンパク質の定量データが生成されました。正規化のアプローチをテストするために、細胞を単一の温度で成長させ、(14)nまたは(15)nで代謝的に標識し、異なる比率で組み合わせて、人為的に歪んだデータセットを与えました。比率対平均(MA)プロットの検査により、固定値の中央値正規化がデータに最も適していることが判断されました。異なる存在量を評価するための適切な統計的方法を決定するために、2つの温度で成長した細胞からのプロテオミクスデータに、倍率変化アプローチ、学生のT検定、非モデラ化T検定、および経験的ベイズモデレートT検定に適用されました。逆代謝標識は、複数の技術的および生物学的複製で使用され、文化の等しい光学密度(歪んだデータを提供する)または等量のタンパク質(歪んでいない)を組み合わせた細胞抽出物に基づいて組み合わされた細胞でプロテオミクスが実行されました。任意に複雑な実験固有のパラメーターを説明するために、線形モデリングアプローチを使用して、R/BioconductorのLIMMAパッケージを使用してデータを分析しました。統計的に有意に有意に豊富なタンパク質の高品質リストは、(MAプロットを検査した後)、経験的ベイズモデレートT検定を適用することにより、得られました。また、このアプローチは、虚偽の発見の数を効果的に制御し、storey-tibshiraniの誤検出率を使用した複数のテスト問題に対して修正されました(Storey、J。D.、およびTibshirani、R。(2003)Genomewide研究の統計的有意性。私たちが開発したアプローチは、一般に、多様な生物学的システムの定量的プロテオミクス分析に適用されます。

Comparative proteomics is a powerful analytical method for learning about the responses of biological systems to changes in growth parameters. To make confident inferences about biological responses, proteomics approaches must incorporate appropriate statistical measures of quantitative data. In the present work we applied microarray-based normalization and statistical analysis (significance testing) methods to analyze quantitative proteomics data generated from the metabolic labeling of a marine bacterium (Sphingopyxis alaskensis). Quantitative data were generated for 1,172 proteins, representing 1,736 high confidence protein identifications (54% genome coverage). To test approaches for normalization, cells were grown at a single temperature, metabolically labeled with (14)N or (15)N, and combined in different ratios to give an artificially skewed data set. Inspection of ratio versus average (MA) plots determined that a fixed value median normalization was most suitable for the data. To determine an appropriate statistical method for assessing differential abundance, a -fold change approach, Student's t test, unmoderated t test, and empirical Bayes moderated t test were applied to proteomics data from cells grown at two temperatures. Inverse metabolic labeling was used with multiple technical and biological replicates, and proteomics was performed on cells that were combined based on equal optical density of cultures (providing skewed data) or on cell extracts that were combined to give equal amounts of protein (no skew). To account for arbitrarily complex experiment-specific parameters, a linear modeling approach was used to analyze the data using the limma package in R/Bioconductor. A high quality list of statistically significant differentially abundant proteins was obtained by using lowess normalization (after inspection of MA plots) and applying the empirical Bayes moderated t test. The approach also effectively controlled for the number of false discoveries and corrected for the multiple testing problem using the Storey-Tibshirani false discovery rate (Storey, J. D., and Tibshirani, R. (2003) Statistical significance for genomewide studies. Proc. Natl. Acad. Sci. U.S.A. 100, 9440-9445). The approach we have developed is generally applicable to quantitative proteomics analyses of diverse biological systems.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google