Loading...
Nucleic acids research2013May01Vol.41issue(10)

短いオリゴヌクレオチドマイクロアレイアトラゼのための完全にスケーラブルなオンライン前処理アルゴリズム

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

大規模で標準化されたマイクロアレイデータコレクションの急速な蓄積により、ゲノム機能の全体的な特性評価の新しい機会が開かれています。ただし、現在の前処理技術の限られたスケーラビリティは、これらのデータリソースを完全に利用するためのボトルネックを形成しました。短いオリゴヌクレオチドアレイは、ゲノム全体のプロファイリングデータの主要なソースを構成していますが、制限された参照トレーニングセットからの事前に計算されたプローブ効果に基づくプラットフォームの少数でのみスケーラブルなプローブレベルの技術が利用可能です。これらの主要な制限を克服するために、数万のアレイを含む大型マイクロアレイアトラーゼのプローブレベル分析と前処理のための完全にスケーラブルなオンライン学習アルゴリズムを導入します。代替品とは対照的に、アルゴリズムはサンプルサイズに関して直線的に拡大し、すべての短いオリゴヌクレオチドプラットフォームに適用できます。このモデルは、これまでに利用できる最も包括的なデータコレクションを使用して、ノイズとバイアスの影響を受けた個々のプローブを特定し、アレイの設計と品質制御を導くツールを提供することができます。これは、少量のデータバッチでのシーケンシャルハイパーパラメーターの更新に基づいてプローブレベルのパラメーターを学習できる唯一の利用可能なアルゴリズムであり、標準的なアプローチの広範なメモリ要件を回避し、現代のマイクロアレイコレクションを最大限に活用するための新しい機会を開きます。

大規模で標準化されたマイクロアレイデータコレクションの急速な蓄積により、ゲノム機能の全体的な特性評価の新しい機会が開かれています。ただし、現在の前処理技術の限られたスケーラビリティは、これらのデータリソースを完全に利用するためのボトルネックを形成しました。短いオリゴヌクレオチドアレイは、ゲノム全体のプロファイリングデータの主要なソースを構成していますが、制限された参照トレーニングセットからの事前に計算されたプローブ効果に基づくプラットフォームの少数でのみスケーラブルなプローブレベルの技術が利用可能です。これらの主要な制限を克服するために、数万のアレイを含む大型マイクロアレイアトラーゼのプローブレベル分析と前処理のための完全にスケーラブルなオンライン学習アルゴリズムを導入します。代替品とは対照的に、アルゴリズムはサンプルサイズに関して直線的に拡大し、すべての短いオリゴヌクレオチドプラットフォームに適用できます。このモデルは、これまでに利用できる最も包括的なデータコレクションを使用して、ノイズとバイアスの影響を受けた個々のプローブを特定し、アレイの設計と品質制御を導くツールを提供することができます。これは、少量のデータバッチでのシーケンシャルハイパーパラメーターの更新に基づいてプローブレベルのパラメーターを学習できる唯一の利用可能なアルゴリズムであり、標準的なアプローチの広範なメモリ要件を回避し、現代のマイクロアレイコレクションを最大限に活用するための新しい機会を開きます。

Rapid accumulation of large and standardized microarray data collections is opening up novel opportunities for holistic characterization of genome function. The limited scalability of current preprocessing techniques has, however, formed a bottleneck for full utilization of these data resources. Although short oligonucleotide arrays constitute a major source of genome-wide profiling data, scalable probe-level techniques have been available only for few platforms based on pre-calculated probe effects from restricted reference training sets. To overcome these key limitations, we introduce a fully scalable online-learning algorithm for probe-level analysis and pre-processing of large microarray atlases involving tens of thousands of arrays. In contrast to the alternatives, our algorithm scales up linearly with respect to sample size and is applicable to all short oligonucleotide platforms. The model can use the most comprehensive data collections available to date to pinpoint individual probes affected by noise and biases, providing tools to guide array design and quality control. This is the only available algorithm that can learn probe-level parameters based on sequential hyperparameter updates at small consecutive batches of data, thus circumventing the extensive memory requirements of the standard approaches and opening up novel opportunities to take full advantage of contemporary microarray collections.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google