Loading...
PLoS computational biology2019Feb01Vol.15issue(2)

16S rRNA配列埋め込み:下流の分析に便利なヌクレオチド配列の意味のある数値特徴表現

,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

ハイスループットシーケンスの進歩により、その場でのマイクロバイオーム群集構造を特徴付けるために活用できるマイクロバイオームシーケンスデータの可用性が向上しました。ヌクレオチド配列の単語と文の埋め込みアプローチを使用して探求します。これらは、下流の機械学習アプリケーション(特に深い学習)に適した数値表現である可能性があるためです。この作業には、最初のエンコード(「埋め込み」)各シーケンスは、密集した低次元の数値ベクトル空間になります。ここでは、Skip-Gram word2vecを使用して、16S rRNAアンプリコン調査から取得したk-mersを埋め込み、既存の文埋め込み手法を活用して、特定のボディサイトまたはサンプルに属するすべてのシーケンスを埋め込みます。これらの表現は意味があることを実証し、したがって、埋め込みスペースは、探索的分析のための特徴抽出の一形態として活用される可能性があることを実証します。シーケンス埋め込みは、K-MERコンテキスト、シーケンス分類法、サンプルクラスなどのシーケンスデータに関する関連情報を保持することを示します。具体的には、スペースを埋め込むシーケンスは、Phyla間の違いと、同じファミリー内の属間の違いを解決しました。シーケンス埋め込みの距離は、アライメントアイデンティティ間の距離と同様の品質を示し、複数のシーケンスを埋め込むことは、コンセンサスシーケンスを生成すると考えることができます。さらに、埋め込みは、分類学やサンプル分類など、多くの下流タスクに使用できる多用途の機能です。ボディサイト分類にサンプル埋め込みを使用すると、OTUの存在量データを使用するのと比較して、パフォーマンスの損失は無視でき、クラスタリング埋め込みにより高い忠実度のクラスターが得られました。最後に、K-MER埋め込みスペースは、16S RRNA遺伝子の特定の領域にマッピングされ、特定のボディサイトに対応する明確なK-MERプロファイルをキャプチャしました。一緒に、我々の結果は、埋め込みシーケンスが、探索的分析や数値データを必要とする下流の機械学習アプリケーションに使用できる意味のある表現をもたらすことを示しています。さらに、埋め込みは監視されていない方法で訓練されているため、埋め込まれていないデータを埋め込み、監督された機械学習タスクを強化するために使用できます。

ハイスループットシーケンスの進歩により、その場でのマイクロバイオーム群集構造を特徴付けるために活用できるマイクロバイオームシーケンスデータの可用性が向上しました。ヌクレオチド配列の単語と文の埋め込みアプローチを使用して探求します。これらは、下流の機械学習アプリケーション(特に深い学習)に適した数値表現である可能性があるためです。この作業には、最初のエンコード(「埋め込み」)各シーケンスは、密集した低次元の数値ベクトル空間になります。ここでは、Skip-Gram word2vecを使用して、16S rRNAアンプリコン調査から取得したk-mersを埋め込み、既存の文埋め込み手法を活用して、特定のボディサイトまたはサンプルに属するすべてのシーケンスを埋め込みます。これらの表現は意味があることを実証し、したがって、埋め込みスペースは、探索的分析のための特徴抽出の一形態として活用される可能性があることを実証します。シーケンス埋め込みは、K-MERコンテキスト、シーケンス分類法、サンプルクラスなどのシーケンスデータに関する関連情報を保持することを示します。具体的には、スペースを埋め込むシーケンスは、Phyla間の違いと、同じファミリー内の属間の違いを解決しました。シーケンス埋め込みの距離は、アライメントアイデンティティ間の距離と同様の品質を示し、複数のシーケンスを埋め込むことは、コンセンサスシーケンスを生成すると考えることができます。さらに、埋め込みは、分類学やサンプル分類など、多くの下流タスクに使用できる多用途の機能です。ボディサイト分類にサンプル埋め込みを使用すると、OTUの存在量データを使用するのと比較して、パフォーマンスの損失は無視でき、クラスタリング埋め込みにより高い忠実度のクラスターが得られました。最後に、K-MER埋め込みスペースは、16S RRNA遺伝子の特定の領域にマッピングされ、特定のボディサイトに対応する明確なK-MERプロファイルをキャプチャしました。一緒に、我々の結果は、埋め込みシーケンスが、探索的分析や数値データを必要とする下流の機械学習アプリケーションに使用できる意味のある表現をもたらすことを示しています。さらに、埋め込みは監視されていない方法で訓練されているため、埋め込まれていないデータを埋め込み、監督された機械学習タスクを強化するために使用できます。

Advances in high-throughput sequencing have increased the availability of microbiome sequencing data that can be exploited to characterize microbiome community structure in situ. We explore using word and sentence embedding approaches for nucleotide sequences since they may be a suitable numerical representation for downstream machine learning applications (especially deep learning). This work involves first encoding ("embedding") each sequence into a dense, low-dimensional, numeric vector space. Here, we use Skip-Gram word2vec to embed k-mers, obtained from 16S rRNA amplicon surveys, and then leverage an existing sentence embedding technique to embed all sequences belonging to specific body sites or samples. We demonstrate that these representations are meaningful, and hence the embedding space can be exploited as a form of feature extraction for exploratory analysis. We show that sequence embeddings preserve relevant information about the sequencing data such as k-mer context, sequence taxonomy, and sample class. Specifically, the sequence embedding space resolved differences among phyla, as well as differences among genera within the same family. Distances between sequence embeddings had similar qualities to distances between alignment identities, and embedding multiple sequences can be thought of as generating a consensus sequence. In addition, embeddings are versatile features that can be used for many downstream tasks, such as taxonomic and sample classification. Using sample embeddings for body site classification resulted in negligible performance loss compared to using OTU abundance data, and clustering embeddings yielded high fidelity species clusters. Lastly, the k-mer embedding space captured distinct k-mer profiles that mapped to specific regions of the 16S rRNA gene and corresponded with particular body sites. Together, our results show that embedding sequences results in meaningful representations that can be used for exploratory analyses or for downstream machine learning applications that require numeric data. Moreover, because the embeddings are trained in an unsupervised manner, unlabeled data can be embedded and used to bolster supervised machine learning tasks.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google