Loading...
Briefings in bioinformatics2023Jan19Vol.24issue(1)

バブル:バルクRNA-seqデータによって制約されている自動エンコーダーを使用した高速シングルセルRNA-seq代入

,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

シングルセルRNAシーケンステクノロジー(SCRNA-seq)は、研究を単一細胞分解能にもたらします。ただし、SCRNA-seqの大きな欠点は、スパース性が大きいことです。つまり、SCRNA-seqプロトコル中の技術的ノイズまたは限られたシーケンスの深さのために読み取られない発現遺伝子です。この現象は「ドロップアウト」イベントとも呼ばれ、微分表現解析、細胞亜集団のクラスタリングと視覚化、細胞軌道推論などの下流分析に影響を与える可能性があります。ドロップアウトイベント。最初に、細胞亜集団内の遺伝子の発現率と遺伝子の変動係数に基づいてすべてのゼロからドロップアウトイベントを識別し、次にバルクRNA-SEQデータによって制約された自動エンコーダーをレバレッジして、これらの値にのみ依存させます。他の深い学習ベースの代入法とは異なり、バブルは、誤検知信号の導入を減らすための制約として、一致したバルクRNA-seqデータを融合します。シミュレートされたいくつかの実際のSCRNA-seqデータセットを使用して、バブルが欠損値、遺伝子間および細胞間相関の回復を促進し、偽陽性シグナルの導入を減らすことを実証します。SCRNA-seqデータのいくつかの重要なダウンストリーム分析に関して、バブルは差次的に発現した遺伝子の識別を促進し、クラスタリングと視覚化のパフォーマンスを改善し、細胞軌道の構築を支援します。さらに重要なことに、バブルは、メモリ使用量を最小限に抑えて、高速でスケーラブルな代入を提供します。

シングルセルRNAシーケンステクノロジー(SCRNA-seq)は、研究を単一細胞分解能にもたらします。ただし、SCRNA-seqの大きな欠点は、スパース性が大きいことです。つまり、SCRNA-seqプロトコル中の技術的ノイズまたは限られたシーケンスの深さのために読み取られない発現遺伝子です。この現象は「ドロップアウト」イベントとも呼ばれ、微分表現解析、細胞亜集団のクラスタリングと視覚化、細胞軌道推論などの下流分析に影響を与える可能性があります。ドロップアウトイベント。最初に、細胞亜集団内の遺伝子の発現率と遺伝子の変動係数に基づいてすべてのゼロからドロップアウトイベントを識別し、次にバルクRNA-SEQデータによって制約された自動エンコーダーをレバレッジして、これらの値にのみ依存させます。他の深い学習ベースの代入法とは異なり、バブルは、誤検知信号の導入を減らすための制約として、一致したバルクRNA-seqデータを融合します。シミュレートされたいくつかの実際のSCRNA-seqデータセットを使用して、バブルが欠損値、遺伝子間および細胞間相関の回復を促進し、偽陽性シグナルの導入を減らすことを実証します。SCRNA-seqデータのいくつかの重要なダウンストリーム分析に関して、バブルは差次的に発現した遺伝子の識別を促進し、クラスタリングと視覚化のパフォーマンスを改善し、細胞軌道の構築を支援します。さらに重要なことに、バブルは、メモリ使用量を最小限に抑えて、高速でスケーラブルな代入を提供します。

Single-cell RNA-sequencing technology (scRNA-seq) brings research to single-cell resolution. However, a major drawback of scRNA-seq is large sparsity, i.e. expressed genes with no reads due to technical noise or limited sequence depth during the scRNA-seq protocol. This phenomenon is also called 'dropout' events, which likely affect downstream analyses such as differential expression analysis, the clustering and visualization of cell subpopulations, cellular trajectory inference, etc. Therefore, there is a need to develop a method to identify and impute these dropout events. We propose Bubble, which first identifies dropout events from all zeros based on expression rate and coefficient of variation of genes within cell subpopulation, and then leverages an autoencoder constrained by bulk RNA-seq data to only impute those values. Unlike other deep learning-based imputation methods, Bubble fuses the matched bulk RNA-seq data as a constraint to reduce the introduction of false positive signals. Using simulated and several real scRNA-seq datasets, we demonstrate that Bubble enhances the recovery of missing values, gene-to-gene and cell-to-cell correlations, and reduces the introduction of false positive signals. Regarding some crucial downstream analyses of scRNA-seq data, Bubble facilitates the identification of differentially expressed genes, improves the performance of clustering and visualization, and aids the construction of cellular trajectory. More importantly, Bubble provides fast and scalable imputation with minimal memory usage.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google