Loading...
Cell reports methods2023Jan23Vol.3issue(1)

クロスエントロピーテストにより、T-SNEおよびUMAP表現の定量的統計的比較が可能になります

,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

高次元のシングルセルデータの出現により、次元削減ツールの開発が必要になりました。T分配された確率的隣接埋め込み(T-SNE)および均一なマニホールド近似と投影(UMAP)は、最も頻繁に使用される2つのアプローチであり、複雑なシングルセルデータセットの明確な視覚化を可能にします。定量的な比較の必要性にもかかわらず、T-SNEとUMAPは、堅牢な統計的アプローチがないため、視覚化ツールのままでした。ここでは、各データセット内の単一セルの交差エントロピーの分布に関するコルモゴロフスミルノフテストを使用して、次元削減データセットの違いを評価するための統計テストを導き出しました。このアプローチは比較のために単一細胞の相互関係を使用するため、結果として生じる統計は堅牢で、真の生物学的変動を識別することができます。さらに、このテストでは、シングルセルデータセット間の有効な距離を提供し、複数のサンプルの構成を樹状図に組織化して、複雑なデータセットの定量的比較を可能にします。これらの結果は、視覚化を超えて生物医学データ分析のための次元削減ツールの大部分が未開拓の可能性を示しています。

高次元のシングルセルデータの出現により、次元削減ツールの開発が必要になりました。T分配された確率的隣接埋め込み(T-SNE)および均一なマニホールド近似と投影(UMAP)は、最も頻繁に使用される2つのアプローチであり、複雑なシングルセルデータセットの明確な視覚化を可能にします。定量的な比較の必要性にもかかわらず、T-SNEとUMAPは、堅牢な統計的アプローチがないため、視覚化ツールのままでした。ここでは、各データセット内の単一セルの交差エントロピーの分布に関するコルモゴロフスミルノフテストを使用して、次元削減データセットの違いを評価するための統計テストを導き出しました。このアプローチは比較のために単一細胞の相互関係を使用するため、結果として生じる統計は堅牢で、真の生物学的変動を識別することができます。さらに、このテストでは、シングルセルデータセット間の有効な距離を提供し、複数のサンプルの構成を樹状図に組織化して、複雑なデータセットの定量的比較を可能にします。これらの結果は、視覚化を超えて生物医学データ分析のための次元削減ツールの大部分が未開拓の可能性を示しています。

The advent of high-dimensional single-cell data has necessitated the development of dimensionality-reduction tools. t-Distributed stochastic neighbor embedding (t-SNE) and uniform manifold approximation and projection (UMAP) are the two most frequently used approaches, allowing clear visualization of complex single-cell datasets. Despite the need for quantitative comparison, t-SNE and UMAP have largely remained visualization tools due to the lack of robust statistical approaches. Here, we have derived a statistical test for evaluating the difference between dimensionality-reduced datasets using the Kolmogorov-Smirnov test on the distributions of cross entropy of single cells within each dataset. As the approach uses the inter-relationship of single cells for comparison, the resulting statistic is robust and capable of identifying true biological variation. Further, the test provides a valid distance between single-cell datasets, allowing the organization of multiple samples into a dendrogram for quantitative comparison of complex datasets. These results demonstrate the largely untapped potential of dimensionality-reduction tools for biomedical data analysis beyond visualization.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google