Loading...
PloS one20130101Vol.8issue(1)

ネットワーククラスタリングとランキングの重要性分析に対する再サンプリング効果

,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

コミュニティの検出は、ネットワークの複雑な構成を簡素化するのに役立ちますが、コミュニティは統計的に有意な場合にのみ信頼できます。統計的に重要なコミュニティを検出するために、一般的なアプローチは、元のネットワークをリサンプしてコミュニティを分析することです。しかし、再サンプリングはサンプル間の独立性を想定していますが、ネットワークのコンポーネントは本質的に依存しています。したがって、再サンプリングされたコンポーネント間の依存性を破壊することが、有意性分析の結果にどのように影響するかを理解する必要があります。ここでは、科学的コミュニケーションをモデルシステムとして使用して、この効果を分析します。データセットには、1984年から2010年にジャーナルに掲載された記事の中の引用が含まれています。引用のパラメトリックな再サンプリングとノンパラメトリック記事の再サンプリングを比較します。引用の再サンプリングはリンクの依存関係を破壊しますが、記事の再サンプリングはそのような依存関係を維持します。引用の再サンプリングは、リンクの重みの分散を過小評価していることがわかります。さらに、この過小評価は、ランキングとクラスタリングの重要性分析の違いのほとんどを説明しています。したがって、リンクの重みのみが利用可能であり、記事の再サンプリングがオプションではない場合、記事のリンク重量変異体に近いリンク重量変異を生成する単純なパラメトリック再サンプリングスキームを提案します。それにもかかわらず、科学の重要な構造的変化を強調して要約すると、再サ​​ンプリングスキームで維持できる依存関係が増えるほど、構造の変化を早期に予測できます。

コミュニティの検出は、ネットワークの複雑な構成を簡素化するのに役立ちますが、コミュニティは統計的に有意な場合にのみ信頼できます。統計的に重要なコミュニティを検出するために、一般的なアプローチは、元のネットワークをリサンプしてコミュニティを分析することです。しかし、再サンプリングはサンプル間の独立性を想定していますが、ネットワークのコンポーネントは本質的に依存しています。したがって、再サンプリングされたコンポーネント間の依存性を破壊することが、有意性分析の結果にどのように影響するかを理解する必要があります。ここでは、科学的コミュニケーションをモデルシステムとして使用して、この効果を分析します。データセットには、1984年から2010年にジャーナルに掲載された記事の中の引用が含まれています。引用のパラメトリックな再サンプリングとノンパラメトリック記事の再サンプリングを比較します。引用の再サンプリングはリンクの依存関係を破壊しますが、記事の再サンプリングはそのような依存関係を維持します。引用の再サンプリングは、リンクの重みの分散を過小評価していることがわかります。さらに、この過小評価は、ランキングとクラスタリングの重要性分析の違いのほとんどを説明しています。したがって、リンクの重みのみが利用可能であり、記事の再サンプリングがオプションではない場合、記事のリンク重量変異体に近いリンク重量変異を生成する単純なパラメトリック再サンプリングスキームを提案します。それにもかかわらず、科学の重要な構造的変化を強調して要約すると、再サ​​ンプリングスキームで維持できる依存関係が増えるほど、構造の変化を早期に予測できます。

Community detection helps us simplify the complex configuration of networks, but communities are reliable only if they are statistically significant. To detect statistically significant communities, a common approach is to resample the original network and analyze the communities. But resampling assumes independence between samples, while the components of a network are inherently dependent. Therefore, we must understand how breaking dependencies between resampled components affects the results of the significance analysis. Here we use scientific communication as a model system to analyze this effect. Our dataset includes citations among articles published in journals in the years 1984-2010. We compare parametric resampling of citations with non-parametric article resampling. While citation resampling breaks link dependencies, article resampling maintains such dependencies. We find that citation resampling underestimates the variance of link weights. Moreover, this underestimation explains most of the differences in the significance analysis of ranking and clustering. Therefore, when only link weights are available and article resampling is not an option, we suggest a simple parametric resampling scheme that generates link-weight variances close to the link-weight variances of article resampling. Nevertheless, when we highlight and summarize important structural changes in science, the more dependencies we can maintain in the resampling scheme, the earlier we can predict structural change.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google