Loading...
BMC research notes2014Nov18Vol.7issue()

DIVA:タンパク質配列アラインメントの非相対的および非常に多様な領域の検出

,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

背景:シーケンスアラインメントは、相同性の証拠を見つけるために使用されますが、後続の分析の品質を妨げる可能性のある整列が困難な領域が含まれる場合があります。問題のある領域を手動で除去することは可能ですが、これは大規模なゲノムスケールの研究では非実践的であり、結果は主観性から生じる加工性に苦しんでいます。いくつかの自動アライメントトリミング方法は、アライメントの問題のある領域を除去するために開発されていますが、これらは主にMSAから完全な列または完全なシーケンスを削除し、多くの有益なサイトを破棄することで作用します。 調査結果:ここでは、タンパク質シーケンスアライメント(DIVA)で発散したウィンドウを識別するツールを提示します。DIVAは進化モデルについて仮定を立てず、個々の遺伝子シーケンス内の誤って注釈付きセグメントを検出するのに理想的です。DIVAは、スライディングウィンドウのアプローチで動作し、4つの発散ベースのパラメーターとその外れ値の値を推定します。次に、計算する4つのパラメーターの外れ値の値の組み合わせを提示する場合、一連のアライメントの窓の窓を非常に多様な(潜在的に非相対的)として分類します。非常に多様なものとして分類されたウィンドウは、オプションでアライメントにマスクされる可能性があります。 結論:DIVAは、MSAで非常に多様な発散性と誤って注釈付きのジェニック領域を自動的に識別し、手動注釈の主観的で時間のかかる問題を回避します。出力は、解釈することが明確であり、ユーザーは廃棄されたが潜在的に誤った非互いの領域を見つけるシーケンスの量を減らすために、より多くの情報に基づいた決定を下すことができます。

背景:シーケンスアラインメントは、相同性の証拠を見つけるために使用されますが、後続の分析の品質を妨げる可能性のある整列が困難な領域が含まれる場合があります。問題のある領域を手動で除去することは可能ですが、これは大規模なゲノムスケールの研究では非実践的であり、結果は主観性から生じる加工性に苦しんでいます。いくつかの自動アライメントトリミング方法は、アライメントの問題のある領域を除去するために開発されていますが、これらは主にMSAから完全な列または完全なシーケンスを削除し、多くの有益なサイトを破棄することで作用します。 調査結果:ここでは、タンパク質シーケンスアライメント(DIVA)で発散したウィンドウを識別するツールを提示します。DIVAは進化モデルについて仮定を立てず、個々の遺伝子シーケンス内の誤って注釈付きセグメントを検出するのに理想的です。DIVAは、スライディングウィンドウのアプローチで動作し、4つの発散ベースのパラメーターとその外れ値の値を推定します。次に、計算する4つのパラメーターの外れ値の値の組み合わせを提示する場合、一連のアライメントの窓の窓を非常に多様な(潜在的に非相対的)として分類します。非常に多様なものとして分類されたウィンドウは、オプションでアライメントにマスクされる可能性があります。 結論:DIVAは、MSAで非常に多様な発散性と誤って注釈付きのジェニック領域を自動的に識別し、手動注釈の主観的で時間のかかる問題を回避します。出力は、解釈することが明確であり、ユーザーは廃棄されたが潜在的に誤った非互いの領域を見つけるシーケンスの量を減らすために、より多くの情報に基づいた決定を下すことができます。

BACKGROUND: Sequence alignments are used to find evidence of homology but sometimes contain regions that are difficult to align which can interfere with the quality of the subsequent analyses. Although it is possible to remove problematic regions manually, this is non-practical in large genome scale studies, and the results suffer from irreproducibility arising from subjectivity. Some automated alignment trimming methods have been developed to remove problematic regions in alignments but these mostly act by removing complete columns or complete sequences from the MSA, discarding a lot of informative sites. FINDINGS: Here we present a tool that identifies Divergent windows in protein sequence Alignments (DivA). DivA makes no assumptions on evolutionary models, and it is ideal for detecting incorrectly annotated segments within individual gene sequences. DivA works with a sliding-window approach to estimate four divergence-based parameters and their outlier values. It then classifies a window of a sequence of an alignment as very divergent (potentially non-homologous) if it presents a combination of outlier values for the four parameters it calculates. The windows classified as very divergent can optionally be masked in the alignment. CONCLUSIONS: DivA automatically identifies very divergent and incorrectly annotated genic regions in MSAs avoiding the subjective and time-consuming problem of manual annotation. The output is clear to interpret and allows the user to take more informed decisions for reducing the amount of sequence discarded but still finding the potentially erroneous and non-homologous regions.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google