著名医師による解説が無料で読めます
すると翻訳の精度が向上します
背景:シーケンス類似性検索によって生成されるペアワイズアライメントは、共通の祖先と同様の構造を共有するタンパク質を識別するための強力なツールです。ペアワイズシーケンスアライメントは、3次元座標から推測される構造アライメントを正確に表すことができないことがよくあります。シーケンスアラインメントアルゴリズムは最適なアライメントを生成するため、最適な構造アライメントは、最適ではないシーケンスアライメントスコアを反映する必要があります。したがって、一連の最適なシーケンスアラインメントとスコアリングパラメーターの範囲を調べて、どのシーケンスアライメントがより構造的に正確である可能性が高いかをよりよく理解しました。 結果:Zukerアルゴリズムによって生成された最適に近いタンパク質配列アライメントと、ProBAプログラムによって生成される確率的アライメントのセットを、4つの異なる構造アラインメントアルゴリズムによって生成される構造アライメントと比較しました。構造アラインメントの溶液スペースと、有意なシーケンス類似性(e値<10-5)を共有するシーケンスに一般的に使用されるスコアリングパラメーターとプロバートアライメントのアンサンブルによって生成される最適に近いシーケンスアライメントの両方との間には、有意なオーバーラップがあります。堅牢性、エッジ周波数、およびポジションあたりの最大ビットのセットから派生した3つの入力変数を組み込んだロジスティック回帰モデルを構築しました。ROC分析では、このモデルは、堅牢性スコアだけよりも、構造アライメントの外観の可能性に応じて、アミノ酸ペア(アライメントパスグラフのエッジ)をより正確に分類することを示しています。最適なシーケンスアライメントから誤ったエッジを削除するためのさまざまなトリミングプロトコルを調査しました。最も効果的なプロトコルは、モデルで生成された確率に従ってトリミングすると、同様のレベルの改善を達成しますが、ローカルアライメントの境界の外側にある半グロバル最適アライメントから一致を削除することです。このモデルは、スコアリングマトリックスの代わりに確率を使用して、新しいアライメントを生成するためにも使用できます。これらのアライメントは通常、最適なシーケンスアラインメントよりも優れており、新しい正しい構造エッジが含まれます。Probaアラインメントは、Zukerセットよりも多様なアライメントをサンプリングし、より頻繁に構造アライメントに近いアライメントをもたらすことがわかりますが、Probaアラインメントを回帰モデルへの入力として使用してもパフォーマンスは向上しません。 結論:準最適なペアワイズタンパク質配列のプールは、統計的に有意な類似性を備えたペアの構造ベースのアライメントと、このアラインメントプールに含まれる情報に基づく回帰モデルを、構造ベースのアライメントに関するペアワイズアライメントの精度を改善します。
背景:シーケンス類似性検索によって生成されるペアワイズアライメントは、共通の祖先と同様の構造を共有するタンパク質を識別するための強力なツールです。ペアワイズシーケンスアライメントは、3次元座標から推測される構造アライメントを正確に表すことができないことがよくあります。シーケンスアラインメントアルゴリズムは最適なアライメントを生成するため、最適な構造アライメントは、最適ではないシーケンスアライメントスコアを反映する必要があります。したがって、一連の最適なシーケンスアラインメントとスコアリングパラメーターの範囲を調べて、どのシーケンスアライメントがより構造的に正確である可能性が高いかをよりよく理解しました。 結果:Zukerアルゴリズムによって生成された最適に近いタンパク質配列アライメントと、ProBAプログラムによって生成される確率的アライメントのセットを、4つの異なる構造アラインメントアルゴリズムによって生成される構造アライメントと比較しました。構造アラインメントの溶液スペースと、有意なシーケンス類似性(e値<10-5)を共有するシーケンスに一般的に使用されるスコアリングパラメーターとプロバートアライメントのアンサンブルによって生成される最適に近いシーケンスアライメントの両方との間には、有意なオーバーラップがあります。堅牢性、エッジ周波数、およびポジションあたりの最大ビットのセットから派生した3つの入力変数を組み込んだロジスティック回帰モデルを構築しました。ROC分析では、このモデルは、堅牢性スコアだけよりも、構造アライメントの外観の可能性に応じて、アミノ酸ペア(アライメントパスグラフのエッジ)をより正確に分類することを示しています。最適なシーケンスアライメントから誤ったエッジを削除するためのさまざまなトリミングプロトコルを調査しました。最も効果的なプロトコルは、モデルで生成された確率に従ってトリミングすると、同様のレベルの改善を達成しますが、ローカルアライメントの境界の外側にある半グロバル最適アライメントから一致を削除することです。このモデルは、スコアリングマトリックスの代わりに確率を使用して、新しいアライメントを生成するためにも使用できます。これらのアライメントは通常、最適なシーケンスアラインメントよりも優れており、新しい正しい構造エッジが含まれます。Probaアラインメントは、Zukerセットよりも多様なアライメントをサンプリングし、より頻繁に構造アライメントに近いアライメントをもたらすことがわかりますが、Probaアラインメントを回帰モデルへの入力として使用してもパフォーマンスは向上しません。 結論:準最適なペアワイズタンパク質配列のプールは、統計的に有意な類似性を備えたペアの構造ベースのアライメントと、このアラインメントプールに含まれる情報に基づく回帰モデルを、構造ベースのアライメントに関するペアワイズアライメントの精度を改善します。
BACKGROUND: While the pairwise alignments produced by sequence similarity searches are a powerful tool for identifying homologous proteins - proteins that share a common ancestor and a similar structure; pairwise sequence alignments often fail to represent accurately the structural alignments inferred from three-dimensional coordinates. Since sequence alignment algorithms produce optimal alignments, the best structural alignments must reflect suboptimal sequence alignment scores. Thus, we have examined a range of suboptimal sequence alignments and a range of scoring parameters to understand better which sequence alignments are likely to be more structurally accurate. RESULTS: We compared near-optimal protein sequence alignments produced by the Zuker algorithm and a set of probabilistic alignments produced by the probA program with structural alignments produced by four different structure alignment algorithms. There is significant overlap between the solution spaces of structural alignments and both the near-optimal sequence alignments produced by commonly used scoring parameters for sequences that share significant sequence similarity (E-values < 10-5) and the ensemble of probA alignments. We constructed a logistic regression model incorporating three input variables derived from sets of near-optimal alignments: robustness, edge frequency, and maximum bits-per-position. A ROC analysis shows that this model more accurately classifies amino acid pairs (edges in the alignment path graph) according to the likelihood of appearance in structural alignments than the robustness score alone. We investigated various trimming protocols for removing incorrect edges from the optimal sequence alignment; the most effective protocol is to remove matches from the semi-global optimal alignment that are outside the boundaries of the local alignment, although trimming according to the model-generated probabilities achieves a similar level of improvement. The model can also be used to generate novel alignments by using the probabilities in lieu of a scoring matrix. These alignments are typically better than the optimal sequence alignment, and include novel correct structural edges. We find that the probA alignments sample a larger variety of alignments than the Zuker set, which more frequently results in alignments that are closer to the structural alignments, but that using the probA alignments as input to the regression model does not increase performance. CONCLUSIONS: The pool of suboptimal pairwise protein sequence alignments substantially overlaps structure-based alignments for pairs with statistically significant similarity, and a regression model based on information contained in this alignment pool improves the accuracy of pairwise alignments with respect to structure-based alignments.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。