Loading...
Genome research2003Jun01Vol.13issue(6B)

フルレングスcDNA配列でのCDSアノテーション

,
,
,
,
,
,
,
,
文献タイプ:
  • Comparative Study
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

コーディングシーケンス(CD)の識別は、遺伝子の機能的注釈における重要なステップです。ゲノム配列からの哺乳類遺伝子のCDS予測は、ゲノムにおける遺伝子間配列の膨大な量によって複雑になり、潜在的なCDS領域のさまざまな部分がどのように発現するかについての情報をほとんど提供しません。対照的に、cDNA配列からの哺乳類の遺伝子CDS予測は明らかな利点を提供しますが、Fantom2のフルレングス濃縮ライブラリから分離された60,770 cDNAのセットなど、ハイスループットcDNA(HTC)シーケンスで実行されると、異なる複雑さのセットに遭遇します。計画。Fantom2CDNAのCDS領域に注釈を付けるために、さまざまな異なるCDS予測プログラムを使用するCDSアノテーション戦略を開発しました。これらには、既知のタンパク質とシーケンスの類似性を使用するRSCDが含まれます。刑務所;AB initioベースの予測因子である最も長いORFおよび切り捨てられたORF。そして最後に、両方の原則の組み合わせを使用するデコーダーとNCBI CDS予測子。これらのCDS予測のグラフィカルディスプレイによって支援された結果、各cDNAの他のシーケンス類似性結果、キュレーターによるFantom2 CDS検査、およびフォローアップ品質管理手順のコンテキストが得られ、合計14,345のFantom2クローンの高品質のCDS予測が行われました。

コーディングシーケンス(CD)の識別は、遺伝子の機能的注釈における重要なステップです。ゲノム配列からの哺乳類遺伝子のCDS予測は、ゲノムにおける遺伝子間配列の膨大な量によって複雑になり、潜在的なCDS領域のさまざまな部分がどのように発現するかについての情報をほとんど提供しません。対照的に、cDNA配列からの哺乳類の遺伝子CDS予測は明らかな利点を提供しますが、Fantom2のフルレングス濃縮ライブラリから分離された60,770 cDNAのセットなど、ハイスループットcDNA(HTC)シーケンスで実行されると、異なる複雑さのセットに遭遇します。計画。Fantom2CDNAのCDS領域に注釈を付けるために、さまざまな異なるCDS予測プログラムを使用するCDSアノテーション戦略を開発しました。これらには、既知のタンパク質とシーケンスの類似性を使用するRSCDが含まれます。刑務所;AB initioベースの予測因子である最も長いORFおよび切り捨てられたORF。そして最後に、両方の原則の組み合わせを使用するデコーダーとNCBI CDS予測子。これらのCDS予測のグラフィカルディスプレイによって支援された結果、各cDNAの他のシーケンス類似性結果、キュレーターによるFantom2 CDS検査、およびフォローアップ品質管理手順のコンテキストが得られ、合計14,345のFantom2クローンの高品質のCDS予測が行われました。

The identification of coding sequences (CDS) is an important step in the functional annotation of genes. CDS prediction for mammalian genes from genomic sequence is complicated by the vast abundance of intergenic sequence in the genome, and provides little information about how different parts of potential CDS regions are expressed. In contrast, mammalian gene CDS prediction from cDNA sequence offers obvious advantages, yet encounters a different set of complexities when performed on high-throughput cDNA (HTC) sequences, such as the set of 60,770 cDNAs isolated from full-length enriched libraries of the FANTOM2 project. We developed a CDS annotation strategy that uses a variety of different CDS prediction programs to annotate the CDS regions of FANTOM2 cDNAs. These include rsCDS, which uses sequence similarity to known proteins; ProCrest; Longest-ORF and Truncated-ORF, which are ab initio based predictors; and finally, DECODER and NCBI CDS predictor, which use a combination of both principles. Aided by graphical displays of these CDS prediction results in the context of other sequence similarity results for each cDNA, FANTOM2 CDS inspection by curators and follow-up quality control procedures resulted in high quality CDS predictions for a total of 14,345 FANTOM2 clones.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google