新たなシーケンシング技術の発展により、トランスクリプトーム研究は新たな時代に入りました。特に 2008 年から 2012 年にかけて、シーケンシング コストが大幅に低下したことにより、多くの非モデル生物のトランスクリプトームを組み立てて分析することが可能になりました。この変化は、特定の生物における表現型の変異の発見にとどまらず、地球上の生命の多様性と生物学的メカニズムをより深く理解することを可能にします。
「トランスクリプトームアセンブリの最大の利点は、特定の生物学的現象において重要な役割を果たす可能性のある新しいタンパク質とそのアイソフォームを明らかにする可能性があることです。」
トランスクリプトームアセンブリには、de novo アセンブリとリファレンスベースのアセンブリという 2 つの主な方法があります。完全なゲノムがまだ確立されていない非モデル生物の場合、de novo トランスクリプトームアセンブリがより適切な選択であることは明らかです。このアプローチは以前のゲノム配列に依存せず、研究者が未知の遺伝子転写情報を探索することを可能にします。
これまで、トランスクリプトームデータの分析は、主に既存の参照ゲノムとの比較に依存してきました。しかし、このアプローチでは、特に選択的スプライシングが関与している場合、すべての mRNA 構造変異をカバーできない可能性があり、多くの転写変異はゲノムに不連続にマッピングできないため見逃される可能性があります。したがって、参照ゲノムがある場合でも、新しいアセンブリによって参照ゲノムから欠落している転写産物が回復される可能性があるため、de novo アセンブリを実行する必要があります。
トランスクリプトームのカバレッジ深度は遺伝子の発現レベルを直接反映しますが、ゲノムのカバレッジ深度は通常、反復配列の影響を受けます。さらに、トランスクリプトームアセンブリが直面する最大の課題の 1 つは、同じ遺伝子内の異なるトランスクリプトバリアントがエクソンを共有する可能性があり、これにより識別がより複雑になることです。
RNA の抽出と精製後、サンプルはハイスループット シーケンシング施設に送られ、逆転写されて cDNA ライブラリが作成されます。プラットフォームに応じて、これらの cDNA は特定の長さに切断され、454 シーケンシング、イルミナ、SOLiD などのさまざまなテクノロジーを使用して配列決定されます。
転写産物の配列データは、ショートリード転写産物アセンブリプログラムを使用して転写産物に組み立てられます。転写物は類似していてもアミノ酸の変異があるため、これらの変異は異なるタンパク質アイソフォームを反映する可能性があります。このプロセスを実行するために多数のアセンブリ プログラムを使用できますが、トランスクリプトーム アセンブリには多くの固有の課題があります。
「ほとんどのショートリードアセンブラは、オーバーラップグラフとデ・ブリュイングラフという 2 つの基本アルゴリズムに従いますが、デ・ブリュイングラフは計算要件が比較的低いため好まれます。」
組み立てられた転写産物の機能的注釈により、その潜在的な生物学的機能についての詳細な理解が得られます。 Blast2GO などのツールを使用すると、遺伝子オントロジーに基づいて注釈のないシーケンス データをマイニングできます。このプロセスは、転写物が関与する生物学的プロセスとその分子機能を特定するのに役立ちます。
優れた参照ゲノムが利用できることは稀なので、アセンブルされた配列の品質は、生の読み取りと比較して検証する必要があります。短い配列は通常、機能的なタンパク質に効果的に折り畳むことができないため、短い配列のフィルタリングも必要です。
トランスクリプトームを生成するために使用できるアセンブリ ソフトウェアは市場に多数あります。たとえば、SOAPdenovo-Trans や Trinity などのツールには独自の機能があります。これらのプログラムは、転写産物を効率的にアセンブルできるだけでなく、さまざまなスプライシング イベントや遺伝子発現レベルを考慮することもできます。
急速に進化するこの分野では、ゲノムまたはトランスクリプトームのアセンブリ方法の選択は、最終的には研究者のニーズと研究対象となる生物の特性によって決まります。それぞれの方法には長所と短所があります。研究者は自分のニーズに最も適した研究方法を選択しているでしょうか?