がん研究の分野では、腫瘍サンプルの異質性がデータ分析に多くの課題をもたらします。ゲノミクスの急速な発展に伴い、研究者は腫瘍サンプルの構成をより深く理解し、予測の精度を向上させるために、新しい統計手法を採用し始めています。その中で、統計的手法 DeMix が誕生し、がんのトランスクリプトームのデコンボリューションの重要なツールとなりました。
DeMix は、サンプル内の腫瘍細胞と間質細胞の比率を予測し、線形混合モデルを使用して腫瘍サンプルのデータの異質性に対処する統計手法です。
固形腫瘍サンプルは多くの場合、臨床診療から得られ、複数のクローン腫瘍細胞集団、および隣接する正常組織、間質、浸潤免疫細胞で構成されています。この複雑な構造により、多くのゲノミクスデータの解析が困難になり、偏りが生じやすくなります。したがって、分析の前に、腫瘍の純度、つまり腫瘍サンプル中の癌細胞の割合を正確に推定することが非常に重要です。
がん細胞は正常細胞とは大きく異なるため、研究者はハイスループットのゲノムまたはエピゲノムデータを使用して腫瘍の純度を推定できます。 DeMixは、混合サンプルから癌細胞の遺伝子発現の比率とその発現プロファイルを抽出することを目的とした手法です。
DeMix では、混合サンプルが癌細胞 (遺伝子発現プロファイルが不明) と正常細胞 (遺伝子発現データが既知の) の 2 種類の細胞のみで構成されていると想定しています。
DeMix のコア操作は線形混合モデルに基づいており、データをモデル化することで混合サンプル内の 2 種類の細胞の遺伝子発現を捉えます。この方法の革新的な点は、データが対数変換される前に異種データを分析することで、がん細胞における遺伝子発現と割合をより効果的に予測できることです。
具体的には、DeMixのワークフローは2つの主なステップに分けられます。最初のステップは、観測データに基づいて尤度関数を最大化し、未知の腫瘍の割合と正常細胞の遺伝子発現パラメータを解決することです。2番目のステップは、観測データに基づいて尤度関数を最大化して、未知の腫瘍の割合と正常細胞の遺伝子発現パラメータを解決します。次のステップは、腫瘍に基づいて各サンプルと遺伝子の正常細胞と腫瘍細胞のペアの発現レベルを推定することです。最初のステップで得られた比率。
この方法の開発は、結合密度の数値積分によって必要な計算精度を達成できる Nelder-Mead 最適化手順に基づいています。
DeMix メソッドは、参照遺伝子と一致するサンプルでも、参照遺伝子のない一致しないサンプルでも、さまざまなデータ シナリオに合わせて調整されます。この柔軟性により、DeMix はさまざまな研究環境でその役割を果たすことができます。
すべてのケースで少なくとも 1 つの参照遺伝子が必要ですが、外れ値の影響を減らし、腫瘍割合の推定値の最適なセットを特定するために、5 ~ 10 個の遺伝子が推奨されます。DeMix は、混合サンプルに正常細胞と腫瘍細胞の 2 つの細胞成分が含まれていると想定し、利用可能なデータに基づいて正常細胞の分布パラメータを推定します。
データ分析技術が進歩するにつれ、DeMix などの手法ががん研究でより広く利用されるようになるでしょう。これは、研究者が腫瘍の異質性の背後にある秘密を解明するのに役立つだけでなく、新たな治療の選択肢を生み出し、がん患者に大きな希望をもたらす可能性もあります。
このようなデータ主導の時代において、私たちは次のことを考える必要があります。将来のがん研究において、生物学的参照遺伝子をどのように活用すれば臨床治療の有効性と精度を向上できるでしょうか。