No campo da pesquisa do câncer, a heterogeneidade das amostras de tumores representa muitos desafios para a análise de dados. Com o rápido desenvolvimento da genômica, os pesquisadores começaram a adotar novos métodos estatísticos para obter uma compreensão mais profunda da composição das amostras de tumores e melhorar a precisão das previsões. Entre eles, o método estatístico DeMix surgiu e se tornou uma ferramenta importante para a desconvolução do transcriptoma do câncer.
DeMix é um método estatístico que prevê a proporção provável de células tumorais e estromais em uma amostra e usa um modelo linear misto para combater a heterogeneidade de dados em amostras de tumores.
Amostras de tumores sólidos são frequentemente derivadas da prática clínica e são compostas de múltiplas populações de células tumorais clonais, bem como tecido normal adjacente, estroma e células imunes infiltrantes. Essa estrutura complexa torna muitas análises de dados genômicos difíceis e repletas de vieses. Portanto, antes da análise, é extremamente importante estimar com precisão a pureza do tumor, ou seja, a porcentagem de células cancerígenas na amostra do tumor.
Como as células cancerígenas podem diferir significativamente das células normais, os pesquisadores podem estimar a pureza de um tumor usando dados genômicos ou epigenômicos de alto rendimento. DeMix é um método que visa extrair a proporção da expressão gênica de células cancerígenas e seu perfil de expressão de amostras mistas.
DeMix assume que a amostra mista consiste em apenas dois tipos de células: células cancerígenas (sem perfil de expressão genética conhecido) e células normais (com dados de expressão genética conhecidos).
A operação principal do DeMix é baseada em modelos mistos lineares, que capturam a expressão genética de dois tipos de células em uma amostra mista por meio da modelagem dos dados. A inovação desse método é que ele analisa dados heterogêneos antes que eles sejam transformados em logaritmo, o que pode prever com mais eficácia a expressão genética e as proporções em células cancerígenas.
Especificamente, o fluxo de trabalho do DeMix pode ser dividido em duas etapas principais: a primeira etapa é maximizar a função de verossimilhança com base nos dados observados para resolver as proporções tumorais desconhecidas e os parâmetros de expressão genética das células normais; a segunda etapa é maximizar a função de verossimilhança com base nos dados observados para resolver as proporções tumorais desconhecidas e os parâmetros de expressão genética de células normais; O próximo passo é estimar o nível de expressão de um par de células normais e células tumorais para cada amostra e gene com base no tumor razão obtida na primeira etapa.
O desenvolvimento deste método é baseado no procedimento de otimização de Nelder-Mead, que permite a integração numérica da densidade da junta para atingir a precisão computacional necessária.
O método DeMix é ajustado para uma variedade de cenários de dados, sejam amostras correspondentes com genes de referência ou amostras não correspondentes sem genes de referência. Essa flexibilidade permite que o DeMix desempenhe seu papel em uma variedade de ambientes de pesquisa.
Embora pelo menos um gene de referência seja necessário em todos os casos, cinco a dez genes são recomendados para reduzir o impacto de valores discrepantes e identificar um conjunto ideal de estimativas de proporção de tumor.DeMix assume que a amostra mista contém no máximo dois componentes celulares: células normais e células tumorais, e se baseia nos dados disponíveis para estimar os parâmetros de distribuição das células normais.
À medida que a tecnologia de análise de dados continua a avançar, métodos como o DeMix serão mais amplamente utilizados na pesquisa do câncer. Isso não só ajudará os pesquisadores a desvendar os segredos por trás da heterogeneidade do tumor, mas também pode dar origem a novas opções de tratamento, trazendo mais esperança aos pacientes com câncer.
Em uma era tão orientada por dados, precisamos pensar: na pesquisa futura sobre o câncer, como podemos usar melhor os genes de referência biológica para melhorar a eficácia e a precisão do tratamento clínico?