No campo da pesquisa biomédica, como analisar e interpretar efetivamente dados de alta dimensão é um grande desafio. Com o avanço da genômica, os cientistas contam cada vez mais com a ferramenta WGCNA (análise de rede de coexpressão gênica ponderada) para revelar as relações complexas entre os genes. Este artigo explorará o papel do WGCNA, uma tecnologia importante para melhorar a precisão da análise de dados biológicos por meio de redes de coexpressão genética.
O WGCNA é amplamente utilizado para analisar dados de expressão genética, especialmente em aplicações genômicas, como construção de módulos, seleção de genes centrais e estatísticas de retenção de módulos.
O WGCNA começou com o professor de genética humana da UCLA, Steve Horvath, e vários colegas da escola. Essa abordagem foi inicialmente inspirada por colaborações com pesquisadores de câncer, particularmente discussões com Paul Mischel, Stanley F. Nelson e o neurocientista Daniel H. Geschwind.
Comparadas com as redes tradicionais não ponderadas, as redes ponderadas têm vantagens em muitos aspectos. O WGCNA atraiu a atenção de pesquisadores em parte porque pode preservar a continuidade das informações relacionadas subjacentes quando a rede é construída. Isso significa que, ao não exigir um limite rígido, as redes ponderadas podem reduzir a perda de informações de uma forma que as redes não ponderadas não conseguem.
A rede ponderada é mais robusta e insensível a diferentes escolhas de limite suave, enquanto os resultados da rede não ponderada são frequentemente muito dependentes da escolha do limite.
O primeiro passo na realização da análise WGCNA é definir a métrica de similaridade de coexpressão genética para construir a rede. De acordo com a similaridade dos dados de expressão genética, os genes podem ser divididos em diferentes módulos. Cada módulo usa o módulo eigengene como resumo do módulo, que é o resultado obtido pela análise de componentes principais.
Os genes de características do módulo não só podem servir como biomarcadores estáveis, mas também podem ser usados como características em modelos complexos de aprendizado de máquina para previsões futuras.
O WGCNA demonstrou sua flexibilidade em vários campos de pesquisa e atraiu atenção especial em neurociência e pesquisa sobre câncer. Por exemplo, o WGCNA pode ser usado para revelar fatores de transcrição associados a produtos químicos ambientais, como o bisfenol A. Na análise de dados genômicos, ele pode ser usado para processar vários tipos de dados de microarrays, sequenciamento de RNA de célula única, metilação de DNA, etc.
As várias funções do WGCNA foram integradas ao pacote de software WGCNA da linguagem R. Os pesquisadores podem usar este pacote para executar a construção de módulos, seleção central de genes, estatísticas de preservação de módulos e outras análises de rede. Isso não apenas facilita a compreensão profunda dos dados pelos pesquisadores, mas também melhora sua capacidade de fazer descobertas científicas.
À medida que a genômica e a ciência de dados continuam a avançar, o WGCNA sem dúvida se tornará uma ferramenta indispensável para nos ajudar a descobrir os profundos mistérios dos dados biológicos.
Os cientistas fizeram progressos significativos na exploração do WGCNA, mas como isso afetará nossa compreensão da biologia no futuro?