No mundo da ciência de dados, há um fluxo infinito de técnicas de análise de dados, e uma ferramenta que está ganhando cada vez mais atenção é a Partial Least Squares (PLS). Essa técnica não só pode revelar correlações entre dados, mas também lidar com desafios como mais variáveis do que observações e multicolinearidade. Diferente dos métodos de regressão tradicionais, o PLS busca relacionamentos ocultos mapeando variáveis preditoras e variáveis dependentes em um novo espaço.
Mínimos quadrados parciais é um método estatístico particularmente adequado para resolver problemas complexos em dados.
A ideia por trás do PLS é encontrar a relação subjacente entre duas matrizes, a matriz de variável independente X e a matriz de variável dependente Y. Por exemplo, em quimiometria, essa técnica é amplamente utilizada para analisar dados químicos para estabelecer correlações entre as características dos compostos químicos e suas propriedades. Ao mapear esses dados em novas dimensões, o PLS pode melhorar o poder preditivo dos modelos de regressão e revelar estruturas ocultas nos dados.
O PLS não só pode manipular dados altamente correlacionados, mas também melhorar o desempenho do modelo ao encontrar a covariância máxima.
O desenvolvimento desta técnica pode ser rastreado até o estatístico sueco Herman O. A. Wold, que, junto com seu filho Svante Wold, desenvolveu ainda mais o PLS. Embora suas aplicações iniciais estivessem concentradas principalmente no campo das ciências sociais, seu escopo de aplicação agora se expandiu para muitos campos, como bioinformática, neurociência, metrologia sensorial, etc.
O princípio de funcionamento do PLS envolve encontrar a direção na matriz da variável independente que maximiza a variação da matriz da variável dependente. Nesse processo, o PLS buscará iterativamente a melhor direção de projeção e, finalmente, formará um modelo de previsão. Quando mais variáveis são incluídas, esse método pode efetivamente reduzir a dimensão e descobrir relacionamentos ocultos nos dados.
O método dos mínimos quadrados parciais revela não apenas a correlação superficial dos dados, mas também a estrutura profunda por trás dela.
Em muitas aplicações, o PLS é usado para prever resultados desconhecidos, como previsão de comportamento do consumidor, estudos de associação entre genes e doenças, etc. Nesses casos, o PLS otimiza seu desempenho preditivo analisando e maximizando a covariância entre dados relacionados.
Com o avanço da ciência de dados e da tecnologia da computação, o PLS também passou por muitas expansões, como a introdução de novos métodos como OPLS (Orthogonal Projection to Latent Structure) e L-PLS. Essas tecnologias são muito úteis na análise de relacionamentos de dados e na melhoria interpretabilidade do modelo. Ele demonstrou maior potencial.
Embora essas novas técnicas sejam projetadas para melhorar a interpretabilidade, seu objetivo final é melhorar a precisão preditiva do modelo.
Na era atual do big data, a vantagem do PLS está em sua capacidade de processar com eficiência dados de alta dimensão, analisar relacionamentos complexos, como marcadores genéticos e recursos de imagem, e encontrar aplicações em vários campos científicos. Por meio dessa tecnologia, os pesquisadores podem encontrar insights e padrões valiosos em grandes quantidades de dados.
À medida que a tecnologia avança e suas aplicações se expandem, o PLS continuará a desempenhar um papel importante em pesquisas e decisões comerciais futuras. Diante dos próximos desafios de dados, devemos pensar em quais relacionamentos potenciais ainda não foram revelados?