A Amostragem Thompson, em homenagem a William R. Thompson, também conhecida como o dilema da tomada de decisão gananciosa, foi proposta pela primeira vez em 1933. Como método de aprendizagem e tomada de decisão online, visa resolver o dilema exploração-exploração em problemas de jogo com vários braços. Essa abordagem desempenha um papel cada vez mais importante no aprendizado de máquina, no big data e na tomada de decisões automatizadas de hoje.
O núcleo da amostragem de Thompson é selecionar ações com base em crenças amostradas aleatoriamente para que as ações selecionadas maximizem as recompensas esperadas. Especificamente, em cada turno, os jogadores recebem um contexto, escolhem uma ação e são posteriormente pagos com base no resultado dessa ação. O objetivo deste processo é maximizar as recompensas acumuladas.
A vantagem da amostragem de Thompson é que ela utiliza distribuições posteriores para expressar confiança em diferentes ações, encontrando assim um equilíbrio entre a exploração de novas ações e a exploração de ações conhecidas.
Desde que a amostragem de Thompson foi proposta pela primeira vez em 1933, diversas equipes de pesquisa independentes redescobriram esse conceito. Em 1997, as propriedades de convergência do "problema do jogo com vários braços" foram demonstradas pela primeira vez. Posteriormente, a aplicação da amostragem de Thompson em Processos de Decisão de Markov foi proposta em 2000, e pesquisas subsequentes descobriram que ela possui propriedades de autocorreção rápidas. Em 2011, foram publicados os resultados da convergência assintótica para bandidos contextuais, comprovando o potencial de aplicação da amostragem de Thompson em diversos problemas de aprendizagem online.
No aprendizado de máquina moderno, a amostragem Thompson tem uma ampla gama de aplicações, desde testes A/B no design de sites até otimização de publicidade on-line e aprendizado acelerado para tomada de decisão descentralizada. Devido à sua capacidade de equilibrar eficazmente as necessidades de exploração e exploração, a amostragem Thompson é particularmente adequada para uso em ambientes em mudança. Por exemplo, na publicidade, as empresas confiam cada vez mais na amostragem de Thompson para garantir a seleção dos melhores anúncios.
À medida que os dados proliferam e as necessidades mudam, a flexibilidade e a eficiência da amostragem Thompson tornam-na indispensável em sistemas de aprendizagem e tomada de decisão on-line.
A correspondência probabilística é uma estratégia de tomada de decisão que faz previsões com base nas taxas básicas da classe. Nesta estratégia, as previsões do modelo para amostras positivas e negativas correspondem às suas proporções no conjunto de treinamento. A amostragem de Thompson também pode ser vista, até certo ponto, como uma extensão da correspondência de probabilidade porque leva em conta as recompensas esperadas de diferentes escolhas.
As regras de controle bayesianas são uma generalização adicional da amostragem de Thompson e permitem a seleção de ações em uma variedade de ambientes dinâmicos. Este método enfatiza a aquisição da estrutura causal durante o processo de aprendizagem e ajuda o agente a encontrar o melhor caminho de decisão no espaço de comportamento.
A amostragem de Thompson e o algoritmo de limite de confiança superior têm características básicas semelhantes. Ambos tendem a fornecer mais exploração para ações potencialmente ótimas. Esta característica permite que os resultados teóricos dos dois sejam deduzidos um do outro, formando assim uma análise de arrependimento mais abrangente.
À medida que a tecnologia de IA avança, a evolução da amostragem Thompson continua. No futuro, esta estratégia poderá ser integrada com outras tecnologias, como a aprendizagem profunda, para melhorar ainda mais as capacidades de tomada de decisão dos sistemas inteligentes. Além disso, com o aprimoramento dos recursos computacionais e a diversificação dos cenários de aplicação prática, a prática específica da amostragem de Thompson continuará a evoluir.
A amostragem Thompson é, sem dúvida, uma ponte importante entre o comportamento de exploração e a tomada de decisão ideal. Então, quais desafios e oportunidades enfrentaremos no futuro aprendizado de máquina?