En statistique, l'estimation du maximum de vraisemblance (EMV) est une méthode permettant d'estimer les paramètres d'une distribution de probabilité hypothétique à partir de données observées. Cette méthode maximise une fonction de vraisemblance pour garantir que la vraisemblance des données observées est maximisée dans le cadre du modèle statistique supposé. Le point dans l’espace des paramètres où la fonction de vraisemblance atteint sa valeur maximale est l’estimation de vraisemblance maximale. Cette logique n’est pas seulement intuitive mais également flexible, et est donc devenue un moyen courant d’inférence statistique.
L'estimation du maximum de vraisemblance ne rend plus les données silencieuses, mais réveille les informations cachées dans les données grâce à l'ajustement des paramètres.
Le principe de base de l’estimation du maximum de vraisemblance est de considérer un ensemble d’observations comme des échantillons aléatoires provenant d’une distribution de probabilité conjointe inconnue. L’objectif est de déterminer les valeurs des paramètres qui donnent la probabilité conjointe la plus élevée d’observer les données.
Nous représentons les paramètres contrôlant l'allocation conjointe sous la forme d'un vecteur θ = [θ1, θ2, ..., θk ] de sorte qu'il tombe dans une famille de paramètres {f(⋅; θ) | θ ∈ Θ}, où Θ est l'espace des paramètres, un sous-ensemble de dimension finie de l'espace euclidien.
Lorsque nous évaluons la densité articulaire y = (y1, y2, ..., yn) sur les données observées échantillon Lorsque , nous pouvons obtenir une fonction à valeur réelle, qui est appelée fonction de vraisemblance Ln(θ) = Ln(θ; y). Pour les variables aléatoires indépendantes et identiquement distribuées, la fonction de vraisemblance est le produit des fonctions de densité univariées.
L’objectif de l’estimation du maximum de vraisemblance est de trouver la valeur du paramètre qui minimise la fonction de vraisemblance dans l’espace des paramètres.
Ce processus peut être compris intuitivement. La clé de l'estimation du maximum de vraisemblance est de sélectionner des valeurs de paramètres qui rendent les données observées les plus susceptibles de se produire. D'un point de vue informatique, une approche courante consiste à utiliser le logarithme naturel de la fonction de vraisemblance, appelé log-vraisemblance.
En calculant ce qu’on appelle la fonction de vraisemblance, nous pouvons trouver la valeur maximale possible. Pour certains modèles, ces équations peuvent être résolues explicitement, mais en général, il n'existe pas de solution sous forme fermée, il faut donc s'appuyer sur l'optimisation numérique pour trouver l'estimation du maximum de vraisemblance.
En analyse de données, MLE n’est pas seulement une formule mathématique, mais un art de laisser parler les données.
Outre l’optimisation numérique, il est également important de noter que pour les échantillons finis, il peut y avoir plusieurs solutions. Que la solution que nous avons identifiée soit effectivement un maximum (local) dépend de la matrice des dérivées du second ordre, appelée matrice hessienne.
En général, l'estimation de vraisemblance maximale peut également correspondre à l'inférence bayésienne. Dans le cadre d'une distribution a priori uniforme, l'estimation de vraisemblance maximale peut approximer l'estimation a posteriori maximale (MAP). Ceci est particulièrement important lors de la réalisation d’inférences statistiques et de la construction de modèles.
La magie de l’estimation du maximum de vraisemblance réside dans sa capacité non seulement à caractériser les données elles-mêmes, mais également à fournir une base significative pour la prise de décision. Ainsi, que ce soit en économie, en médecine ou dans d’autres domaines de recherche scientifique, la MLE occupe une place indispensable.
Enfin, nous devons réfléchir au fait que le pouvoir des données réside dans le processus de compréhension de celles-ci. Avons-nous pleinement exploité les données pour expliquer les histoires qui se cachent derrière ?