IIncertitudes et Mesures
Petit guide pédagogiqueR. Legrand15 juillet 2020 a r X i v : . [ s t a t . O T ] J u l able des matières y . . . . . . . . . . . . . . . . 312.1.3 Incertitudes suivant y . . . . . . . . . . . . . . . . . . . . . . 312.2 Paramètres influençant les intervalles de confiance des coefficients a et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.2.1 Estimateur de a . . . . . . . . . . . . . . . . . . . . . . . . . 331.2.2 Estimateur de b . . . . . . . . . . . . . . . . . . . . . . . . . 342.3 Valeurs aberrantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.3.1 Sensibilité aux données . . . . . . . . . . . . . . . . . . . . . 342.4 Limites de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . 352.4.1 Loi initiale non linéaire . . . . . . . . . . . . . . . . . . . . . 362.4.2 Présence d’incertitudes suivant x et y . . . . . . . . . . . . . 362.4.3 Incertitudes corrélées et changement de variable . . . . . . . 362.5 Conditions d’applications de la méthode des moindres carrés . . . . 392.6 Méthode de régression lorsque l’incertitude sur les données est inconnue 392.6.1 Estimateur de l’incertitude σ (cid:15) . . . . . . . . . . . . . . . . . 392.6.2 Intervalle de confiance pour a et b . . . . . . . . . . . . . . . 392.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 a priori . . . . . . . . . . . . . . . . . . 523.3.1 Positionnement du problème . . . . . . . . . . . . . . . . . . 523.3.2 Fonction de vraisemblance . . . . . . . . . . . . . . . . . . . 523.3.3 Choix du prior . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.4 Tracé de la probabilité a prosteriori . . . . . . . . . . . . . . 533.3.5 Code Python . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 α laplus crédible . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.3 Module EMCEE pour Python . . . . . . . . . . . . . . . . . . . . . 664.3.1 Retour sur le problème de la position du phare . . . . . . . . 664.4 Régression et élimination des données aberrantes . . . . . . . . . . 674.4.1 Positionnement du problème . . . . . . . . . . . . . . . . . . 684.4.2 Construction du modèle . . . . . . . . . . . . . . . . . . . . 684.4.3 Paramètres de nuisance . . . . . . . . . . . . . . . . . . . . . 714.4.4 algorithme EMCEE . . . . . . . . . . . . . . . . . . . . . . . 714.4.5 Élimination des données aberrantes . . . . . . . . . . . . . . 714.5 Quelques mots pour conclure . . . . . . . . . . . . . . . . . . . . . . 743 able des figures n tirages issus de pro-cessus aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.7 Évolution de l’écart type d’une moyenne de n tirages corrélés . . . . 211.8 Écart type de la moyenne de n tirages non corrélés issus de processusaléatoire suivant une loi de Cauchy . . . . . . . . . . . . . . . . . . 221.9 Dispositifs expérimentales pour mise en évidence du théorème de lalimite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.10 Coefficients de Student donnés pour différents intervalles de confiance1 − α et un nombre de degré de liberté k . Pour un calcul de valeurmoyenne k = N −
1, avec N le nombre de points à disposition. Ladernière ligne correspond à un nombre infini de points de mesure etdonc au cas d’une loi normale continue. . . . . . . . . . . . . . . . . 262.1 Exemple d’ajustement linéaire . . . . . . . . . . . . . . . . . . . . . 312.2 Distribution statistique d’un coefficient déterminé par régressionlinéaire : incertitudes constantes . . . . . . . . . . . . . . . . . . . . 322.3 Distribution statistique d’un coefficient déterminé par régressionlinéaire : incertitudes non constantes . . . . . . . . . . . . . . . . . 332.4 Distribution statistique d’un coefficient déterminé par régressionlinéaire : influence d’une valeur aberrante . . . . . . . . . . . . . . . 352.5 Distribution statistique d’un coefficient déterminé par régressionlinéaire : influence du non respect des conditions d’application . . . 383.1 Données brutes de l’activité d’un échantillon radioactif . . . . . . . 473.2 Inférence bayésienne : activité d’un échantillon radioactif . . . . . . 493.3 Inférence bayésienne : détermination de deux paramètres . . . . . . 514.4 Influence du nombre de mesures et du prior sur le résultat final . . 554.1 Distribution exponentielle : modélisation d’un risque aléatoire depanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2 Illustration de la géométrie du problème de la détermination de laposition d’un phare . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3 Distribution de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Probabilité postérieure de la position α du phare . . . . . . . . . . 644.5 Probabilité postérieure des coordonnées α et β du phare . . . . . . 654.6 Probabilité postérieure déterminée au moyen de l’algorithme EMCEE 674.7 Données issues d’un tirage aléatoire : influence des données aber-rantes sur la régression linéaire . . . . . . . . . . . . . . . . . . . . 694.8 Inférence des coefficients a et b ajustement d’un modèle affine . . . 724.9 Ajustement d’un modèle affine par inférence bayésienne . . . . . . . 735 ntroduction Ce document est initialement à destination des enseignants de BTS en mesuresindustrielles et a été rédigé en vu de préparer la réforme du BTS Métiers de lamesure. Il propose une initiation à l’évaluation des incertitudes expérimentalesen sciences. La première partie consiste en une revue des notions classiquementabordées en classes de lycée et post-bac. Les autres parties seront centrées surdes études de cas. Les méthodes par inférences sont au centre des techniques etméthodes proposées dans ce cours.J’ai choisi de ne pas développer l’aspect "mesure" pour me concentrer rapidementsur les implications d’une incertitude statistique relative à cette mesure. Avec grandemodestie, je souhaite mettre à plat le fait que l’ensemble des usages associés auxopérations de mesure relève souvent du réflex et ces usages sont "transmis" auxélèves et étudiants avec la même intensité dogmatique que lorsque nous étionsnous même étudiants. Nous sommes nous arrêté pour comprendre pourquoi aprèsavoir acquis des données, nous en faisons la moyenne arithmétique ? Et pourquoine retenons nous pas plutôt la valeur médiane ou n’importe quel autre estimateur ?Comment et pourquoi éliminer des valeurs aberrantes, et surtout comment lescaractériser ?L’objectif est de réaliser un tour des techniques statistiques employées pour tirerune valeur et une incertitude d’un ensemble de données. Ces notions statistiques surlesquelles reposent nos calculs d’incertitudes sont loin d’être naïves et ne sont pastoutes abordables en cycle secondaire, ni même en cycle BTS. Ceci étant, les oubliercomplètement conduit à ne jamais se poser de questions quand à l’utilisation deces outils.Ce cours ne contient pas de notions sur la composition des incertitudes, ladistinction entre incertitudes de type A et et de type B, ni même de techniques d’éva-luation des incertitudes. Ce sont des sujets importants, et il existe de nombreusesressources en ligne couvrant ces sujets.Les chapitres 3 et 4 portent exclusivement sur l’approche par analyse bayésiennede l’analyse de données. Il s’agit d’une simple introduction, des ouvrages ou articlesbien plus complets existent pour approfondir le sujet. Les ressources utilisées pour
1. Pour le moment. . .
6a rédaction de ce document sont citées en tête de chapitre.L’ensemble des méthodes numériques sont réalisées avec Python 3. Ce documentest distribuée sous licence Creative Commons BY-NC-SA .7 hapitre 1Incertitudes et mesures Ce premier chapitre propose une vue d’ensemble des techniques et méthodesutilisées dans les classes de lycée et formations post-bac techniques et scientifiquesen sortie de lycée. Souvent présentées comme un ensemble de règles à appliquer, lesfondements théoriques sont souvent négligés quand à l’évaluation des incertitudesd’une mesure. Pourtant, il est loin d’être systématique que les conditions d’applica-tion des méthodes enseignées soit réunies et cela conduit à une évaluation erronéedes incertitudes de mesure.Enfin, il permettra d’introduire le fait qu’une mesure et son analyse ne peuventse passer d’éléments statistiques. Ces derniers sont le langage nécessaire et adéquatà la compréhension du processus de mesure et l’élaboration de son incertitude.Références : • VIM : Vocabulaire international de métrologie, BIPM • GUM : guide pour l’expression de l’incertitude de mesure, BIPM • Simple demonstration of the central limit theorem using mass measure-ments, K. K. Gan • A simple demonstration of the central limit theorem by dropping ballsonto a grid of pins, K. K. Gan • Arrondissage des résultats de mesure, Nombre de chiffres significatifs,M.M. Bé, P. Blanchis, C. Dulieu • Statistiques, IUT Biothechnologie, 2ème année, Université de La Rochelle,J-C. Breton
Les sciences physiques sont une science expérimentale. Elles reposent sur laméthode scientifique permettant la validation d’hypothèses à partir d’observations8xpérimentales. Ces observations expérimentales nécessitent des mesures de gran-deurs physiques qui sont alors connues avec un certain degrés d’incertitude. Nousverrons qu’il est nécessaire d’introduire un traitement statistique des données ac-quises. Ce dernier permet de circonscrire le domaine de connaissances, de certitudesassociées aux mesures et au modèle.Concernant le domaine industriel, seul l’aspect mesure de grandeurs physiquesest mis en jeu dans le cadre de processus de fabrication, de contrôles, d’accordà une norme ou un cahier des charges par exemple. Mais le fond du problèmereste identique : Comment quantifier ces incertitudes pour valider ou comparer lesmesures réalisées ?
Les notions recouvrants les concepts d’ erreurs de mesures sont diverses etvariés et peuvent être souvent source de confusion. Les organisations de métrologie,regroupées sous l’acronyme
ISO ont publié un Guide pour l’expression de l’incer-titude de mesure ainsi que le
VIM : Vocabulaire international de métrologie afin destandardiser les usages.Ces ouvrages utilisent et définissent une centaine de termes et acronymes.Voici quelques extraits du VIM :
Le mot "mesure" a, dans la langue française courante, plusieurs significa-tions. Aussi n’est-il pas employé seul dans le présent Vocabulaire. C’estégalement la raison pour laquelle le mot "mesurage" a été introduit pourqualifier l’action de mesurer. Le mot "mesure" intervient cependant à denombreuses reprises pour former des termes de ce Vocabulaire, suivanten cela l’usage courant et sans ambiguïté. On peut citer, par exemple :instrument de mesure, appareil de mesure, unité de mesure, méthodede mesure. Cela ne signifie pas que l’utilisation du mot "mesurage" aulieu de "mesure" pour ces termes ne soit pas admissible si l’on y trouvequelque avantage.
Extrait du VIM • Mesurage , m : processus consistant à obtenir expérimentalement uneou plusieurs valeurs que l’on peut raisonnablement attribuer à une grandeur • Mesurande , m : grandeur que l’on veut mesurer
1. International Organization for Standardization .2.2 Valeur vraie et Valeur de référence • Valeur vraie , f : valeur d’une grandeur compatible avec la définitionde la grandeur • Valeur de référence , f : valeur d’une grandeur servant de base decomparaison pour les valeurs de grandeurs de même natureOn notera le caractère prudent et pragmatique de la définition de la
Valeurvraie . Dans les faits, il est impossible d’avoir accès à la valeur vraie d’une grandeur.En dehors des constantes fondamentales, pour lesquelles on considère qu’il n’existequ’une seule valeur vraie, il est important de noter que les données acquises lorsqu’un mesurage ne permettent que de définir des intervalles dans lesquelles il estraisonnable de penser que la valeur vraie se situe.Cette notion sera rediscutée dans la partie traitant d’inférence et dans laquelle ilne sera plus question de trouver la valeur vraie, mais plutôt de définir la probabilitéqu’une valeur soit vrai. • Incertitude de mesure , f : paramètre non négatif qui caractérise ladispersion des valeurs attribuées à un mesurande , à partir des infor-mations utilisées • Erreur de mesure , f : différence entre la valeur mesurée d’une gran-deur et une valeur de référence
Il est à noter que ces définitions ne font pas référence à la valeur vraie . S’iln’existe pas de valeur de référence, il est difficile d’utiliser la notion d’erreur telleque définie dans le
VIM . Il reste donc cette notion d’incertitude de mesure qui estune grandeur déterminée par analyse des données et permettant de définir un degréde confiance pour la valeur mesurée.
Les sources des incertitudes de mesures sont répertoriées dans les documentsISO consacrés aux incertitudes de mesure : conditions environnementales, biaishumain, mesurande intrinsèquement aléatoire, etc.L’ensemble de ces sources sont globalement à regrouper en deux catégories.Celles qui ont un effet systématique sur la mesure, celles qui ont un effet aléatoire. • Les effets systématiques conduisent à un décalage constant de la valeurmesurée par rapport à la valeur théorique. Une fois identifiés, ces effets10ystématiques peuvent être simplement retranchés à la valeur mesurée.Toute la difficulté réside dans l’identification et l’évaluation de ces effetssystématiques. • Les effets aléatoires conduisent à une erreur aléatoire dispersée autourde la valeur vraie. Ces effets peuvent être liés à l’objet d’étude ou auprocessus de mesure . Dans les deux cas, il sera possible d’étudier lesmesures avec une méthode statistique pour en tirer des informations utilessur le mesurande. Remarque didactique
Il est courant de voir les notions d’incertitude aléatoire et systématique repré-sentées comme des flèches atteignant une cible donc le centre serait la valeur vraie (figure 1.1).
Figure qualité de la mesure est caractérisée àpartir de cette connaissance. Dans les faits, il ne faut pas oublier que la valeurvraie n’est jamais connue et que cette valeur ne peut qu’être estimée à partir desdonnées. La figure 1.2 représente, à mon sens, tout aussi schématiquement maisplus correctement la conception qu’il faut se faire d’une analyse de données. Surcette figure, les données sont des points représentés par des couleurs différentes :trois jeux de données sont respectivement représentés en rouge, vert et bleu. Laposition moyenne de chaque jeu de donnée est utilisée comme centre d’un cercledont le rayon est l’écart type. • Les jeux de mesures vert et rouge présente la même dispersion, donc lesmêmes incertitudes de mesure, mais ne sont pas centrées sur la mêmemoyenne : mise en évidence d’une erreur systématique.
2. Par exemple, la taille d’individus dans une population.3. Mesure de l’accélération de la pesanteur en un lieu précis. Les jeux de mesures rouge et bleu sont "inclus" l’un dans dans l’autre, cesdeux mesures sont compatibles mais présente une dispersion, donc uneincertitude aléatoire différente • A partir de ces trois jeu de données, il est raisonnable de penser que seulsles mesures vertes présentent une erreur systématique par rapport à lavaleur vraie.
Figure
Distribution statistique et mesures
La dispersion des valeurs issues du mesurage forme une distribution statistique.Cette distribution est souvent modélisable par une loi de probabilité décrivant lecaractère aléatoire d’une expérience.La description de cette loi de probabilité se fait avec un nombre restreint deparamètres. En particulier, dans le cadre d’une mesure, valeur moyenne et de l’écarttype de la loi de probabilité sont les deux paramètres permettant de caractériserprincipalement le résultat de la mesure. Ces deux grandeurs sont formellementdéfinies par les relations suivantes : 12our un nombre N d’éléments contenus dans la distribution :Espérance : µ = 1 N N X i x i (1.1)Écart type : σ = vuut N N X i ( µ − x i ) (1.2)Le nombre d’éléments contenu dans cette distribution statistique peut être infinisi la grandeur physique mesurée est continue. Ainsi, en raisonnant sur l’ensembledes éléments accessibles au mesurage, il est possible de définir la moyenne et l’écarttype d’une loi de probabilité f ( x ) par :Espérance : µ = Z f ( x ) dx (1.3)Écart type : σ = Z f ( x )( µ − x ) dx (1.4) Remarque :
La variance est définie comme le carré de l’écart type V = σ .Les deux termes recouvrent des concepts similaires.Ces distributions sont caractéristique du mesurage et du mesurande. Loi Normale
Les lois normales jouent un rôle central. Elles sont parmi les loi de probabilité lesplus adaptées pour modéliser les phénomènes naturels issus d’événements aléatoires.Elles prennent une place particulière car elles sont la limite de suites de tiragesaléatoires indépendants et dont le comportement individuel ne suit pas forcémentune loi normale (voir théorème de la limite centrale).La loi normale représentée en figure 1.3 est définie par la distribution suivante : N ( x ) = 1 σ √ π e − (cid:18) x − µσ (cid:19) (1.5)Il s’agit d’une courbe symétrique dont les valeurs les plus probables sont situéesà quelques écarts types de la valeur moyenne. Pour la loi normale, on peut citerquelques intervalles de confiance : • P ( µ − σ ≤ x ≤ µ + σ ) = 0 , • P ( µ − σ ≤ x ≤ µ + 2 σ ) = 0 , • P ( µ − σ ≤ x ≤ µ + 3 σ ) = 0 ,
20 40 60 80 100 x0.000 ( x ) Moyenne µ de la loi´Ecart type σ Loi normale N ( x ) Figure µ = 50 et dont l’écart type σ = 10. • résultat du mesurage : espérance µ • incertitude de mesure caractérisée par l’écart type σ Cela signifie qu’un mesurage aura 68% de chance de fournir une valeur située àune distance σ de l’espérance µ . Construction d’estimateurs à partir de données
En réalité, il est impossible d’avoir accès à la loi de probabilité dans sontensemble mais uniquement à une sous partie, à un échantillon réalisant la loide probabilité : c’est l’objectif du mesurage, qui permet d’obtenir des donnéesreprésentative de la distribution à laquelle obéit le mesurage en question.A partir de ces données, le rôle des estimateurs est de fournir une estimation de l’espérance et de l’écart-type. Ces deux grandeurs sont représentatives de lavaleur vraie d’une part et de l’incertitude associée au mesurage d’autre part.Pour une loi statistique d’espérance µ et d’écart type σ et à partir d’un ensemblede données x i de cardinal n , on définit les estimateurs suivants :
4. Grandeur permettant d’évaluer un paramètre statistique inconnu à partir d’un échantillon.Divers paramètres caractérisent les estimateurs : convergence, biais, efficacité et robustesse.L’objectif de ce document n’est pas de refaire un cours démontré de statistique mais de donnerdes éléments permettant un approfondissement du sujet. x sans biais de l’espérance est la moyenne arithmétique : x = 1 N N X i x i (1.6)L’estimateur σ n − sans biais de l’écart-type lorsque l’espérance est inconnue : σ n − = 1 n − n X i ( x i − x ) (1.7) Remarque : cet estimateur est aussi appelé "écart type expérimental", pouréviter la confusion il est conseillé d’utiliser le terme d’estimateur de l’écart type.Dans le cas où l’espérance µ est connue, l’estimateur S de l’écart type est alors : S = 1 n n X i ( x i − µ ) (1.8)Cet estimateur est rarement utilisé dans le cadre d’une mesure physique puisquele but d’une mesure est de déterminer cette valeur moyenne qui sera ensuiteassimilée à l’espérance qui est la valeur vraie du mesurage et de caractériser le toutpar un écart type. Intervalle de confiance
Si un mesurage x i contenant n valeurs suit une loi statistique d’espérance µ etd’écart type σ alors, l’application du théorème de la limite centrale indique que lamoyenne arithmétique x suit une loi normale d’espérance µ et d’écart type σ √ n .Il est classiquement conclu le résultat suivant concernant µ la valeur vraie de lamesure x = µ ± σ √ n (1.9)Ce qui, en terme d’intervalle, correspond à la probabilité suivante pour une loinormale : P ( µ − σ √ n ≤ x ≤ µ + σ √ n ) = 68% (1.10)Cela signifie que statistiquement, la valeur moyenne des données à 68% dechance d’être située à σ √ n de l’espérance de la distribution, qui peut être assimiléeà la valeur vraie recherchée. 15lassiquement, un retournement de cette relation est réalisé pour déterminerl’intervalle de confiance. En assimilant x à µ , on obtient l’intervalle de confiancesuivant : P ( x − σ √ n ≤ µ ≤ x + σ √ n ) = 68% (1.11)Cet intervalle correspond à l’incertitude type u de la mesure : u ( x ) = σ √ n (1.12) Remarque :
Ces résultats ne sont utilisables que lorsque la variance de lavaleur du mesurage est connue. Cette variance peut être éventuellement déterminéeau travers d’un processus de composition des incertitudes.
Incertitude élargies U L’incertitude élargie correspond à des intervalles de confiance défini pour uneprobabilité donnée que la valeur vraie du mesurande soit dans l’intervalle. Généra-lement, on définit un facteur d’élargissement k tel que l’incertitude élargie U = ku ,avec u l’incertitude type.Pour un mesurage suivant une loi normale, il est possible de définir les incerti-tudes élargies suivantes :facteur d’élargissement k niveau de confiance en %1 68 ,
32 95 ,
53 99 , Ce théorème permet de connaitre la statistique limite de la valeur moyenne devariables indépendantes possédant une espérance et un écart type borné. La valeur16oyenne tend vers une loi normale dont l’écart type est de la forme σ √ n .Ce résultat est d’une importance fondamentale dans le domaine de la mesure.En effet, il permet de comprendre l’intérêt d’évaluer la valeur moyenne d’une sériede données : cette valeur moyenne tend vers une valeur limite et l’incertitudeassociée à cette valeur moyenne décroit avec le nombre de mesures en 1 √ n . Imaginons qu’un étudiant reçoive une note comprise en 0 et 10. Bien que ce nesoit pas flatteur pour l’enseignant, cette probabilité est constante sur l’ensembledes notes accessibles à l’étudiant. L’étudiant reçoit N notes.Quelle loi statistique suit la valeur moyenne ?Pour répondre à ce problème, nous allons exploiter à notre avantage la possibilitéd’utiliser des programmes informatiques capables "d’explorer" pour nous ce type dedistribution. L’idée est de simuler l’existence de centaines de milliers d’étudiantsrecevant N notes dont nous allons calculer la valeur moyenne.Le choix d’une distribution uniforme et continue de notes peut sembler éloignerde la réalité, mais les résultats sont identiques avec une distribution discrète etuniforme.Pour N = 3, nous allons tirer au sort 3 notes, puis en calculer la moyenne pourla stocker dans un tableau. Ensuite le processus recommence avec un nouveau jeude note. Il est ainsi possible de s’intéresser à la statistique de la moyenne.Pour N = 3, le résultat obtenu est celui présenté en figure 1.4.La distribution possède une forme de courbe en cloche, la valeur la plus probableest 5, sans surprise. La courbe représentée en noir est une loi normale de mêmevaleur moyenne et de même écart type. La courbe obtenue, bien que proche, nesuit pas une loi normale. Outre quelques écarts, la différence majeur est que la loinormale autorise des valeurs allant à l’infini. Ici, c’est impossible dans la mesureoù les notes et la valeur moyenne sont comprises entre 0 et 10.Réaliser ce même travail pour différentes valeurs de N (figure 1.5 page 19). Pour N = 1, nous retrouvons la distribution initiale uniforme sur l’intervalle [0, 10], auxfluctuations statistiques prés qui s’atténuent en augmentant le nombre de tirages.Pour N = 2, la distribution est triangulaire, avec un maximum de probabilité à5. Pour N ≥
3, la forme générale s’arrondit et la courbe s’affine de plus en plus :son écart type se réduit. Pour chaque valeur de N , une courbe de loi normalede même moyenne et de même écart type est tracée. Très rapidement, la forme
5. Il s’agit d’une distribution uniforme et continue sur l’intervalle [0,10] . . . . . Figure , qui est obtenue en réalisant lamoyenne d’une distribution uniforme. Le théorème de la limite centrale stipule que l’écart type de la distributionstatistique de la valeur moyenne tend vers σ √ N , où σ est l’écart type de la distributioninitiale .Pour vérifier ce résultat, il suffit de réaliser un comptage pour connaitre le ratiode moyennes qui sont situées à moins d’un écart type de la valeur centrale. Pourune loi normale, cela correspond à l’intervalle de confiance à 68%. Ces résultats sontdonnés par la valeur P précisée sur la figure 1.5 page suivante. Très Rapidement,ce ratio et donc l’intervalle de confiance s’approche de la valeur théorique d’une loinormale. P nk =0 − k C nk (cid:18) x − ab − a − k/n (cid:19) n − sgn (cid:18) x − ab − a − k/n (cid:19)
7. Ici, pour une distribution uniforme : σ = Valeur Maximum − Valeur minimum √ , soit ici √ ≈ , = 1 P = 0 . N = 2 P = 0 . N = 3 P = 0 . N = 4 P = 0 . N = 5 P = 0 . N = 6 P = 0 . N = 7 P = 0 . N = 8 P = 0 . N = 10 P = 0 . N = 20 P = 0 . N = 40 P = 0 . N = 80 P = 0 . Figure N notes comprisesentre 0 et 10. Le tirage aléatoire est réalisé 300 000 fois, ce qui permet d’explorerla loi statistique issue de ce calcul de moyenne. P représente le ratio du nombre demoyennes comprise dans l’intervalle µ ± σ √ N . On constate rapidement que P tendvers 0 ,
68 qui est l’intervalle de confiance d’une loi normale.
Les conditions d’application de ce théorème sont faibles. Dans sa formulationclassique, il est demandé aux données issues du mesurage d’être non corrélées et desuivre une même statistique possédant un écart type constant et fini. Ces conditionssont très largement répandues et c’est ce qui explique la prédominance des loisnormales pour décrire la plupart des phénomènes physiques ou naturelles.D’autres formulations ont des hypothèses encore plus faibles. Le théorèmede la limite centrale continue d’être valable si les variables sont indépendantes etsuivent une statistique d’écart type fini : il n’est pas obligatoire que les statistiques
8. Condition de Liapounov ou condition de Lindeberg
19u même que les écart type soient identiques.Enfin, dans le cas de variables faiblement corrélés, il est démontré que la valeurmoyenne continue de tendre vers des lois statistiques centrées et dont l’écart typedécroit avec le nombre de données. Dans ce cas, l’incertitude sera d’autant plusréduite que le nombre de mesures sera important, mais les intervalles de confiancesont beaucoup plus difficiles à évaluer.Le graphique 1.6 représente l’écart type de la valeur moyenne d’un tiragealéatoire suivant une loi normale d’écart type σ = 1 en fonction du nombre devariables. Les variables sont indépendantes et l’écart type constant. L’écart typesuit bien une évolution en 1 √ n caractérisée par une droite de pente de − . l og ( σ ) y = ax + b a = -0.497b = -0.014 Figure n tirages issus deprocessus aléatoire suivant une loi normale d’écart type constant. Le graphique esten échelle log/log afin de mettre en évidence une droite de pente − . Lorsque l’opération de mesurage à un effet sur les mesurages successifs, lesdonnées acquises ne sont plus indépendantes les unes des autres. Par exemple, lorsd’une mesure électrique, l’auto-échauffement peut contribuer à modifier le résultatde mesures successives.Dans ce cas, il est difficile de conclure quoi que ce soit. Dans la plupart descas, la corrélation entre les mesures sera faible et une forme, même faible, duthéorème de la limite centrale continuera de s’appliquer et il pourra être observéune réduction des incertitudes. Ceci étant, il n’est pas possible d’affirmer que les
9. Influence of global correlations on central limite théoréms ans entropic extensivity, Marsh,Fuentes, Moyano, Tsallis √ n .Le graphique 1.7 représente un teste similaire à la figure 1.6 page précédente, àceci prés que les variables sont corrélés entre elle par la relation suivante : x i +1 = N ( x → i , σ = 1) (1.13)La variable aléatoire i suit une loi normale d’écart type constant σ = 1 etd’espérance x → i la valeur moyenne de l’ensemble des tirages aléatoires précédents. l og ( σ ) y = ax + b a = 0.013b = 0.192 Figure n tirages corrélés issusde processus aléatoire suivant une loi normale d’écart type constant. Le graphiqueest en échelle logarithmique. L’écart type ne converge pas pour ce type de tiragealéatoire. Il n’est pas possible de défini un écart type pour certaines distribution. Enparticulier, les lois suivant une statistique Lorentzienne encore appelé lois de Cauchyne possède pas d’écart type et sont adaptés pour modéliser les raies d’émission enspectroscopie : f ( x, x c , a ) = 1 π · a ( x − x c ) + a (1.14)Le théorème de la limite centrale ne peut pas s’appliquer si ce type de bruit estprésent lors du mesurage. Voir figure 1.8 page suivante21 l og ( σ ) y = ax + b a = -0.080b = 5.301 Figure n tirages non corrélés issus de processusaléatoire suivant une loi de Cauchy de valeur centrale x c = 0 et de facteur d’échelle a = 1. Le graphique est en échelle logarithmique. L’écart type ne converge pas pource type de tirage aléatoire. D’un point de vu didactique, il est intéressant de réaliser une démonstrationexpérimentale de ce théorème. La démonstration formelle nécessite une maitrise desnotions d’intégration, de convergence de série par majorant. Elle n’est pas à portéed’étudiants en début de cycle et ne contribue pas à comprendre son mécanisme defonctionnement.L’objectif n’est pas de commenter en détails les dispositifs pédagogiques, maisde simplement lister quelques idées fonctionnant en phase de travaux pratiques avecles étudiants. Il est à garder en mémoire que la mise en évidence de ce théorèmenécessite forcement un grand nombre de répétitions. Il est donc important detrouver des systèmes simples et rapides à mettre en place.Pour assurer une convergence relativement rapide, il est important de respecterles conditions suivantes : • les mesurages doivent être indépendants ; • les écart types doivent être relativement homogène. Réalisation expérimentale • Mesurer la masse de 100 mL d’eau dans une éprouvette graduée de 400 mL.L’expérience est réalisée par deux étudiants, le premier remplissant l’éprou-vette pendant que le second réalise la mesure de la masse. Un total de 3022esures doit être réalisé ; • Mesure de la masse d’un plateau percé de 9 trous de rayons différentsremplis de petites billes d’aciers. • Planche de Galton • Mesures de la valeur d’une résistance Figure
Simple demonstration of the central limit theorem using mass measurementsand A simple demonstration of the central limit theorem by dropping balls onto agrid of pins, K. K. Gan . Simulations numériquesTirage discret :
Avec un tableur, il est relativement simple de réaliser la moyenne d’un tiragediscret aléatoire et d’en répéter l’expérience un grand nombre de fois pour voirapparaître une loi normale.
Tirage continue :
Il est possible avec n’importe quel langage de programmation de réaliser unemise en évidence de ce théorème. Les tirages pseudo-aléatoires sont suffisammentpour reproduire l’aspect aléatoire d’une mesure. Le principe de l’algorithme est lesuivant :
10. Permet rapidement de mettre en évidence le théorème de la limite centrale11. Automatisable avec mesures réalisées par un multimètre ineffaçable avec ordinateur
23. Définir un nombre n qui sera le nombre de mesure réalisés. n peut être comprisentre 10 et 100, la forme gaussienne de la loi normale est atteinte pour n = 10.2. Définir un nombre p qui représente le nombre de répétitions des n tiragesaléatoires. p doit être grand, au minimum 1000.3. dans une boucle allant de 1 à p : • Réaliser n tirages aléatoires d’une variable x : x i , i allant de 1 à n.La distribution utilisée pour ce tirage peut être quelconque tantqu’elle possède une valeur moyenne et un écart type défini. Unesimple loi uniforme comprise entre 0 et 10 suffit. • Calculer la valeur moyenne des n tirages précédents : x j , j allant de1 à p et stocker cette valeur dans un tableau à p entrées.4. Réaliser un histogramme des valeurs de x p La figure 1.5 page 19 a été réalisée pour différentes valeurs de n à partir d’uneloi uniforme comprise entre 0 et 10.Le code ci-dessous est une version python de l’algorithme suggéré. ?? PythonTeX ??Comprendre le théorème de la limite centrale C’est un résultat surprenant de voir surgir une distribution de valeurs de plusen plus piquées sur une valeur centrale alors que le tirage réalisé est uniforme. Il nefaut pas oublier que cette distribution n’est plus la distribution initiale. La variableétudiée est la valeur moyenne x et non les x i .Ce résultat apparait intuitivement en raisonnant en terme de combinaisons.Prenons un tirage aléatoire et uniforme x i d’une note entre 0 et 10 : • La meilleur moyenne possible x est la valeur 10. Cette moyenne est réaliséesi tous les x i obtenus valent 10. Il n’y a qu’une seule combinaison possible. • La plus mauvaise moyenne possibles x est la valeur 0. Cette moyenne estréalisée si tous les x i obtenus valent 0. Il n’y a qu’une seule combinaisonpossible. • La moyenne médiane de 5, quand à elle, est obtenue par un plus grandnombre de combinaison, rien qu’en prenant 2 notes : { , } , { , } , { , } , { , } . . . Cette moyenne peut être obtenues par un grand nombrede tirages différents.Les deux premiers cas constituent les extrémités de la distribution, ils sont obte-nus pour une combinaison unique de x i . Intuitivement, il est facile de comprendreque cette réalisation est rare, beaucoup plus rare qu’une moyenne de 5 qui estréalisée par un grand nombre de combinaisons.24e théorème de la limite centrale est donc un résultat combinatoire. Il esthautement plus probable d’avoir une moyenne proche du centre de la distributioncar un grand nombre de tirages permette de la réaliser plutôt qu’une moyenneéloignée du centre de la distribution. Le théorème de la limite centrale permet de calculer l’incertitude associée àla moyenne d’un mesurage lorsque l’incertitude ou l’écart type du mesurage estconnue. Ce n’est pas toujours le cas, et la loi de Student permet de déterminer unintervalle de confiance lorsque l’écart type est inconnu. Ce dernier est estimé par : σ n − = 1 n − n X i ( x i − x ) (1.15)Les intervalles de confiance sont alors données par la relation : " X − t σ n − √ n ; X + t σ n − √ n (1.16) n est le nombre d’éléments que contient l’échantillon, et t est le coefficient deStudent. Ce coefficient dépend à la fois de n et du niveau de confiance souhaité. Exemple
Pour n = 10 avec un niveau de confiance de 95% : " X − , σ n − √ n ; X + 2 , σ n − √ n (1.17)Cette relation est proche de celle donnée par une loi normale. Les facteurs d’élar-gissement sont simplement remplacés par les coefficients t donnés qui dépendentdu nombre de mesures. Il existe un lien fort entre le principe de maximisation de l’entropie au sens deShanon en théorie de l’information, les distributions rencontrées jusqu’à présent etles mesures qu’elles sont censées décrire. Ce lien a été réalisé par Jaynes en 1957,et il stipule qu’il n’y a pas de différences entre l’entropie de Shanon et l’entropiedéfinie en mécanique statistique .
12. Voir le principe d’entropie maximale défini par E.T. Jaynes dans
Information Theory andStatistical Mechanics , 1963 − α
75% 95% 99%k1 1 ,
000 6 ,
314 31 ,
822 0 ,
816 2 ,
920 6 , ,
765 2 ,
353 4 , ,
741 2 ,
132 3 , ,
727 2 ,
015 3 , ,
700 1 ,
812 2 , ,
687 1 ,
725 2 , ,
679 1 ,
676 2 , ,
677 1 ,
660 2 , ∞ ,
674 1 ,
645 2 , Figure − α et un nombre de degré de liberté k . Pour un calcul de valeur moyenne k = N − N le nombre de points à disposition. La dernière ligne correspond à un nombreinfini de points de mesure et donc au cas d’une loi normale continue.n ensemble de données issues d’un mesurage définit un certain nombre decontraintes sur la distribution statistique sous-jacente. Par exemple, moyenne etécart type sont deux contraintes qui fixent certaines caractéristiques de la distribu-tion. Il est possible d’en déduire tout un ensemble de distributions satisfaisant cescontraintes : loi uniforme, triangulaire, loi de Cauchy, loi normale etc.Le principe d’entropie maximale stipule qu’il existe une distribution particulièremaximisant l’entropie de Shanon, et donc minimisant les informations a priori conduisant à cette distribution. Il s’agit donc de la distribution ajoutant le moinsd’informations et d’hypothèses à la mesure tout en tenant compte des contraintesfixées par cette dernière. Connaissant l’espérance (valeur moyenne) et l’écart type d’une distribution, laloi normale est la distribution non bornée d’entropie maximale. Ce qui explique laprédominance de cette loi quand il s’agit de décrire une mesure physique.
Loi de Student
La loi de Student est une distribution définie à partir de la loi normale. En effet,si les variables aléatoires suivent une loi normale, alors connaissant l’espérance(valeur moyenne) et le nombre de degrés de liberté (lié au nombre de mesures), laloi de Student est la distribution d’entropie maximale. Ce qui explique son intérêtdans le domaine de la mesure où ce sont généralement deux informations connueset facile à déduire d’un ensemble de données expérimentales.
Sur le domaine [0 , ∞ ], pour une valeur moyenne fixé, la loi de décroissance expo-nentielle λe − λt est celle maximisant l’entropie. Ce qui explique qu’elle est adaptéepour la description de phénomène aléatoire comme la décroissance radioactive oupour décrire des défaillances de système électronique ou mécanique.En effet, ces derniers fixent les contraintes suivantes : • l’événement se produit entre l’instant initiale et l’infini • les temps mis pour que les événements se produisent ont une certainevaleur moyenneDe ce fait, la loi de décroissance radioactive peut être vue comme le principede maximisation de l’entropie pour des événements respectant les contraintesprécédentes. 27 .7 Quelques remarques Nous venons de voir que les outils statistiques reposent largement sur l’exploi-tation de la loi normale. Cette distribution a comme particularité d’être assez peuinformative , elle nécessite peu de connaissance quand à la forme de la distributionstatistique des incertitudes de mesure.Il est à souligner qu’il s’agit d’un choix, raisonnable, souvent non explicite, maisil s’agit avant tout d’un choix relevant d’un a priori sur la mesure : processus demesurage donnant des valeurs non corrélées, existence d’un écart type et d’unemoyenne.D’une manière générale, cette analyse est mise de côté au nom d’une formed’impartialité scientifique : il faudrait être capable d’aborder l’analyse de donnéessans aucun avis ou opinion sur ces dernières. Dans les faits, ce n’est jamais le cas, etdans une démarche classique, ces a priori existent et sont souvent occultés. Il suffitde se rappeler de toutes ces données éliminées car jugées aberrantes pour constaterque cette conception de la science impartiale et aveugle quant aux données n’estpas complètement vrai et le propos mérite d’être nuancé.Ce point sera développé dans le chapitre 3 page 41 sur l’inférence bayésiennequi présente l’avantage de rendre ces choix explicites.
13. C’est même la moins informative possible, étant donné certaines contraintes. hapitre 2Modèles et régressions La régression est un ensemble de techniques consistant à déterminer les para-mètres modélisant un phénomène à partir de données mesurées. La plus utilisée estla régression linéaire consistant à déterminer les coefficients d’un polynôme à partirde données présentant des incertitudes au moyen de relation d’algèbre linéaire.Ce chapitre est consacré à l’ajustement d’un modèle polynôme de degrés 1 auxmesures dans le cadre de la régression linéaire. L’objectif est principalement decomprendre les hypothèses sous-jacentes à cette opération et donc les conditionsd’applications et de validités.Les notions développées dans ce chapitre sont issues des ressources suivantes : • BUP 796 : Régression linéaire et incertitudes expérimentales, D. Beaufils,1997 • arXiv 1008.4686, astrophysics : Data analysis recipes : fitting a model todata, D. W. Hoog, J. Bovy, D. Lang, 2010 • Économétrie Giraud et ChaixL’objectif de ce chapitre est de prendre conscience des conditions extrêmementétroites d’application des techniques de régressions linéaires. Il est difficile de serendre compte que l’utilisation de ces méthodes est souvent fausse puisque lesrésultats de mesures sont estimés avec une incertitude. Ainsi, il est facile de seconvaincre que le résultat est "pertinent" puisqu’il n’est qu’à "un ou deux écarttype" de la valeur théorique, et une analyse plus poussée est de ce fait souventécartée. 29 .1 Régression linéaire : méthode des moindrescarrés
L’objectif de cette opération est de déterminer les paramètres a coefficientdirecteur et b ordonnée à l’origine d’une droite qui soit la meilleur possible pour unensemble de points ( x i , y i ) donnés présentant un bruit aléatoire. f ( x ) = ax + by i = ax i + b + (cid:15) i (2.1)Avec (cid:15) i , le résidu du point, une erreur inconnue associée à chaque point i . Lafigure 2.1 représente graphiquement cette erreur pour chaque point de mesure parrapport à une loi linéaire initiale.Cette procédure n’est pas arbitraire. "Meilleur possible" consiste à minimiserles écarts quadratiques verticaux entre les données et la droite moyenne : χ = N X i =1 [ y i − f ( x i )] (2.2)Cette minimisation conduit à résoudre le système suivant : ∂χ ∂a = 0 ∂χ ∂b = 0 (2.3)Ce système possède les solutions suivantes : a = P ( y i − y ) ( x i − x ) P ( x i − x ) b = y − ax (2.4)Réaliser un ajustement linéaire consiste, pour le logiciel de traitement de données,à calculer les coefficients précédents. 30 y i Loi initialeErreurs de mesure i Données mesurées
Figure (cid:15) i associés à chaque point. y Dans l’exemple suivant est présenté en figure 2.2. Nous générons un ensemble dedonnées aléatoirement à partir d’une loi connue de type y = ax + b dite loi initiale .Une erreur suivant une loi normale d’écart type fixe est ensuite ajoutée à l’ensembledes données y pour reproduire un comportement aléatoire. Cette situation vérifiedonc toutes les conditions d’application de la méthode des moindres carrésLa procédure numérique permet de calculer l’incertitude sur les coefficients a et b . y Les relations présentées dans la partie précédente suppose une incertitudeconstante suivant l’axe y . Dans les faits, cette hypothèse est rarement réalisée. Ilest possible de reprendre l’analyse précédente en minimisant la somme des écarts
1. Numériquement, les relations indiqués précédemment sont généralisées à n’importe quelleloi polynomiale et réécrite dans un formalisme d’algèbre linéaire. Calculer les coefficients a et b consiste donc à des calculs matriciels, facilement réalisés par un système informatique. L’incertitudeapparait naturellement comme les coefficients de la matrice de covariance du système. x y Estimateurs:a = 2.10 ± 0.17 b = -5.74 ± 0.94 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 2.00 ± 0.16 Figure a .quadratiques normalisés par l’écart type de chaque point. χ = N X i =1 [ y i − f ( x i )] σ y i (2.5)De même que précédemment, cette minimisation conduit à la détermination del’ordonnée à l’origine b et la pente a de la régression linéaire. Exemple
La figure 2.3 est un ajustement linéaire à partir de données construite de manièresimilaire au cas présenté en figure 2.2, à la différence de l’incertitude sur les données y qui ici n’est pas constante. La procédure des moindres carrés permet de prendreen compte des incertitudes différentes suivant l’axe y . a et b Le modèle de la régression linéaire permet d’obtenir des incertitudes sur lescoefficients a et b . Ces incertitudes sont calculées analytiquement dans le cadredu modèle et doivent s’interpréter comme caractéristiques de la loi normale quesuivent les coefficients a et b . 32 x y Estimateurs:a = 1.99 ± 0.13 b = -4.95 ± 0.69 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 2.00 ± 0.12 Figure a .Généralement, ces coefficients sont négligés au profit des seuls valeurs a et b alors que l’évaluation des incertitudes occupent une place importante dans leraisonnement scientifique. a L’écart type de l’estimateur de a est : σ a = σ qP ( x i − x ) (2.6)où σ est l’écart type associé au mesure y i . • L’écart type σ des mesures influence directement les écart type σ a . Réduire σ permet de réduire les incertitudes sur la pente. • P ( x i − x ) est un terme chiffrant l’écart total entre les points x i et leurvaleur moyenne. L’augmentation de ce dernier conduit à une diminutiondes incertitudes sur a . Ce denier peut être augmenter de deux manières :— en augmentant le nombre de points N ;— en augmentant l’intervalle de prise de mesure x i . Plus les pointsde mesure seront dispersés et éloignés les uns des autres, plusl’écart type σ a sera faible.33 .2.2 Estimateur de b L’écart type de l’estimateur de b est : σ b = σ vuut N + x P ( x i − x ) (2.7)où σ est l’écart type associé au mesure y i et N le nombre de points. • L’écart type σ des mesures influence directement les écart type σ b . Réduire σ permet de réduire les incertitudes sur l’ordonnée à l’origine ; • x P ( x i − x ) est un terme chiffrant la dispersion des valeurs de x i etl’éloignement à l’ordonnée à l’origine. Pour réduire σ b , il conviendra de :— prendre des points x i proche de l’ordonnée à l’origine pourréduire le terme x i ;— augmenter l’intervalle de mesure des x i ainsi que le nombre depoints n qui agit sur le terme en 1 n La faiblesse de la méthode des moindres carrés réside dans le fait qu’elle donnetrop de poids à des données aberrantes par rapport à l’ensemble des données. Celasignifie qu’un faible nombre de valeurs aberrantes peut conduire à une variationsignificative du résultat final.La figure 2.4 représente une telle situation. L’ensemble des données est générésimilairement à celles présentées en figure 2.2. Un point est choisi au hasard pourjouer le rôle d’une valeur aberrante. Ce dernier se voit attribuer une valeur aléatoirecentrée sur la moyenne des valeurs y et d’écart type constant mais élevé.L’ajustement linéaire réalisé sur un jeu de donnée tiré au hasard est moins bon,mais est toujours compatible avec avec la loi initiale. Cependant, la statistiquecomplète ne suit plus une loi normale et les intervalles de confiance ne sont plusvalide. Élimination des valeurs aberrantes
Une stratégie classique consiste à éliminer les données aberrantes. Ce processusd’élimination est fréquent, mais introduit des difficultés quand à la validité dela mesure en elle-même puisque ce processus est souvent à l’appréciation de la34 x y Estimateurs:a = 1.80 ± 0.28 b = -4.08 ± 1.35 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.83 ± 0.46 Figure a ne suitplus une loi normale et n’est plus symétrique. La valeur moyenne de a et l’écarttype sont très éloignés des estimateurs. Il est à remarquer que la valeur la plusprobable reste néanmoins égale à la valeur théorique du coefficient a .personne responsable de la mesure ou du traitement de données. Il existe desprocédures d’élimination des données aberrantes, par exemple : • critère de Chauvenet ; • critère de Peirce ; • test de Grubb’s.Ces méthodes fournissent un procédé objectif et quantitatif pour l’éliminationdes données aberrantes, néanmoins cela ne les rends pas forcément scientifique-ment et méthodologiquement correcte, en particulier dans les échantillons à faiblepopulation. Lors d’études de données, certains usages courants ne satisfont pas les conditionsd’application strict de la régression linéaire : • données aberrantes ; • loi non conforme au modèle : présence d’une non linéarité dans les donnéeset modélisation par une loi affine ;35 incertitude suivant X et Y ; • corrélation entre incertitudes et donnéesLes sous-parties suivantes présentent des exemples associés à la statistiquecomplète du coefficient a comme illustration de la déviation au modèle gaussiencentré sur la valeur théorique de a . Ces déviations, bien que généralement faible,font qu’il est plus difficile de conclure sur la valeur finale et sur les incertitudesassociées aux coefficients. Le choix du modèle influe grandement sur les résultats de ce type de méthode.En figure 2.5(a), la loi initiale n’est pas parfaitement linéaire, un terme quadratiquede faible amplitude est ajouté à la loi initiale. Ceci a pour conséquence d’éloignerles valeurs des coefficients calculés par la méthode des moindres carrés. En figure2.5(a), la recherche d’une valeur a = 2 conduit à une statistique d’allure gausiennecentrée sur a = 1 , ± , x et y Le modèle de la régression linéaire demande une incertitude suivant x négligeabledevant l’incertitude suivant y . La figure 2.5(b) présente un exemple de régressionréalisée avec une incertitude de même ordre de grandeur suivant les deux axes. Demême que précédemment, la recherche d’une valeur a = 2 conduit à une statistiqued’allure gausienne centrée sur a = 1 , ± , Les incertitudes ne doivent pas être corrélées aux données x et y pour pouvoirutiliser le modèle de la régression linéaire. Cette situation est fréquemment ren-contrée expérimentalement : n’importe quelle mesure au multimètre possède uneincertitude dépendant de la valeur lue.Les changements de variables introduisent aussi une corrélation de ce type. Poursimplifier les analyses, il est courant de pratiquer un changement de variable pourse ramener à une relation linéaire. Cette pratique est aussi liée au fait que souvent,les logiciels utilisés pour réaliser les analyses de données ont peu d’options en termede régression linéaire et souvent, seul un modèle affine est proposé.Prenons le cas de la période T d’un pendule de longueur l , à partir de laquelleil est extrait l’accélération de la pesanteur g . T = 2 π s lg (2.8)36e changement de variable classiquement introduit est θ = T = 4 π g l . Ainsil’étude de θ = f ( l ) conduit à une relation affine dont le coefficient directeur permetune évaluation de g .La difficulté est que l’incertitude associée à la variable θ est corrélée à T , eneffet : σ ( θ ) = 2 T σ ( T ) (2.9)Ainsi, même si l’incertitude suivant T est constante, ce n’est pas le cas de θ . Laplupart des changement de variable conduisent à cette situation.La figure 2.5(c) présente un exemple de régression réalisée avec une incertitudecorrélée à la valeur y . La recherche d’une valeur a = 2 conduit à une statistiquecentrée sur a = 1 , ± ,
21 dont l’allure n’est plus gausienne.37 x y Estimateurs:a = 1.92 ± 0.17 b = -5.45 ± 0.94 y = x + ax + b a = 2 b = -5= -0.02 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.80 ± 0.16 (a) Loi initiale non linéaire. x y Estimateurs:a = 1.95 ± 0.17 b = -5.15 ± 0.93 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.80 ± 0.21 (b) Incertitudes suivant x et y . x y Estimateurs:a = 1.96 ± 0.11 b = -4.64 ± 0.27 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.72 ± 0.21 (c) Incertitudes corrélée aux données : cas d’un changement de variables. Figure a . .5 Conditions d’applications de la méthode desmoindres carrés Dans les parties précédentes, il a été mis en évidence le fait que les conditionsd’application de la méthode des moindres carrés sont strictes et un non respectde ces dernières conduit rapidement à une estimation erronée des paramètres dumodèle ainsi que leurs incertitudes.La méthode des moindres carrés repose sur les hypothèses suivantes : • La loi physique sous-jacente aux données est connue ; • L’incertitude suit une loi Normale uniquement suivant y i et non corréléeaux y i ; • Absence de points aberrantsDans les faits, les conditions d’applications ne permettent souvent pas l’utilisa-tion de cette méthode, mais dans un contexte scolaire, elles sont largement utilisées,faute de mieux. La grande difficulté étant qu’en dehors des conditions d’applicationstrictes de cette méthode, il n’existe pas de consensus net permettant de réaliserl’ajustement des données par une loi connue de manière simple. σ (cid:15) Un estimateur sans biais de l’écart type de l’incertitude est : σ (cid:15) = P (cid:15) i N − (cid:15) i les résidus définis dans la relation 2.1. a et b Lorsque l’incertitude est estimée à partir des résidus, les facteurs d’élargissementà prendre en compte pour les intervalles de confiance ne sont plus ceux de la loinormale, mais ceux d’une loi de Student à N − σ a et σ b sont identiques à ceux définis par les relations 2.6 et 2.7.39 .7 Conclusions Le traitement et la manipulation de données occupent une place fondamentaledans une démarche scientifique. Plus largement, l’utilisation d’outils statistiques estde plus en plus répandue car fortement démocratisés avec l’utilisation de tableursdans des champs professionnels divers et variés. Ces outils grand public reposenttous sur le modèle de la régression linéaire dont les conditions d’utilisation sontassez strictes. De ce fait, il est important d’avoir des notions relatives à l’utilisationde cet outils et avoir conscience de leurs limites.Concernant une utilisation pédagogique, il est important de ne pas négligerl’évaluation des incertitudes associées aux coefficients issues de la régression linéaire.Ces derniers sont simples à obtenir et si les conditions d’applications sont vérifiés,ils informent correctement sur l’incertitude des résultats.40 hapitre 3Inférence bayésienne
L’inférence est un procédé permettant d’ induire les caractéristiques généralesd’une statistique à partir d’un échantillon. Ce procédé permet de calculer desestimateurs tout en évaluant le niveau de confiance de ces derniers.L’ensemble des techniques présentés dans les chapitres 1 et 2 sont des techniquesd’inférences statistiques.L’objectif de ce chapitre est d’introduire le concept d’inférence bayésienne. Cettetechnique d’inférence nécessite de renverser certains a priori relatifs à la mesureet au traitement de données. Ce changement de paradigme sera expliqué dans lapremière partie de ce chapitre.La suite de ce chapitre sera consacrée à des études de cas permettant de mettreen lumière les techniques d’inférence bayésienne.Références : • Frequentism and Bayesianism : A Python-drivenPrimer J.VanderPla • Data Analysis Recipes : Using Markov Chain Monte Carlo D.W. Hogg,D. Foreman-Mackey • emcee Documentation D. Foreman-Mackey • It is Time to Stop Teaching Frequentism to Non-statisticians W. M.Briggs • Bayesian Reasoning in Data Analysis G. D’Agostini • A Gentle Introduction to Bayesian Analysis : Applications to Develop-mental Research R. van de Shoot, D. Kaplan, J. Denissen, J.B. Asendorpf,F.J. Neyer, M.A.G. van Aken • Infolrxiation Theory and Statistical Mechanics E. T. Jaynes • Note de cours - Statistique Bayésiennes, J. Rousseau, ParisTech • Bayes Theorem, G. Sanderson41
Bayésianisme versus fréquentisme en inférence statistique, J. Sprenger • BAYESIAN INDUCTIVE INFERENCE AND MAXIMUM ENTROPYS.F. Gull • Bayesian reasoning in data analysis, a critical introduction G.D. Agostini
Le théorème de Bayes permet l’estimation de probabilités. Il est utilisé dansdes domaines variés comme l’intelligence artificielle en lien avec des algorithme deprise de décisions, dans les secteurs financiers pour les calculs de risques ou encoreen sciences pour induire des informations concernant des hypothèses moyennant laconnaissance de certaines données issues de mesures.C’est un résultat de base en statistique permettant de manipuler des probabilitésconditionnels.
Un premier cas
Voyons en détail un exemple d’application de ce théorème.Sur le campus d’une université, vous observez un groupe d’étudiantsappeler un de leur camarade pour qu’il les rejoigne "Steve, par ici !".Steve, la démarche maladroite, chemise froissée et mal rangée, cheveuxen batailles, les rejoint timidement. Vous l’observez dans sa course. Deslunettes rondes et repositionnées à la hâte barre son visage. Il porteune sacoche mal fermée entre ses bras.Est-il plus probable qu’il s’agisse d’un doctorant en mathématiquesfondamentales ou d’un étudiant d’école de commerce ?42a première réponse qu’il vient à l’esprit est qu’il s’agit vraisemblablement d’un étudiant en mathématiques. Cela semble raisonnable dans la mesure oùla description colle à la représentation qu’il est possible de se faire de ce typed’étudiant. En étant honnête, la réponse va beaucoup dépendre des représentationset conception que l’on a de ces deux disciplines. Néanmoins, une étude similaire aété conduite par D. Kahneman et A. Tversky concernant le discernement et la prisede décision, l’énoncé diffère, mais l’esprit est identique. Les résultats de cette étudeindique que les personnes interrogées pensent qu’il est hautement plus probableque Steve soit un étudiant en mathématique.
Maths90% Commerce10%
Ce point de vu est largement biaisé par les représentations, les préjugés concer-nant les étudiants en mathématiques et en école de commerce. Et pour répondrecorrectement à cette questions, il faut inclure des informations concernant le ratio doctorant en mathématiques / étudiant en école de commerce . C’est ce que permetle théorème de Bayes.
La mécanique du théorème de Bayes
Les données présentés dans ce paragraphe ne sont pas exactes mais cela n’a pasd’importance sur le raisonnement. Prenons un ratio de 1 doctorant en mathématiquepour 20 étudiants en école de commerce. Ce ratio est représenté sous forme d’aircoloré dans la figure suivante :
Ensembledes étudiants M a t h s Commerce1 20 Ensembledes étudiantsvérifiant la description40% 5% +Probabilité que l'étudiantsoit doctorant en mathssachant la description
43i nous devions mettre quelques chiffres, il n’est pas complètement absurde dedire que peut-être 40% des doctorants en mathématiques fondamentales peuventrépondre à la description précédente alors que peut-être 5% des étudiants en écolevérifieraient cette description.La probabilité de rencontrer un doctorant en maths vérifiant la description estdonc : p = doctorants en maths vérifiant la descriptionTotal des étudiants vérifiant la description = 0 , × , × , ×
20 = 0 , Les opérations que permettent ce formalisme sont les suivantes :1. Nous cherchons à vérifier une hypothèse H , pour notre exemple, il s’agiraitde { H : Steve est doctorant en mathématiques }.2. Des mesures sont réalisés en lien avec cette hypothèse, ici il s’agit d’unensemble d’observations décrivant Steve. Il s’agit d’un ensemble de donnéesnotées D pour datas.3. Nous voulons connaître la probabilité que l’hypothèse H soit vrai sachantque nous connaissons des données D .Cette dernière probabilité est une probabilité conditionnelle noté : p ( H | D ).En reprenant l’analyse précédente, pour calculer cette probabilité, nous avonsutilisé les termes suivant : • p ( H ) : la probabilité que l’hypothèse soit vraie. Il s’agit de la proportionde doctorant en mathématiques. • p ( D | H ) : la probabilité d’obtenir les données si l’hypothèse est vérifiée.Il s’agit de la proportion de doctorant en mathématiques vérifiant ladescription. • p ( D ) : la probabilité d’avoir les données. Il s’agit de la proportion d’indi-vidus vérifiant la description parmi les doctorants en mathématiques et étudiant en école de commerce .
1. Précédemment, cette probabilité a été exprimé sous la forme de la somme de deux termes : p ( D ) = p ( D | H ) + p ( D |¬ H ). ( H ) p (¬ H ) p ( D | H ) p ( D |¬ H ) Le théorème de Bayes s’écrit ainsi de la façon suivante : p ( H | D ) = p ( D | H ) · p ( H ) p ( D ) (3.2) Définitions • H est l’hypothèse pour laquelle un niveau de crédibilité est inférée. Dansle cadre d’une mesure, il s’agit d’un modèle associé à des paramètres θ i qui permettent de définir des intervalles de crédibilité . • p ( H | D ) est la plausibilité ou probabilité postérieur d’une hypothèse H . Elle est calculée en tenant compte du processus de mesure D . Ils’agit d’un degrés de confiance a postériori prenant en compte toutes lesinformations à dispositions : données et connaissances a priori . Il permetde quantifier la crédibilité d’une hypothèse. • p ( D | H ) est la fonction de vraisemblance des données D vis à vis del’hypothèse H . Cette fonction décrit la plausibilité des données D vis àvis d’une hypothèse H dans le cadre d’une réalisation aléatoire de cesdonnées D . • p ( H ) est la probabilité a priori qui précède toute mesures. Il peut s’agird’une conviction estimée par l’opérateur ou des données antérieurs à lamesure et intégrées par ce biais dans le processus d’inférence. • p ( D ) agit comme une normalisation ou une fonction de partition enphysique statistique. Nous verrons par la suite qu’il ne sera pas forcément45tile de la prendre en compte et est souvent difficile à obtenir .Le schéma de fonctionnement de ce formalisme est le suivant :Distribution a priori + Données −→ Distribution a posteriori
Il est à noter que le formalisme présenté permet de calculer la probabilité oule niveau de crédibilité d’une hypothèse moyennant la connaissance de données .Ces probabilité se présentent sous la forme de distribution pour les paramètresde l’hypothèse ou du modèle considéré. Habituellement, dans un positionnementstatistique classique, c’est l’inverse qui est recherché : quelle probabilité ont lesdonnées d’être vrai sachant l’hypothèse qui est supposée vrai . De là et à partir deces intervalles de confiance, un seuil de rejet est défini pour affirmer ou infirmerl’hypothèse choisie .Dans le formalisme bayésien, les données sont considérés comme vraies oucertaines . Au moyen de la relation de Bayes, une distribution, la vraisemblance d’une hypothèse, est inférée. À partir de cette vraisemblance, des intervalles decrédibilités sont définis pour les paramètres de l’hypothèse. Cette exemple est inspiré de la documentation en ligne du module Python emcee dédié à l’analyse de données par statistique bayésienne. Il s’agit d’une sériede mesure de l’activité d’un échantillon radioactif. Cette activité A est constantedans le temps. Nous réalisons une série de n mesures : D = { A i , e i } Génération des données
Le bloque de code suivant permet de générer les données : ?? PythonTeX ??
Les données sont générées avec une loi de Poisson et sont représentées à lafigure 3.3. Cette dernière est pertinente pour décrire un comptage d’événements seproduisant dans un intervalle de temps donné avec une fréquence moyenne connue
2. analytiquement et numériquement3. Voir hypothèse nulle et facteur ou valeur p4. Après tout, ce sont des faits expérimentaux.
46t indépendant du temps. Ici, la dispersion statistique est supposée être uniquementdue aux processus de mesure.
925 950 975 1000 1025 1050 1075 1100Activité en coups par seconde01020304050 M e s u r e Figure D = { A i , e i } .La barre centrale représente la valeur de référence. Une dispersion autour de lavaleur de référence est observée. Approche classique
Une fois les données acquises, le travail d’analyse consiste à répondre à la questionsuivante :
Quelle est la meilleur estimation de l’activité réelle de l’échantillon.
L’approche statistique classique, détaillée dans les premiers chapitres, indique quele meilleur estimateur est la valeur moyenne empirique : A = 1000 s − A estimée = 1 n P A i = 997 ± − Ainsi, la valeur estimée est compatible avec la valeur de référence pour 50mesures. 47 pproche bayésienne
Maintenant, nous voulons calculer la probabilité de l’activité connaissant lesmesures : p ( A | D ) en utilisant le théorème de Bayes. p ( A | D ) = p ( D | A ) · p ( A ) p ( D ) (3.3) • p ( A ) ∝ a priori est choisie uniforme et proportionnel à 1,il s’agit un d’un prior non informatif. • p ( D | A ) ∝ L ( D | A ) est la fonction de vraisemblance.Cette fonction de vraisemblance est construite de façon à chiffrer la probabilitéqu’une donnée D i soit vraie pour une activité A réelle. Supposons une erreur deforme gausienne : p ( D i | A ) = 1 q πe i e " − ( A i − A ) e i (3.4)La fonction de vraisemblance est construite de la manière suivante : L ( D | A ) = N Y i =1 p ( D i | A ) (3.5)En effet, les mesures étant indépendantes, la probabilité totale d’avoir ce jeu dedonnées est simplement le produit des probabilités de chacune des données.En combinant ces résultats avec l’équation 3.3 : p ( A | D ) ∝ L ( D | A ) (3.6)La distribution postérieur est simplement proportionnelle à la fonction devraisemblance L . Il n’est pas utile de calculer tous les termes du théorème deBayes. Le terme p ( D ) est une normalisation qui est indépendante des paramètresde l’hypothèse, il n’apporte rien à l’analyse de données. ?? PythonTeX ?? Les probabilités utiles sont définis par leur logarithmique car il est plus simplede réaliser une somme qu’un produit numériquement. ?? PythonTeX ??
Nous obtenons un ensemble de distribution de probabilité concernant le para-mètre A du modèle. L’hypothèse la plus probable et son intervalle de crédibilitésont identiques à la valeur moyenne et à l’intervalle de confiance calculés avec destechnique statistique classique. 48
80 990 1000 1010 1020Activité en coups par seconde0.000.020.040.060.08 p ( A | D ) A = 1000 A crédible = 997 ± 4 Figure D = { A i , e i } . La zone centrale grise représente l’intervalle de crédibilité. A = 1000 s − A crédible = 997 ± − L’inférence bayésienne est plus complexe à mettre en œuvre, et fournit unrésultat rigoureusement identique à l’inférence classique. L’enjeu réside dans lepositionnement de ce dernier et surtout dans l’universalité de la méthode. La partiesuivante propose une extension de l’étude réalisé ci-dessus et le code algorithmiquemis en place sera à peine modifié pour répondre à un problème bien plus complexe.Concernant la procédure numérique, la probabilité postérieure est facile àdéterminer par calcul direct. Ce n’est plus le cas quand le modèle possède beaucoupde variable. Dans la partie suivante, nous utiliserons le module emcee utilisant destechniques d’échantillonnage avec méthode de Monte-Carlo par chaîne de Markov.Ces techniques sont particulièrement adaptés lorsque le modèle se complexifie.
Cet exemple est similaire au cas précédant. Nous allons étudier l’activité radio-active d’un échantillon. A la différence de précédemment, cet activité A fluctuealéatoirement dans le temps. Nous réalisons une série de n mesures : D = { A i , e i } .Nous cherchons donc à déterminer deux paramètre : θ = [ µ A , σ A ], avec µ A lavaleur moyenne de l’activité et σ A l’écart type associée aux fluctuations intrinsèques49e la source. L’activité suit donc le modèle suivant : A ∝ q πσ A e " − ( A − µ ) σ A (3.7) Génération des données
Le bloque de code suivant permet de générer les données : ?? PythonTeX ??Approche classique d’inférence
Une approche classique consiste à définir une fonction de deux paramètresmaximisant la probabilité que les données vérifient le modèle. Cette technique estidentique à celle utilisée pour la régression linéaire qui minimise l’erreur entre unecourbe et une série de point, et donc consiste à trouver des paramètres maximisantla probabilité que les données vérifie le modèle.La fonction de vraisemblance utilisé est l’association des distributions statistiquede la source et les incertitudes de mesure. Les deux processus ne sont pas corrélés,nous allons utiliser un modèle gaussien dont l’écart type est : σ A + e i : L ( D | θ ) = N Y i =1 q π ( σ A + e i ) e " − ( A i − µ A ) σ A + e i ) (3.8)Ici, θ représente le modèle, donc l’hypothèse à vérifier.Il n’est pas possible d’utiliser des modèles analytiques pour trouver une solu-tion. Des procédures numériques existent et permettent de déterminer les valeursoptimales de µ A et σ A avec leur incertitude associées.Le principe consiste à générer un grand nombre de sous-ensembles de données àpartir des données initiales . Chacun de ces sous-ensembles est alors traité commeune réalisation des mesures pour lequel la valeur moyenne et l’écart type est calculé.Il est ainsi possible d’obtenir un ensemble de valeurs moyennes et d’écarts types etainsi d’obtenir l’incertitude sur ces deux grandeurs.Résultats avec techniques bootstrap et maximisation d’une fonction de vraisem-blance : Valeurs théoriques µ = 1000 s − σ = 10 s − Valeurs inférées µ = 1000 ± − σ = 14 ± −
5. algorithme de bootstrap ou jacknife µ et σ .Cela donne une zone de confiance rectangulaire centrée sur µ = 1000 et σ = 14de côtés les intervalles de confiance. Nous allons voir que l’approche bayésiennepermet d’aller plus loin. Approche par inférence bayésienne
De même que précédemment, nous définissons le logarithme du prior, de la fonc-tion de vraisemblance et de la probabilité postérieure. La fonction de vraisemblanceest identique (équation 3.8) à celle définie pour une approche classique. ?? PythonTeX ??
Le calcul du postérieur est encore envisageable avec une procédure naïve pourdeux paramètres à inférer. La technique consister à calculer les valeurs de log(p) pour chaque couple ( µ, σ ) dans une fenêtre donnée. ?? PythonTeX ??
Et le tracé de la distribution postérieur comme présenté en figure 3.3 : ?? PythonTeX ??
Figure D = { A i , e i } . La croix représente lavaleur la plus probable, le point rouge représente la valeur théorique.51es courbes représentent les zones de crédibilité à 68% et 95%. La formegénérale de la distribution n’est plus gaussienne et les zones de crédibilités sont plusrestreintes. Le résultat final est identique à celui obtenu par méthode classique :Résultats avec techniques d’inférence bayésienne :Valeurs théoriques µ = 1000 s − σ = 10 s − Valeurs inférées µ = 1000 ± − σ = 14 ± − a priori Cette partie est consacrée à l’influence de la probabilité a priori . L’exempleproposé est l’analyse de données d’une mesure de résistance. Les données sontsimulées numériquement, mais les incertitudes associées sont celles fournies par ladocumentation du multimètre numérique agilent 34401.
Une résistance à 5% de valeur nominale R nom = 500 Ω est déterminée aumoyen d’une méthode volt-ampèremétrique. La valeur réelle de la résistance est R vrai = 512 Ω. Les caractéristiques de la mesure sont données dans le tableauci-contre : σ U ,
002 mV σ I ,
01 mA σ R U et I sont tirées aléatoirement avec une loi normale d’écart typedonnée par les caractéristiques de la mesure. La fonction de vraisemblance reflète la loi normale choisie pour représenterl’incertitude sur les mesures. Pour une mesure, la probabilité p ( R i = U i I i | R ) estdonnée par la relation suivante : p ( R i = U i I i | R , σ R ) = 12 πσ R exp " − (cid:18) R i − R σ R (cid:19) (3.9)52our une ensemble de n mesures { R i } , la fonction de vraisemblance est leproduit des probabilités p ( R i = U i I i | R , σ R ) : p ( { R i }| R , σ R ) = n Y i =0 πσ R exp " − (cid:18) R i − R σ R (cid:19) (3.10) L’objectif est d’étudier l’influence de la probabilité a priori p ( R ) sur la proba-bilité postérieure.Nous allons utiliser deux priors différents se basant sur les connaissances sui-vantes de la valeur de résistance : • données constructeurs : prior quasi non informatif, une fonction uniformesur l’intervalle défini par la tolérance de la résistance est utilisée • mesure précédente : prior suivant une loi normale R prior = 490 ± a prosteriori Comme dans les parties précédentes, la probabilité a posteriori est définie par : p ( R |{ R i } , σ R ) ∝ p ( R ) × p ( { R i }| R , σ R ) (3.11)Une normalisation est ensuite réalisée pour obtenir une distribution. Les résultatssont tracées en figure 3.4.La probabilité a posteriori est tracée avec un nombre différent de mesure. Lecas N = 0 correspond au tracé du prior, une distribution normale et uniforme estbien retrouvé et correspondent aux informations précédant toutes mesures. Avecl’augmentation du nombre de mesures, les probabilités obtenues s’affinent de plusen plus et tendent toutes les deux vers une seule et même valeur la plus probable : R ( p max ) = 512 Ω qui est bien la valeur vraie de la résistance. ?? PythonTeX ?? .3.6 Conclusions Le prior a un effet important quand le nombre de mesures est faible, mais il tendà s’effacer rapidement avec l’augmentation de données empiriques. Les conclusionssont identiques et indépendantes du choix initiales pour le prior.A l’inverse, il est très important de réaliser un choix judicieux et éclairé duprior quand le nombre de mesure est faible. Ce dernier permet d’intégrer toute lesconnaissances liées à la grandeur mesurée, et permet d’une certaine manière unemise à jour de cette grandeur sous l’éclairage de nouvelles mesures.Cette notion de probabilité a priori est une critique récurrente associée à ladémarche d’inférence bayésienne. Cependant, il est souvent possible de formaliserdes choix rationnels et objectifs pour le prior et reflétant les connaissances préalablesà la mesure. L’avantage est qu’il permet justement de prendre en compte un certainnombre de connaissances liées à la mesure car il est rare de réaliser une mesuresans aucune intuition ou contrainte sur le résultat.545
480 500 520 R ( )0.000.050.100.150.20 p ( R | { R i } , R ) N=0 R ( p max )=490.0 R ( p max )=500.0 480 500 520 R ( )0.000.050.100.150.20 p ( R | { R i } , R ) N=1 R ( p max )=492.1 R ( p max )=505.0480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=2 R ( p max )=494.1 R ( p max )=506.8 480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=3 R ( p max )=496.9 R ( p max )=510.7480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=4 R ( p max )=498.4 R ( p max )=511.1 480 500 520 R ( )0.00.20.40.6 p ( R | { R i } , R ) N=50 R ( p max )=509.1 R ( p max )=511.6480 500 520 R ( )0.00.20.40.60.8 p ( R | { R i } , R ) N=100 R ( p max )=510.4 R ( p max )=511.7 480 500 520 R ( )012 p ( R | { R i } , R ) N=1000 R ( p max )=512.0 R ( p max )=512.2 Figure a posteriori . hapitre 4Applications de l’inférencebayésiennes à l’analyse dedonnées Ce chapitre portera sur quelques exemples d’application de l’inférence bayé-siennes. Le chapitre 3 a permis d’introduire cette méthodes et de montrer sacohérence avec les techniques d’inférence classique. Ce chapitre porte sur dessituations où les techniques classiques sont inadaptées.
Cette partie est un exemple détaillé par E.T Jaynes dans
Confidence Intervalsvs Bayesian Intervals .Prenons une installation industrielle dont le fonctionnement nécessite des piècesd’usures. A partir d’un instant θ , l’usure devient telle que la machine devient sujetteà des pannes. La probabilité qu’une panne se déclenche suit une loi exponentielle.Il est trop couteux pour l’industriel de réaliser des vérifications régulières despièces ainsi que les changer trop régulièrement.A device will operate without failure for a time θ because of a protec-tive chemical inhibitor injected into it ; but at time θ the supply ofthe chemical is exhausted, and failures then commence, following theexponential failure law. It is not feasible to observe the depletion ofthis inhibitor directly ; one can observe only the resulting failures. Fromdata on actual failure times, estimate the time θ of guaranteed safeoperation... 56a probabilité qu’une panne se produite à un instant t est donnée par ladistribution suivante : p ( t | θ ) = exp ( θ − t ) , t > θ t < θ (4.1) p ( t ) Figure θ = 10.Les données recueilli par l’industriel sont : D = { , , } en semaines.L’objectif est de trouver une estimation de θ connaissant D = { t i } .Étant donnée la forme générale de la distribution, il est évident que θ doit êtreplus petit que la plus petite valeur observée : θ ≤ min( D ). Connaissant la forme de la distribution, il est montré qu’un estimateur de θ est : ˆ θ = 1 n n X i =1 t i − intervalle de confiance par une loi normale d’écarttype σ = 1, ce n’est pas rigoureusement l’intervalle de confiance réel pour cette loi,
1. On montre que E ( t ) = R ∞ tp ( t ) dt = θ + 1 θ ± √ n (4.3)Soit : θ estimé = 12 , ± , ,
7; 12 , θ . C’est principalement lié au faible nombre de données. Ceci étant,pour ce type de problème, le nombre de données ne sera jamais élevé puisqu’il fautattendre une panne arrivant à un délais supérieur à 10 semaines pour ajouter unpoint à la statistique. Commençons par écrire le théorème de Bayes : p ( θ | D ) = p ( D | θ ) · p ( θ ) p ( D ) (4.4)Nous allons utiliser un prior non informatif : p ( θ ) = 1 et une fonction devraisemblance de la forme : p ( D | θ ) = n Y i =1 p ( t | θ ) (4.5)Le produit d’exponentielles tronquées donne : p ( D | θ ) n exp [ n ( θ − min( D ))] , θ < min( D )0 , θ > min( D ) (4.6)Dans la mesure où l’exponentielle est une fonction croissante, le plus petitintervalle [ θ min ; θ max ] contenant 65% des valeurs est donnée par : Z θ max θ min n exp [ n ( θ − min( D ))] dθ = 0 ,
65 (4.7)avec θ max = min( D ) qui vérifie l’approche de bon sens.Et donc : θ min = θ max + log (1 − , n (4.8)Ce qui donne l’ intervalle de crédibilité suivant : θ estimé = [9 ,
65; 10]Sans surprise, nous constatons que l’approche bayésienne vérifie le bon sens etpermet de définir un intervalle pendant lequel planifier l’intervention sur l’installa-tion industrielle avant que cette dernière ne tombe en panne.58 .2 Problème de la position du phare
Un phare est positionné sur des récifs au large d’une côte. Sa position et sadistance à la côte sont inconnue. Il émet aléatoirement des faisceaux étroits delumière dans des directions aléatoires. Une série de photo-détecteurs sont placés lelong de la côte et permettent simplement de détecter qu’un faisceau a été émis : ladirection dans laquelle il a été émis est inconnue.
Figure D = { x k } de position pour laquelle un flash aété enregistré. Où est situé le phare ? Il est raisonnable de penser que les flashs sont émis uniformément suivant unangle θ k autour du phare, en direction de la côte : p ( θ k | α, β ) = 1 π (4.9)Les notations utilisées sont celles définies dans la figure 4.2. Les flashs ayantlieu vers le demi espace supérieur ne sont reçus par aucun capteur et sont perdus,tout se passe comme si le phare n’émettait que vers la côte.59n reliant θ k à x k : β tan θ k = x k − α (4.10)Ainsi, en réécrivant l’équation 4.9 : p ( x k | α, β ) = 1 π ββ + ( x k − α ) (4.11)Dans ce problème, la probabilité de mesurer un flash à la position x k connaissantles coordonnées ( α, β ) du phare est décrite pas une distribution de Cauchy . Cettedistribution possède un maximum en x k = α et une largeur à demi hauteur de 2 β comme montré sur la figure 4.3. Figure α, β ) du phare. Pour des raisons de clarté,nous allons considérer β comme connue et fixée dans un premier temps et chercherà déterminer α uniquement. L’application du théorème de Bayes donne la relationsuivante : p ( α |{ x k } , β ) ∝ p ( { x k }| α, β ) · · · p ( α, β ) (4.12)
2. C’est une fonction de Lorentz. e prior p ( α, β )Nous allons choisir un prior faiblement informatif : le phare est situé dans uneplage { α min ; α max } × { β min ; β max } Les valeurs minimal et maximal sont complètement arbitraires et peuvent êtreaussi larges que souhaité si nous n’avons aucune idée de la position du phare ouau contraire plutôt réduites si une zone plus précise dans laquelle peut se situer lephare est définie. p ( α, β ) = , si α min < α < α max et β min < β < β max , sinon. (4.13) Fonction de vraisemblance p ( { x k }| α, β )Les données mesurées proviennent d’événements indépendants, la probabilitéd’obtenir un ensemble { x k } est simplement le produit des probabilités x k : p ( { x k }| α, β ) = n Y k=1 p ( x k | α, β ) (4.14)Ce qui donne :log( p ( { x k }| α, β )) = n log β − n X k=1 log (cid:16) β + ( x k − α ) (cid:17) (4.15) α la plus crédible Nous allons considérer que le prior est suffisamment large pour pour ne pas s’ensoucier dans l’écriture du postérieur. Numériquement, ce prior permet de délimiterles zones de tracé ou de recherche des solutions.log( p ( α |{ x k } , β )) = constante − n X k=1 log (cid:16) β + ( x k − α ) (cid:17) (4.16)La meilleur estimation pour la valeur de α est donnée pour le maximum de larelation donnée en 4.16. Analytiquement, cette relation est extrêmement difficile àinverser pour exprimer α en fonction des données du problème. Numériquement,c’est un problème simple à résoudre : il suffit de tracer cette probabilité en fonctionde α et de rechercher la valeur maximum graphiquement. Ce tracé est réalisé enfigure 4.4 pour des valeurs ( α, β ) = (5 , α max = 4 ,
70 km pour N = 100. La distribution quesuit α en fonction du nombre de point N tend vers une forme piquée sur la valeurvraie de α . Il est à remarquer que pour de faibles valeurs de N , cette probabilitépeut devenir multimodale : des maxima principaux et secondaires apparaissent. Iltrès difficile de pouvoir utiliser les outils classiques que sont la valeur moyenne etl’écart-type pour décrire cette distribution ou en tirer des informations.L’analyse bayésienne présente ainsi l’avantage de prendre en compte toute lacomplexité du problème et d’en donner une réponse adéquate.En ce qui concerne la valeur moyenne, il peut sembler surprenant de constaterqu’elle ne semble pas tendre vers une valeur centrale, comme le laisserait supposerune application du théorème de la limite centrale. De plus, cette valeur est trèséloignée de la zone la plus probable pour α , ce qui en fait un mauvais estimateurpour ce problème.Ici, la distribution statistique des positions sur la côte est pilotée par la dis-tribution de Cauchy. Cette dernière ne possède ni valeur moyenne, ni écart type,ce qui explique le comportement erratique de la valeur moyenne et le fait que lethéorème de la limite centrale ne s’applique pas. Recherche de α et β La démarche précédente s’étend sans difficultés aux paramètres ( α, β ). Il s’agitd’un problème à deux dimensions dont la démarche de résolution est similaire àcelui présenté en 4.5.Cette technique permet de déterminer les positions les plus probables en fonctiondes deux dimensions de la position du phare. Avec suffisamment de points, la positiondu phare est déterminée avec une bonne précision.
L’analyse de données ne peut se limiter à fournir une valeur moyenne et un écarttype ou une série de paramètres issues d’une régression. Il faut garder à l’espritqu’un tel résultat sous-entend toujours une loi normale, or ce n’est pas toujoursle cas. Prenons simplement l’exemple d’une mesure de masse, est-il raisonnabled’écrire m = 7 ± bizarrerie de la distribution de Cauchy de ne pasposséder de valeur moyenne ou d’écart type, il existe des situations où la probabilitépostérieure ne saurait se résumer à une simple loi normale. Dans beaucoup de
3. Qui est utilisée pour décrire les raies spectroscopiques. − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=1 µ =0.25 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=2 µ =7.24 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=3 µ =3.08 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=5 µ =-18.13 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=7 µ =-10.69 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=15 µ =-16.19 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=20 µ =-11.13 − −
20 0 20 40
Position α du phare (km) p ( α | { x k } , β ) N=100 µ =43.18 Figure α du phare le long de la côteen fonction du nombre de données. Le nombre de données et la moyenne de cesdernières sont indiqués en haut à gauche de chaque graphique. La valeur moyenneest représentée par un trait verticale.5 − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −
20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = p ( α, β |{ x k } ) Figure α et β du phare. Le nombrede données est indiqué en haut de chaque graphique. La position exacte du phareest représentée par un point rouge. .3 Module EMCEE pour Python EMCEE est une implantation Python d’un méthode de Monte-Carlo par chaînede Markov. Cette méthode permet d’échantillonner des distributions statistiques etd’en déterminer les caractéristiques.Références : • Ensemble samplers with affine invariance, J. Goodman and J. Weare • EMCE documentation • • Emcee : the MCMC Hammer, D. Foreman-Mackey, D. W. Hogg, D. Lang,J. GoodmanL’intérêt de cet algorithme est sa capacité à rapidement converger vers unedistribution satisfaisant la probabilité postérieure et d’en dessiner une image.Jusqu’à présent, il a été possible de tracer numériquement cette probabilité dans lamesure où les problèmes rencontrés ont peu de paramètres (maximum 2 jusqu’àprésent). La difficulté de cette méthode directe est qu’elle est trop couteuse en tempsde calcul pour des modèles avec beaucoup de paramètres, et certains nécessitentautant de paramètres que de données.
Reprenons l’analyse précédente en traitant numériquement le problème avec lemodule EMCEE. L’analyse du problème est strictement identique, seul la recherchedes paramètres α et β optimaux et le tracé diffèrent. ?? PythonTeX ?? L’algorithme EMCEE fonctionne de la manière suivante : des walkers sontinitialisés à des positions estimées et proche de la solution recherchée. Ici, les walkers pour a et b sont initialisés aléatoirement dans la zone a = [ − ,
50] et b = [0 , walkers d’explorer la distribution et de perdre la mémoire de leur position initiale, c’estla phase de burn-in . Les données acquises durant cette phase sont simplementéliminées. Enfin, après cette première phase, un certain nombre d’étapes sontlaissées aux walkers pour explorer pleinement la distribution.Le nombre d’étape de chacune des deux phases dépend de la complexité duproblème.Ensuite la distribution est tracée comme montré en figure 4.6. Les zones sombressont des zones fortement explorées par les walkers et correspondent aux zones oùla probabilité postérieure est grande.
4. module Python sous licence MIT d i s t a n c e b à l a c ô t e Figure α et β du phare calculé aumoyen de l’algorithme EMCE. Références : • Notice en ligne EMCE • Data analysis recipes : Fitting a model to data, D.W. Hogg, J. Bovy, D.LangAvec le module EMCEE et les techniques d’inférences bayésiennes, il est possiblede définir des modèles de régression suffisamment complexes pour détecter etéliminer les valeurs aberrantes d’un ensemble de données. En effet, l’enjeu estimportant dans la mesure où la régression linéaire classique est très sensible auxvaleurs aberrantes. Il existe des techniques de correction pour rendre ces régressionsmoins sensible aux valeurs aberrantes, mais ces techniques ont des limites et àdéfaut d’éliminer complètement les valeurs aberrantes, elles réduisent le poids deces dernières.
5. Fonction objectif d’Huber, par exemple. .4.1 Positionnement du problème L’objectif est de trouver les meilleurs coefficients a et b d’un modèle affine y = ax + b pour une série de données obtenues par les relations suivantes : { x i } = distribution uniforme sur l’intervalle [0 , { σ i } = distribution uniforme sur l’intervalle [2 , { y err } = N (0 , { σ i } ) { y i } = a · { x i } + b + { y err } (4.17)Les données aberrantes sont ensuite inclues dans l’ensemble des données. Le codePython indiqué ci-dessous permet la génération de données décrite précédemment. ?? PythonTeX ?? Un modèle de régression linéaire tel que décrit dans le chapitre 2 est ajoutée àla représentation graphique des données en figure 4.7. Ce dernier est lourdementinfluencé par les quelques données aberrantes et ne permet pas de décrire la relationlinéaire qui se dessine intuitivement avec les données valides.
Caractéristique des données valides
Le modèle initiale est similaire à celui décrit par la relation 2.5 : Il faut chercherun extremum d’une fonction chiffrant l’écart du modèle aux données.Nous allons supposer que l’incertitude associée à chaque point suit une loinormale. La probabilité d’avoir les données D = { x i , y i , σ i } connaissant le modèle H = ( a, b ) est : p ( { x i , y i , σ i }| ( a, b )) = p ( D | H ) = n Y i =0 πσ i exp − ax i + b − y i σ i ! (4.18)Chaque terme du produit est simplement une probabilité donnée par une loinormale d’écart type σ i et de valeur centrale ax i + b donnée par le modèle. Enutilisant cette probabilité comme fonction de vraisemblance et en prenant un prioruniforme, l’utilisation du théorème de Bayes conduit à minimiser la même grandeurque celle définie par la relation 2.5, et cela conduit au modèle de la régressionlinéaire. 68
20 40 60 80 100x050100150200 y modéle initialRégression linéaireDonnéesDonnées aberrantes Figure σ ≈
10 et centrée sur chaque point y i = ax i + b , avec a = 2 et b = − Caractéristique des données aberrantes
Une donnée aberrante est une donnée qui n’est pas corrélée au phénomène donton mesure une grandeur mais qui suit une statistique indépendante du modèle :12 πσ A exp " − (cid:18) Y A − y i σ A (cid:19) (4.19) Association des deux caractéristiques
Pour combiner les deux aspects, il est possible de construire une probabilitéreposant sur des paramètres { g i } chiffrant le caractère aberrant ou non d’unedonnées. g i est un paramètre supplémentaire associé à chaque point et variant de 0
6. Ce choix est discutable pour une mesure réelle, mais par soucis de simplification, c’est lemodèle qui est retenu pour cet exemple.
69 1 : • g i proche de 1, le point est une donnée valide ; • g i proche de 0, le point est une donnée aberrante.L’association des données aberrantes et valides se fait donc au travers de laprobabilité suivante : f ( g i ) = , si g i > g , si g i < g p ( x i , y i , σ i | ( a, b ) , g i ) = f ( g i )2 πσ i exp (cid:20) − (cid:16) ax i + b − y i σ i (cid:17) (cid:21) + 1 − f ( g i )2 πσ A exp (cid:20) − (cid:16) Y A − y i σ A (cid:17) (cid:21) (4.20)Suivant la valeur de g i , la probabilité suivie est soit celle d’une donnée valide,soit celle d’une donnée aberrante. Fonction de vraisemblance, prior et probabilité postérieure
Un prior uniforme est utilisé, par soucis de simplicité : p ( a, b ) ∝ p : p ( { x i , y i , σ i }| ( a, b ) , { g i } ) = n Y i =0 p ( x i , y i , σ i | ( a, b ) , g i ) (4.22)La probabilité postérieure est donc : p (( a, b ) , { g i }|{ x i , y i , σ i } ) = p ( H, { g i }| D ) ∝ n Y i =0 p ( x i , y i , σ i | ( a, b ) , g i ) (4.23) Code python
Les probabilités précédentes sont définies numériquement au moyen de loga-rithme pour en facilité le calcule numérique. ?? PythonTeX ??
7. Concernant le paramètre a , le prior n’est pas non informatif. En effet, il faudrait choisir uneprobabilité a tel que la probabilité que la droite fasse un angle α avec l’horizontale soit uniforme. .4.3 Paramètres de nuisance Les paramètres { g i } sont des paramètres de nuisance. Un paramètre de nuisanceest nécessaire au modèle retenu, mais n’apporte aucune information concernant lerésultat final. L’opération visant à les faire disparaitre est appelée marginalisationdes paramètres de nuisance et consiste à intégrer la probabilité sur l’ensemble desvaleurs de ces paramètres : p (( a, b ) |{ x i , y i , σ i } ) = p ( H | D ) = Z { g i } p (( a, b ) , { g i }|{ x i , y i , σ i } ) dg i (4.24) ?? PythonTeX ?? L’opération de marginalisation est cachée par le principe de l’algorithme. Eneffet, une des propriétés des chaines de Monte-Carlo est d’ imager la distributionpostérieur, et l’opération de marginalisation se fait simplement en ignorant lesparamètres { g i } . sample est un tableau dont l’une des dimensions contient les paramètres dusystème : les deux premiers sont les coefficients a et b, tous les suivants sont les { g i } . ?? PythonTeX ?? Les données a et b issues de l’échantillonnage sont représentées en figure 4.8.Une zone centrée sur a = 2 et b = 0 ressort des données et correspond aux zonesde crédibilité les plus élevées. Le modèle sélectionne les valeurs de g i minimisant l’erreur commise entrela droite moyenne et les données. Lorsque les g i dépassent une valeur seuil g arbitrairement fixée à 0 ,
5, ces derniers ne participent plus à l’évaluation descoefficients a et b .Cela signifie que les données aberrante possèdent un paramètre g i inférieur à0 ,
5. Il est donc possible de mettre en évidence les valeurs aberrantes. Le graphique4.9 reprend l’ensemble de l’analyse réalisée. Les données entourée en bleu sontcelles détectées comme valeurs aberrantes par la méthode. Une faisceau de courbesreprésentant l’intervalle de crédibilité à 95% est ajouté. La droite servant de modèleinitiale est bien inclue dans ce faisceau. ?? PythonTeX ??
L’intérêt de cette méthode est de pouvoir normaliser et rendre transparent leprocessus d’élimination des valeurs aberrantes. La richesse du formalisme d’analyse71 P e n t e a Figure a et ordonnées àl’origine b du modèle.bayésienne rend cette opération possible. Bien que plus complexe à mettre enœuvre, une fois implémenté ces outils peuvent s’utiliser dans une grande variété desituations. 723 y Ajustement par regression : inférence bayésienne modéle initialRégression linéaireDonnées estimées comme aberrantesAjustement par inférence bayésienneIntervalle de crédibilité à 2DonnéesDonnées aberrantes
Figure .5 Quelques mots pour conclure
Références : • Nature, volume 506, issue 7487, 13 February 2014, "Statistical errors", R.Nuzzo • Bayesian Reasonning in Data Analysis, G. D’AgostiniJe reviendrai simplement sur la différence de point de vu entre les traitementsclassiques et par inférences bayésiennes. Cette différence réside dans l’interprétationdonnée dans l’analyse statistique d’un problème. D’un côté, nous nous intéressons àla probabilité d’obtenir un jeu de données particulier moyennant la connaissanced’un modèle. D’un autre côté, nous déterminons le degrés de probabilité du modèleconnaissant un jeu de données.A P value measures whether an observed result can be attributed tochance. But it cannot answer a researcher’s real question : what are theodds that a hypothesis is correct ? Those odds depend on how strongthe result was and, most importantly, on how plausibile the hypothesisis in the first place.Ces deux approches sont différentes et ne répondent fondamentalement pas auxmêmes questions.La difficulté réside dans le fait que la plupart du temps l’analyse de donnéesconduit aux mêmes résultats chiffrés quelque soit la méthode employée. De ce fait,l’aspect utilitaire l’emporte : pourquoi faire compliqué ?L’approche bayésienne est complexe à mettre en œuvre auprès d’élèves ouétudiants et nécessite beaucoup de prérequis. Le cadre des travaux pratiques entemps limité ne permet souvent pas de réaliser l’analyse de données ou même de s’yarrêter quelques minutes alors qu’elle fait partie intégrante du travail expérimental.Cependant, après ce modeste tour des capacités d’analyse de l’approchebayésienne et des limites de certaines pratiques, j’ose espérer que l’analyse dedonnées occupera une place plus importante, et qu’a défaut de rentrer dans lesdétails, le cadre d’application des méthodes d’analyses statistiques sera défini et lesens à donner à ces analyses sera introduit.
8. Cette probabilité se résume souvent au fameux facteur p .9. Au vu de la littérature universitaire existant sur le sujet.9. Au vu de la littérature universitaire existant sur le sujet