[PDF] Incertitudes et mesures

Abstract

Educational guide focused on the statistical treatment of measurement uncertainties. The conditions of application of current practices are detailed and precised: mean values, central limit theorem, linear regression. The last two chapters are devoted to an introduction to the Bayesian inference and a series of application cases: machine failure date, elimination of a background noise, linear adjustment with elimination of outliers.

Full PDF

IIncertitudes et Mesures

Petit guide pédagogiqueR. Legrand15 juillet 2020 a r X i v : . [ s t a t . O T ] J u l able des matières y . . . . . . . . . . . . . . . . 312.1.3 Incertitudes suivant y . . . . . . . . . . . . . . . . . . . . . . 312.2 Paramètres inﬂuençant les intervalles de conﬁance des coeﬃcients a et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.2.1 Estimateur de a . . . . . . . . . . . . . . . . . . . . . . . . . 331.2.2 Estimateur de b . . . . . . . . . . . . . . . . . . . . . . . . . 342.3 Valeurs aberrantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.3.1 Sensibilité aux données . . . . . . . . . . . . . . . . . . . . . 342.4 Limites de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . 352.4.1 Loi initiale non linéaire . . . . . . . . . . . . . . . . . . . . . 362.4.2 Présence d’incertitudes suivant x et y . . . . . . . . . . . . . 362.4.3 Incertitudes corrélées et changement de variable . . . . . . . 362.5 Conditions d’applications de la méthode des moindres carrés . . . . 392.6 Méthode de régression lorsque l’incertitude sur les données est inconnue 392.6.1 Estimateur de l’incertitude σ (cid:15) . . . . . . . . . . . . . . . . . 392.6.2 Intervalle de conﬁance pour a et b . . . . . . . . . . . . . . . 392.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 a priori . . . . . . . . . . . . . . . . . . 523.3.1 Positionnement du problème . . . . . . . . . . . . . . . . . . 523.3.2 Fonction de vraisemblance . . . . . . . . . . . . . . . . . . . 523.3.3 Choix du prior . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.4 Tracé de la probabilité a prosteriori . . . . . . . . . . . . . . 533.3.5 Code Python . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 α laplus crédible . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.3 Module EMCEE pour Python . . . . . . . . . . . . . . . . . . . . . 664.3.1 Retour sur le problème de la position du phare . . . . . . . . 664.4 Régression et élimination des données aberrantes . . . . . . . . . . 674.4.1 Positionnement du problème . . . . . . . . . . . . . . . . . . 684.4.2 Construction du modèle . . . . . . . . . . . . . . . . . . . . 684.4.3 Paramètres de nuisance . . . . . . . . . . . . . . . . . . . . . 714.4.4 algorithme EMCEE . . . . . . . . . . . . . . . . . . . . . . . 714.4.5 Élimination des données aberrantes . . . . . . . . . . . . . . 714.5 Quelques mots pour conclure . . . . . . . . . . . . . . . . . . . . . . 743 able des ﬁgures n tirages issus de pro-cessus aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.7 Évolution de l’écart type d’une moyenne de n tirages corrélés . . . . 211.8 Écart type de la moyenne de n tirages non corrélés issus de processusaléatoire suivant une loi de Cauchy . . . . . . . . . . . . . . . . . . 221.9 Dispositifs expérimentales pour mise en évidence du théorème de lalimite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.10 Coeﬃcients de Student donnés pour diﬀérents intervalles de conﬁance1 − α et un nombre de degré de liberté k . Pour un calcul de valeurmoyenne k = N −

1, avec N le nombre de points à disposition. Ladernière ligne correspond à un nombre inﬁni de points de mesure etdonc au cas d’une loi normale continue. . . . . . . . . . . . . . . . . 262.1 Exemple d’ajustement linéaire . . . . . . . . . . . . . . . . . . . . . 312.2 Distribution statistique d’un coeﬃcient déterminé par régressionlinéaire : incertitudes constantes . . . . . . . . . . . . . . . . . . . . 322.3 Distribution statistique d’un coeﬃcient déterminé par régressionlinéaire : incertitudes non constantes . . . . . . . . . . . . . . . . . 332.4 Distribution statistique d’un coeﬃcient déterminé par régressionlinéaire : inﬂuence d’une valeur aberrante . . . . . . . . . . . . . . . 352.5 Distribution statistique d’un coeﬃcient déterminé par régressionlinéaire : inﬂuence du non respect des conditions d’application . . . 383.1 Données brutes de l’activité d’un échantillon radioactif . . . . . . . 473.2 Inférence bayésienne : activité d’un échantillon radioactif . . . . . . 493.3 Inférence bayésienne : détermination de deux paramètres . . . . . . 514.4 Inﬂuence du nombre de mesures et du prior sur le résultat ﬁnal . . 554.1 Distribution exponentielle : modélisation d’un risque aléatoire depanne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2 Illustration de la géométrie du problème de la détermination de laposition d’un phare . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.3 Distribution de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Probabilité postérieure de la position α du phare . . . . . . . . . . 644.5 Probabilité postérieure des coordonnées α et β du phare . . . . . . 654.6 Probabilité postérieure déterminée au moyen de l’algorithme EMCEE 674.7 Données issues d’un tirage aléatoire : inﬂuence des données aber-rantes sur la régression linéaire . . . . . . . . . . . . . . . . . . . . 694.8 Inférence des coeﬃcients a et b ajustement d’un modèle aﬃne . . . 724.9 Ajustement d’un modèle aﬃne par inférence bayésienne . . . . . . . 735 ntroduction Ce document est initialement à destination des enseignants de BTS en mesuresindustrielles et a été rédigé en vu de préparer la réforme du BTS Métiers de lamesure. Il propose une initiation à l’évaluation des incertitudes expérimentalesen sciences. La première partie consiste en une revue des notions classiquementabordées en classes de lycée et post-bac. Les autres parties seront centrées surdes études de cas. Les méthodes par inférences sont au centre des techniques etméthodes proposées dans ce cours.J’ai choisi de ne pas développer l’aspect "mesure" pour me concentrer rapidementsur les implications d’une incertitude statistique relative à cette mesure. Avec grandemodestie, je souhaite mettre à plat le fait que l’ensemble des usages associés auxopérations de mesure relève souvent du réﬂex et ces usages sont "transmis" auxélèves et étudiants avec la même intensité dogmatique que lorsque nous étionsnous même étudiants. Nous sommes nous arrêté pour comprendre pourquoi aprèsavoir acquis des données, nous en faisons la moyenne arithmétique ? Et pourquoine retenons nous pas plutôt la valeur médiane ou n’importe quel autre estimateur ?Comment et pourquoi éliminer des valeurs aberrantes, et surtout comment lescaractériser ?L’objectif est de réaliser un tour des techniques statistiques employées pour tirerune valeur et une incertitude d’un ensemble de données. Ces notions statistiques surlesquelles reposent nos calculs d’incertitudes sont loin d’être naïves et ne sont pastoutes abordables en cycle secondaire, ni même en cycle BTS. Ceci étant, les oubliercomplètement conduit à ne jamais se poser de questions quand à l’utilisation deces outils.Ce cours ne contient pas de notions sur la composition des incertitudes, ladistinction entre incertitudes de type A et et de type B, ni même de techniques d’éva-luation des incertitudes. Ce sont des sujets importants, et il existe de nombreusesressources en ligne couvrant ces sujets.Les chapitres 3 et 4 portent exclusivement sur l’approche par analyse bayésiennede l’analyse de données. Il s’agit d’une simple introduction, des ouvrages ou articlesbien plus complets existent pour approfondir le sujet. Les ressources utilisées pour

1. Pour le moment. . .

6a rédaction de ce document sont citées en tête de chapitre.L’ensemble des méthodes numériques sont réalisées avec Python 3. Ce documentest distribuée sous licence Creative Commons BY-NC-SA .7 hapitre 1Incertitudes et mesures Ce premier chapitre propose une vue d’ensemble des techniques et méthodesutilisées dans les classes de lycée et formations post-bac techniques et scientiﬁquesen sortie de lycée. Souvent présentées comme un ensemble de règles à appliquer, lesfondements théoriques sont souvent négligés quand à l’évaluation des incertitudesd’une mesure. Pourtant, il est loin d’être systématique que les conditions d’applica-tion des méthodes enseignées soit réunies et cela conduit à une évaluation erronéedes incertitudes de mesure.Enﬁn, il permettra d’introduire le fait qu’une mesure et son analyse ne peuventse passer d’éléments statistiques. Ces derniers sont le langage nécessaire et adéquatà la compréhension du processus de mesure et l’élaboration de son incertitude.Références : • VIM : Vocabulaire international de métrologie, BIPM • GUM : guide pour l’expression de l’incertitude de mesure, BIPM • Simple demonstration of the central limit theorem using mass measure-ments, K. K. Gan • A simple demonstration of the central limit theorem by dropping ballsonto a grid of pins, K. K. Gan • Arrondissage des résultats de mesure, Nombre de chiﬀres signiﬁcatifs,M.M. Bé, P. Blanchis, C. Dulieu • Statistiques, IUT Biothechnologie, 2ème année, Université de La Rochelle,J-C. Breton

Les sciences physiques sont une science expérimentale. Elles reposent sur laméthode scientiﬁque permettant la validation d’hypothèses à partir d’observations8xpérimentales. Ces observations expérimentales nécessitent des mesures de gran-deurs physiques qui sont alors connues avec un certain degrés d’incertitude. Nousverrons qu’il est nécessaire d’introduire un traitement statistique des données ac-quises. Ce dernier permet de circonscrire le domaine de connaissances, de certitudesassociées aux mesures et au modèle.Concernant le domaine industriel, seul l’aspect mesure de grandeurs physiquesest mis en jeu dans le cadre de processus de fabrication, de contrôles, d’accordà une norme ou un cahier des charges par exemple. Mais le fond du problèmereste identique : Comment quantiﬁer ces incertitudes pour valider ou comparer lesmesures réalisées ?

Les notions recouvrants les concepts d’ erreurs de mesures sont diverses etvariés et peuvent être souvent source de confusion. Les organisations de métrologie,regroupées sous l’acronyme

ISO ont publié un Guide pour l’expression de l’incer-titude de mesure ainsi que le

VIM : Vocabulaire international de métrologie aﬁn destandardiser les usages.Ces ouvrages utilisent et déﬁnissent une centaine de termes et acronymes.Voici quelques extraits du VIM :

Le mot "mesure" a, dans la langue française courante, plusieurs signiﬁca-tions. Aussi n’est-il pas employé seul dans le présent Vocabulaire. C’estégalement la raison pour laquelle le mot "mesurage" a été introduit pourqualiﬁer l’action de mesurer. Le mot "mesure" intervient cependant à denombreuses reprises pour former des termes de ce Vocabulaire, suivanten cela l’usage courant et sans ambiguïté. On peut citer, par exemple :instrument de mesure, appareil de mesure, unité de mesure, méthodede mesure. Cela ne signiﬁe pas que l’utilisation du mot "mesurage" aulieu de "mesure" pour ces termes ne soit pas admissible si l’on y trouvequelque avantage.

Extrait du VIM • Mesurage , m : processus consistant à obtenir expérimentalement uneou plusieurs valeurs que l’on peut raisonnablement attribuer à une grandeur • Mesurande , m : grandeur que l’on veut mesurer

1. International Organization for Standardization .2.2 Valeur vraie et Valeur de référence • Valeur vraie , f : valeur d’une grandeur compatible avec la déﬁnitionde la grandeur • Valeur de référence , f : valeur d’une grandeur servant de base decomparaison pour les valeurs de grandeurs de même natureOn notera le caractère prudent et pragmatique de la déﬁnition de la

Valeurvraie . Dans les faits, il est impossible d’avoir accès à la valeur vraie d’une grandeur.En dehors des constantes fondamentales, pour lesquelles on considère qu’il n’existequ’une seule valeur vraie, il est important de noter que les données acquises lorsqu’un mesurage ne permettent que de déﬁnir des intervalles dans lesquelles il estraisonnable de penser que la valeur vraie se situe.Cette notion sera rediscutée dans la partie traitant d’inférence et dans laquelle ilne sera plus question de trouver la valeur vraie, mais plutôt de déﬁnir la probabilitéqu’une valeur soit vrai. • Incertitude de mesure , f : paramètre non négatif qui caractérise ladispersion des valeurs attribuées à un mesurande , à partir des infor-mations utilisées • Erreur de mesure , f : diﬀérence entre la valeur mesurée d’une gran-deur et une valeur de référence

Il est à noter que ces déﬁnitions ne font pas référence à la valeur vraie . S’iln’existe pas de valeur de référence, il est diﬃcile d’utiliser la notion d’erreur telleque déﬁnie dans le

VIM . Il reste donc cette notion d’incertitude de mesure qui estune grandeur déterminée par analyse des données et permettant de déﬁnir un degréde conﬁance pour la valeur mesurée.

Les sources des incertitudes de mesures sont répertoriées dans les documentsISO consacrés aux incertitudes de mesure : conditions environnementales, biaishumain, mesurande intrinsèquement aléatoire, etc.L’ensemble de ces sources sont globalement à regrouper en deux catégories.Celles qui ont un eﬀet systématique sur la mesure, celles qui ont un eﬀet aléatoire. • Les eﬀets systématiques conduisent à un décalage constant de la valeurmesurée par rapport à la valeur théorique. Une fois identiﬁés, ces eﬀets10ystématiques peuvent être simplement retranchés à la valeur mesurée.Toute la diﬃculté réside dans l’identiﬁcation et l’évaluation de ces eﬀetssystématiques. • Les eﬀets aléatoires conduisent à une erreur aléatoire dispersée autourde la valeur vraie. Ces eﬀets peuvent être liés à l’objet d’étude ou auprocessus de mesure . Dans les deux cas, il sera possible d’étudier lesmesures avec une méthode statistique pour en tirer des informations utilessur le mesurande. Remarque didactique

Il est courant de voir les notions d’incertitude aléatoire et systématique repré-sentées comme des ﬂèches atteignant une cible donc le centre serait la valeur vraie (ﬁgure 1.1).

Figure qualité de la mesure est caractérisée àpartir de cette connaissance. Dans les faits, il ne faut pas oublier que la valeurvraie n’est jamais connue et que cette valeur ne peut qu’être estimée à partir desdonnées. La ﬁgure 1.2 représente, à mon sens, tout aussi schématiquement maisplus correctement la conception qu’il faut se faire d’une analyse de données. Surcette ﬁgure, les données sont des points représentés par des couleurs diﬀérentes :trois jeux de données sont respectivement représentés en rouge, vert et bleu. Laposition moyenne de chaque jeu de donnée est utilisée comme centre d’un cercledont le rayon est l’écart type. • Les jeux de mesures vert et rouge présente la même dispersion, donc lesmêmes incertitudes de mesure, mais ne sont pas centrées sur la mêmemoyenne : mise en évidence d’une erreur systématique.

2. Par exemple, la taille d’individus dans une population.3. Mesure de l’accélération de la pesanteur en un lieu précis. Les jeux de mesures rouge et bleu sont "inclus" l’un dans dans l’autre, cesdeux mesures sont compatibles mais présente une dispersion, donc uneincertitude aléatoire diﬀérente • A partir de ces trois jeu de données, il est raisonnable de penser que seulsles mesures vertes présentent une erreur systématique par rapport à lavaleur vraie.

Figure

Distribution statistique et mesures

La dispersion des valeurs issues du mesurage forme une distribution statistique.Cette distribution est souvent modélisable par une loi de probabilité décrivant lecaractère aléatoire d’une expérience.La description de cette loi de probabilité se fait avec un nombre restreint deparamètres. En particulier, dans le cadre d’une mesure, valeur moyenne et de l’écarttype de la loi de probabilité sont les deux paramètres permettant de caractériserprincipalement le résultat de la mesure. Ces deux grandeurs sont formellementdéﬁnies par les relations suivantes : 12our un nombre N d’éléments contenus dans la distribution :Espérance : µ = 1 N N X i x i (1.1)Écart type : σ = vuut N N X i ( µ − x i ) (1.2)Le nombre d’éléments contenu dans cette distribution statistique peut être inﬁnisi la grandeur physique mesurée est continue. Ainsi, en raisonnant sur l’ensembledes éléments accessibles au mesurage, il est possible de déﬁnir la moyenne et l’écarttype d’une loi de probabilité f ( x ) par :Espérance : µ = Z f ( x ) dx (1.3)Écart type : σ = Z f ( x )( µ − x ) dx (1.4) Remarque :

La variance est déﬁnie comme le carré de l’écart type V = σ .Les deux termes recouvrent des concepts similaires.Ces distributions sont caractéristique du mesurage et du mesurande. Loi Normale

Les lois normales jouent un rôle central. Elles sont parmi les loi de probabilité lesplus adaptées pour modéliser les phénomènes naturels issus d’événements aléatoires.Elles prennent une place particulière car elles sont la limite de suites de tiragesaléatoires indépendants et dont le comportement individuel ne suit pas forcémentune loi normale (voir théorème de la limite centrale).La loi normale représentée en ﬁgure 1.3 est déﬁnie par la distribution suivante : N ( x ) = 1 σ √ π e − (cid:18) x − µσ (cid:19) (1.5)Il s’agit d’une courbe symétrique dont les valeurs les plus probables sont situéesà quelques écarts types de la valeur moyenne. Pour la loi normale, on peut citerquelques intervalles de conﬁance : • P ( µ − σ ≤ x ≤ µ + σ ) = 0 , • P ( µ − σ ≤ x ≤ µ + 2 σ ) = 0 , • P ( µ − σ ≤ x ≤ µ + 3 σ ) = 0 ,

20 40 60 80 100 x0.000 ( x ) Moyenne µ de la loi´Ecart type σ Loi normale N ( x ) Figure µ = 50 et dont l’écart type σ = 10. • résultat du mesurage : espérance µ • incertitude de mesure caractérisée par l’écart type σ Cela signiﬁe qu’un mesurage aura 68% de chance de fournir une valeur située àune distance σ de l’espérance µ . Construction d’estimateurs à partir de données

En réalité, il est impossible d’avoir accès à la loi de probabilité dans sontensemble mais uniquement à une sous partie, à un échantillon réalisant la loide probabilité : c’est l’objectif du mesurage, qui permet d’obtenir des donnéesreprésentative de la distribution à laquelle obéit le mesurage en question.A partir de ces données, le rôle des estimateurs est de fournir une estimation de l’espérance et de l’écart-type. Ces deux grandeurs sont représentatives de lavaleur vraie d’une part et de l’incertitude associée au mesurage d’autre part.Pour une loi statistique d’espérance µ et d’écart type σ et à partir d’un ensemblede données x i de cardinal n , on déﬁnit les estimateurs suivants :

4. Grandeur permettant d’évaluer un paramètre statistique inconnu à partir d’un échantillon.Divers paramètres caractérisent les estimateurs : convergence, biais, eﬃcacité et robustesse.L’objectif de ce document n’est pas de refaire un cours démontré de statistique mais de donnerdes éléments permettant un approfondissement du sujet. x sans biais de l’espérance est la moyenne arithmétique : x = 1 N N X i x i (1.6)L’estimateur σ n − sans biais de l’écart-type lorsque l’espérance est inconnue : σ n − = 1 n − n X i ( x i − x ) (1.7) Remarque : cet estimateur est aussi appelé "écart type expérimental", pouréviter la confusion il est conseillé d’utiliser le terme d’estimateur de l’écart type.Dans le cas où l’espérance µ est connue, l’estimateur S de l’écart type est alors : S = 1 n n X i ( x i − µ ) (1.8)Cet estimateur est rarement utilisé dans le cadre d’une mesure physique puisquele but d’une mesure est de déterminer cette valeur moyenne qui sera ensuiteassimilée à l’espérance qui est la valeur vraie du mesurage et de caractériser le toutpar un écart type. Intervalle de conﬁance

Si un mesurage x i contenant n valeurs suit une loi statistique d’espérance µ etd’écart type σ alors, l’application du théorème de la limite centrale indique que lamoyenne arithmétique x suit une loi normale d’espérance µ et d’écart type σ √ n .Il est classiquement conclu le résultat suivant concernant µ la valeur vraie de lamesure x = µ ± σ √ n (1.9)Ce qui, en terme d’intervalle, correspond à la probabilité suivante pour une loinormale : P ( µ − σ √ n ≤ x ≤ µ + σ √ n ) = 68% (1.10)Cela signiﬁe que statistiquement, la valeur moyenne des données à 68% dechance d’être située à σ √ n de l’espérance de la distribution, qui peut être assimiléeà la valeur vraie recherchée. 15lassiquement, un retournement de cette relation est réalisé pour déterminerl’intervalle de conﬁance. En assimilant x à µ , on obtient l’intervalle de conﬁancesuivant : P ( x − σ √ n ≤ µ ≤ x + σ √ n ) = 68% (1.11)Cet intervalle correspond à l’incertitude type u de la mesure : u ( x ) = σ √ n (1.12) Remarque :

Ces résultats ne sont utilisables que lorsque la variance de lavaleur du mesurage est connue. Cette variance peut être éventuellement déterminéeau travers d’un processus de composition des incertitudes.

Incertitude élargies U L’incertitude élargie correspond à des intervalles de conﬁance déﬁni pour uneprobabilité donnée que la valeur vraie du mesurande soit dans l’intervalle. Généra-lement, on déﬁnit un facteur d’élargissement k tel que l’incertitude élargie U = ku ,avec u l’incertitude type.Pour un mesurage suivant une loi normale, il est possible de déﬁnir les incerti-tudes élargies suivantes :facteur d’élargissement k niveau de conﬁance en %1 68 ,

32 95 ,

53 99 , Ce théorème permet de connaitre la statistique limite de la valeur moyenne devariables indépendantes possédant une espérance et un écart type borné. La valeur16oyenne tend vers une loi normale dont l’écart type est de la forme σ √ n .Ce résultat est d’une importance fondamentale dans le domaine de la mesure.En eﬀet, il permet de comprendre l’intérêt d’évaluer la valeur moyenne d’une sériede données : cette valeur moyenne tend vers une valeur limite et l’incertitudeassociée à cette valeur moyenne décroit avec le nombre de mesures en 1 √ n . Imaginons qu’un étudiant reçoive une note comprise en 0 et 10. Bien que ce nesoit pas ﬂatteur pour l’enseignant, cette probabilité est constante sur l’ensembledes notes accessibles à l’étudiant. L’étudiant reçoit N notes.Quelle loi statistique suit la valeur moyenne ?Pour répondre à ce problème, nous allons exploiter à notre avantage la possibilitéd’utiliser des programmes informatiques capables "d’explorer" pour nous ce type dedistribution. L’idée est de simuler l’existence de centaines de milliers d’étudiantsrecevant N notes dont nous allons calculer la valeur moyenne.Le choix d’une distribution uniforme et continue de notes peut sembler éloignerde la réalité, mais les résultats sont identiques avec une distribution discrète etuniforme.Pour N = 3, nous allons tirer au sort 3 notes, puis en calculer la moyenne pourla stocker dans un tableau. Ensuite le processus recommence avec un nouveau jeude note. Il est ainsi possible de s’intéresser à la statistique de la moyenne.Pour N = 3, le résultat obtenu est celui présenté en ﬁgure 1.4.La distribution possède une forme de courbe en cloche, la valeur la plus probableest 5, sans surprise. La courbe représentée en noir est une loi normale de mêmevaleur moyenne et de même écart type. La courbe obtenue, bien que proche, nesuit pas une loi normale. Outre quelques écarts, la diﬀérence majeur est que la loinormale autorise des valeurs allant à l’inﬁni. Ici, c’est impossible dans la mesureoù les notes et la valeur moyenne sont comprises entre 0 et 10.Réaliser ce même travail pour diﬀérentes valeurs de N (ﬁgure 1.5 page 19). Pour N = 1, nous retrouvons la distribution initiale uniforme sur l’intervalle [0, 10], auxﬂuctuations statistiques prés qui s’atténuent en augmentant le nombre de tirages.Pour N = 2, la distribution est triangulaire, avec un maximum de probabilité à5. Pour N ≥

3, la forme générale s’arrondit et la courbe s’aﬃne de plus en plus :son écart type se réduit. Pour chaque valeur de N , une courbe de loi normalede même moyenne et de même écart type est tracée. Très rapidement, la forme

5. Il s’agit d’une distribution uniforme et continue sur l’intervalle [0,10] . . . . . Figure , qui est obtenue en réalisant lamoyenne d’une distribution uniforme. Le théorème de la limite centrale stipule que l’écart type de la distributionstatistique de la valeur moyenne tend vers σ √ N , où σ est l’écart type de la distributioninitiale .Pour vériﬁer ce résultat, il suﬃt de réaliser un comptage pour connaitre le ratiode moyennes qui sont situées à moins d’un écart type de la valeur centrale. Pourune loi normale, cela correspond à l’intervalle de conﬁance à 68%. Ces résultats sontdonnés par la valeur P précisée sur la ﬁgure 1.5 page suivante. Très Rapidement,ce ratio et donc l’intervalle de conﬁance s’approche de la valeur théorique d’une loinormale. P nk =0 − k C nk (cid:18) x − ab − a − k/n (cid:19) n − sgn (cid:18) x − ab − a − k/n (cid:19)

7. Ici, pour une distribution uniforme : σ = Valeur Maximum − Valeur minimum √ , soit ici √ ≈ , = 1 P = 0 . N = 2 P = 0 . N = 3 P = 0 . N = 4 P = 0 . N = 5 P = 0 . N = 6 P = 0 . N = 7 P = 0 . N = 8 P = 0 . N = 10 P = 0 . N = 20 P = 0 . N = 40 P = 0 . N = 80 P = 0 . Figure N notes comprisesentre 0 et 10. Le tirage aléatoire est réalisé 300 000 fois, ce qui permet d’explorerla loi statistique issue de ce calcul de moyenne. P représente le ratio du nombre demoyennes comprise dans l’intervalle µ ± σ √ N . On constate rapidement que P tendvers 0 ,

68 qui est l’intervalle de conﬁance d’une loi normale.

Les conditions d’application de ce théorème sont faibles. Dans sa formulationclassique, il est demandé aux données issues du mesurage d’être non corrélées et desuivre une même statistique possédant un écart type constant et ﬁni. Ces conditionssont très largement répandues et c’est ce qui explique la prédominance des loisnormales pour décrire la plupart des phénomènes physiques ou naturelles.D’autres formulations ont des hypothèses encore plus faibles. Le théorèmede la limite centrale continue d’être valable si les variables sont indépendantes etsuivent une statistique d’écart type ﬁni : il n’est pas obligatoire que les statistiques

8. Condition de Liapounov ou condition de Lindeberg

19u même que les écart type soient identiques.Enﬁn, dans le cas de variables faiblement corrélés, il est démontré que la valeurmoyenne continue de tendre vers des lois statistiques centrées et dont l’écart typedécroit avec le nombre de données. Dans ce cas, l’incertitude sera d’autant plusréduite que le nombre de mesures sera important, mais les intervalles de conﬁancesont beaucoup plus diﬃciles à évaluer.Le graphique 1.6 représente l’écart type de la valeur moyenne d’un tiragealéatoire suivant une loi normale d’écart type σ = 1 en fonction du nombre devariables. Les variables sont indépendantes et l’écart type constant. L’écart typesuit bien une évolution en 1 √ n caractérisée par une droite de pente de − . l og ( σ ) y = ax + b a = -0.497b = -0.014 Figure n tirages issus deprocessus aléatoire suivant une loi normale d’écart type constant. Le graphique esten échelle log/log aﬁn de mettre en évidence une droite de pente − . Lorsque l’opération de mesurage à un eﬀet sur les mesurages successifs, lesdonnées acquises ne sont plus indépendantes les unes des autres. Par exemple, lorsd’une mesure électrique, l’auto-échauﬀement peut contribuer à modiﬁer le résultatde mesures successives.Dans ce cas, il est diﬃcile de conclure quoi que ce soit. Dans la plupart descas, la corrélation entre les mesures sera faible et une forme, même faible, duthéorème de la limite centrale continuera de s’appliquer et il pourra être observéune réduction des incertitudes. Ceci étant, il n’est pas possible d’aﬃrmer que les

9. Inﬂuence of global correlations on central limite théoréms ans entropic extensivity, Marsh,Fuentes, Moyano, Tsallis √ n .Le graphique 1.7 représente un teste similaire à la ﬁgure 1.6 page précédente, àceci prés que les variables sont corrélés entre elle par la relation suivante : x i +1 = N ( x → i , σ = 1) (1.13)La variable aléatoire i suit une loi normale d’écart type constant σ = 1 etd’espérance x → i la valeur moyenne de l’ensemble des tirages aléatoires précédents. l og ( σ ) y = ax + b a = 0.013b = 0.192 Figure n tirages corrélés issusde processus aléatoire suivant une loi normale d’écart type constant. Le graphiqueest en échelle logarithmique. L’écart type ne converge pas pour ce type de tiragealéatoire. Il n’est pas possible de déﬁni un écart type pour certaines distribution. Enparticulier, les lois suivant une statistique Lorentzienne encore appelé lois de Cauchyne possède pas d’écart type et sont adaptés pour modéliser les raies d’émission enspectroscopie : f ( x, x c , a ) = 1 π · a ( x − x c ) + a (1.14)Le théorème de la limite centrale ne peut pas s’appliquer si ce type de bruit estprésent lors du mesurage. Voir ﬁgure 1.8 page suivante21 l og ( σ ) y = ax + b a = -0.080b = 5.301 Figure n tirages non corrélés issus de processusaléatoire suivant une loi de Cauchy de valeur centrale x c = 0 et de facteur d’échelle a = 1. Le graphique est en échelle logarithmique. L’écart type ne converge pas pource type de tirage aléatoire. D’un point de vu didactique, il est intéressant de réaliser une démonstrationexpérimentale de ce théorème. La démonstration formelle nécessite une maitrise desnotions d’intégration, de convergence de série par majorant. Elle n’est pas à portéed’étudiants en début de cycle et ne contribue pas à comprendre son mécanisme defonctionnement.L’objectif n’est pas de commenter en détails les dispositifs pédagogiques, maisde simplement lister quelques idées fonctionnant en phase de travaux pratiques avecles étudiants. Il est à garder en mémoire que la mise en évidence de ce théorèmenécessite forcement un grand nombre de répétitions. Il est donc important detrouver des systèmes simples et rapides à mettre en place.Pour assurer une convergence relativement rapide, il est important de respecterles conditions suivantes : • les mesurages doivent être indépendants ; • les écart types doivent être relativement homogène. Réalisation expérimentale • Mesurer la masse de 100 mL d’eau dans une éprouvette graduée de 400 mL.L’expérience est réalisée par deux étudiants, le premier remplissant l’éprou-vette pendant que le second réalise la mesure de la masse. Un total de 3022esures doit être réalisé ; • Mesure de la masse d’un plateau percé de 9 trous de rayons diﬀérentsremplis de petites billes d’aciers. • Planche de Galton • Mesures de la valeur d’une résistance Figure

Simple demonstration of the central limit theorem using mass measurementsand A simple demonstration of the central limit theorem by dropping balls onto agrid of pins, K. K. Gan . Simulations numériquesTirage discret :

Avec un tableur, il est relativement simple de réaliser la moyenne d’un tiragediscret aléatoire et d’en répéter l’expérience un grand nombre de fois pour voirapparaître une loi normale.

Tirage continue :

Il est possible avec n’importe quel langage de programmation de réaliser unemise en évidence de ce théorème. Les tirages pseudo-aléatoires sont suﬃsammentpour reproduire l’aspect aléatoire d’une mesure. Le principe de l’algorithme est lesuivant :

10. Permet rapidement de mettre en évidence le théorème de la limite centrale11. Automatisable avec mesures réalisées par un multimètre ineﬀaçable avec ordinateur

23. Déﬁnir un nombre n qui sera le nombre de mesure réalisés. n peut être comprisentre 10 et 100, la forme gaussienne de la loi normale est atteinte pour n = 10.2. Déﬁnir un nombre p qui représente le nombre de répétitions des n tiragesaléatoires. p doit être grand, au minimum 1000.3. dans une boucle allant de 1 à p : • Réaliser n tirages aléatoires d’une variable x : x i , i allant de 1 à n.La distribution utilisée pour ce tirage peut être quelconque tantqu’elle possède une valeur moyenne et un écart type déﬁni. Unesimple loi uniforme comprise entre 0 et 10 suﬃt. • Calculer la valeur moyenne des n tirages précédents : x j , j allant de1 à p et stocker cette valeur dans un tableau à p entrées.4. Réaliser un histogramme des valeurs de x p La ﬁgure 1.5 page 19 a été réalisée pour diﬀérentes valeurs de n à partir d’uneloi uniforme comprise entre 0 et 10.Le code ci-dessous est une version python de l’algorithme suggéré. ?? PythonTeX ??Comprendre le théorème de la limite centrale C’est un résultat surprenant de voir surgir une distribution de valeurs de plusen plus piquées sur une valeur centrale alors que le tirage réalisé est uniforme. Il nefaut pas oublier que cette distribution n’est plus la distribution initiale. La variableétudiée est la valeur moyenne x et non les x i .Ce résultat apparait intuitivement en raisonnant en terme de combinaisons.Prenons un tirage aléatoire et uniforme x i d’une note entre 0 et 10 : • La meilleur moyenne possible x est la valeur 10. Cette moyenne est réaliséesi tous les x i obtenus valent 10. Il n’y a qu’une seule combinaison possible. • La plus mauvaise moyenne possibles x est la valeur 0. Cette moyenne estréalisée si tous les x i obtenus valent 0. Il n’y a qu’une seule combinaisonpossible. • La moyenne médiane de 5, quand à elle, est obtenue par un plus grandnombre de combinaison, rien qu’en prenant 2 notes : { , } , { , } , { , } , { , } . . . Cette moyenne peut être obtenues par un grand nombrede tirages diﬀérents.Les deux premiers cas constituent les extrémités de la distribution, ils sont obte-nus pour une combinaison unique de x i . Intuitivement, il est facile de comprendreque cette réalisation est rare, beaucoup plus rare qu’une moyenne de 5 qui estréalisée par un grand nombre de combinaisons.24e théorème de la limite centrale est donc un résultat combinatoire. Il esthautement plus probable d’avoir une moyenne proche du centre de la distributioncar un grand nombre de tirages permette de la réaliser plutôt qu’une moyenneéloignée du centre de la distribution. Le théorème de la limite centrale permet de calculer l’incertitude associée àla moyenne d’un mesurage lorsque l’incertitude ou l’écart type du mesurage estconnue. Ce n’est pas toujours le cas, et la loi de Student permet de déterminer unintervalle de conﬁance lorsque l’écart type est inconnu. Ce dernier est estimé par : σ n − = 1 n − n X i ( x i − x ) (1.15)Les intervalles de conﬁance sont alors données par la relation : " X − t σ n − √ n ; X + t σ n − √ n (1.16) n est le nombre d’éléments que contient l’échantillon, et t est le coeﬃcient deStudent. Ce coeﬃcient dépend à la fois de n et du niveau de conﬁance souhaité. Exemple

Pour n = 10 avec un niveau de conﬁance de 95% : " X − , σ n − √ n ; X + 2 , σ n − √ n (1.17)Cette relation est proche de celle donnée par une loi normale. Les facteurs d’élar-gissement sont simplement remplacés par les coeﬃcients t donnés qui dépendentdu nombre de mesures. Il existe un lien fort entre le principe de maximisation de l’entropie au sens deShanon en théorie de l’information, les distributions rencontrées jusqu’à présent etles mesures qu’elles sont censées décrire. Ce lien a été réalisé par Jaynes en 1957,et il stipule qu’il n’y a pas de diﬀérences entre l’entropie de Shanon et l’entropiedéﬁnie en mécanique statistique .

12. Voir le principe d’entropie maximale déﬁni par E.T. Jaynes dans

Information Theory andStatistical Mechanics , 1963 − α

75% 95% 99%k1 1 ,

000 6 ,

314 31 ,

822 0 ,

816 2 ,

920 6 , ,

765 2 ,

353 4 , ,

741 2 ,

132 3 , ,

727 2 ,

015 3 , ,

700 1 ,

812 2 , ,

687 1 ,

725 2 , ,

679 1 ,

676 2 , ,

677 1 ,

660 2 , ∞ ,

674 1 ,

645 2 , Figure − α et un nombre de degré de liberté k . Pour un calcul de valeur moyenne k = N − N le nombre de points à disposition. La dernière ligne correspond à un nombreinﬁni de points de mesure et donc au cas d’une loi normale continue.n ensemble de données issues d’un mesurage déﬁnit un certain nombre decontraintes sur la distribution statistique sous-jacente. Par exemple, moyenne etécart type sont deux contraintes qui ﬁxent certaines caractéristiques de la distribu-tion. Il est possible d’en déduire tout un ensemble de distributions satisfaisant cescontraintes : loi uniforme, triangulaire, loi de Cauchy, loi normale etc.Le principe d’entropie maximale stipule qu’il existe une distribution particulièremaximisant l’entropie de Shanon, et donc minimisant les informations a priori conduisant à cette distribution. Il s’agit donc de la distribution ajoutant le moinsd’informations et d’hypothèses à la mesure tout en tenant compte des contraintesﬁxées par cette dernière. Connaissant l’espérance (valeur moyenne) et l’écart type d’une distribution, laloi normale est la distribution non bornée d’entropie maximale. Ce qui explique laprédominance de cette loi quand il s’agit de décrire une mesure physique.

Loi de Student

La loi de Student est une distribution déﬁnie à partir de la loi normale. En eﬀet,si les variables aléatoires suivent une loi normale, alors connaissant l’espérance(valeur moyenne) et le nombre de degrés de liberté (lié au nombre de mesures), laloi de Student est la distribution d’entropie maximale. Ce qui explique son intérêtdans le domaine de la mesure où ce sont généralement deux informations connueset facile à déduire d’un ensemble de données expérimentales.

Sur le domaine [0 , ∞ ], pour une valeur moyenne ﬁxé, la loi de décroissance expo-nentielle λe − λt est celle maximisant l’entropie. Ce qui explique qu’elle est adaptéepour la description de phénomène aléatoire comme la décroissance radioactive oupour décrire des défaillances de système électronique ou mécanique.En eﬀet, ces derniers ﬁxent les contraintes suivantes : • l’événement se produit entre l’instant initiale et l’inﬁni • les temps mis pour que les événements se produisent ont une certainevaleur moyenneDe ce fait, la loi de décroissance radioactive peut être vue comme le principede maximisation de l’entropie pour des événements respectant les contraintesprécédentes. 27 .7 Quelques remarques Nous venons de voir que les outils statistiques reposent largement sur l’exploi-tation de la loi normale. Cette distribution a comme particularité d’être assez peuinformative , elle nécessite peu de connaissance quand à la forme de la distributionstatistique des incertitudes de mesure.Il est à souligner qu’il s’agit d’un choix, raisonnable, souvent non explicite, maisil s’agit avant tout d’un choix relevant d’un a priori sur la mesure : processus demesurage donnant des valeurs non corrélées, existence d’un écart type et d’unemoyenne.D’une manière générale, cette analyse est mise de côté au nom d’une formed’impartialité scientiﬁque : il faudrait être capable d’aborder l’analyse de donnéessans aucun avis ou opinion sur ces dernières. Dans les faits, ce n’est jamais le cas, etdans une démarche classique, ces a priori existent et sont souvent occultés. Il suﬃtde se rappeler de toutes ces données éliminées car jugées aberrantes pour constaterque cette conception de la science impartiale et aveugle quant aux données n’estpas complètement vrai et le propos mérite d’être nuancé.Ce point sera développé dans le chapitre 3 page 41 sur l’inférence bayésiennequi présente l’avantage de rendre ces choix explicites.

13. C’est même la moins informative possible, étant donné certaines contraintes. hapitre 2Modèles et régressions La régression est un ensemble de techniques consistant à déterminer les para-mètres modélisant un phénomène à partir de données mesurées. La plus utilisée estla régression linéaire consistant à déterminer les coeﬃcients d’un polynôme à partirde données présentant des incertitudes au moyen de relation d’algèbre linéaire.Ce chapitre est consacré à l’ajustement d’un modèle polynôme de degrés 1 auxmesures dans le cadre de la régression linéaire. L’objectif est principalement decomprendre les hypothèses sous-jacentes à cette opération et donc les conditionsd’applications et de validités.Les notions développées dans ce chapitre sont issues des ressources suivantes : • BUP 796 : Régression linéaire et incertitudes expérimentales, D. Beauﬁls,1997 • arXiv 1008.4686, astrophysics : Data analysis recipes : ﬁtting a model todata, D. W. Hoog, J. Bovy, D. Lang, 2010 • Économétrie Giraud et ChaixL’objectif de ce chapitre est de prendre conscience des conditions extrêmementétroites d’application des techniques de régressions linéaires. Il est diﬃcile de serendre compte que l’utilisation de ces méthodes est souvent fausse puisque lesrésultats de mesures sont estimés avec une incertitude. Ainsi, il est facile de seconvaincre que le résultat est "pertinent" puisqu’il n’est qu’à "un ou deux écarttype" de la valeur théorique, et une analyse plus poussée est de ce fait souventécartée. 29 .1 Régression linéaire : méthode des moindrescarrés

L’objectif de cette opération est de déterminer les paramètres a coeﬃcientdirecteur et b ordonnée à l’origine d’une droite qui soit la meilleur possible pour unensemble de points ( x i , y i ) donnés présentant un bruit aléatoire.  f ( x ) = ax + by i = ax i + b + (cid:15) i (2.1)Avec (cid:15) i , le résidu du point, une erreur inconnue associée à chaque point i . Laﬁgure 2.1 représente graphiquement cette erreur pour chaque point de mesure parrapport à une loi linéaire initiale.Cette procédure n’est pas arbitraire. "Meilleur possible" consiste à minimiserles écarts quadratiques verticaux entre les données et la droite moyenne : χ = N X i =1 [ y i − f ( x i )] (2.2)Cette minimisation conduit à résoudre le système suivant :  ∂χ ∂a = 0 ∂χ ∂b = 0 (2.3)Ce système possède les solutions suivantes :  a = P ( y i − y ) ( x i − x ) P ( x i − x ) b = y − ax (2.4)Réaliser un ajustement linéaire consiste, pour le logiciel de traitement de données,à calculer les coeﬃcients précédents. 30 y i Loi initialeErreurs de mesure i Données mesurées

Figure (cid:15) i associés à chaque point. y Dans l’exemple suivant est présenté en ﬁgure 2.2. Nous générons un ensemble dedonnées aléatoirement à partir d’une loi connue de type y = ax + b dite loi initiale .Une erreur suivant une loi normale d’écart type ﬁxe est ensuite ajoutée à l’ensembledes données y pour reproduire un comportement aléatoire. Cette situation vériﬁedonc toutes les conditions d’application de la méthode des moindres carrésLa procédure numérique permet de calculer l’incertitude sur les coeﬃcients a et b . y Les relations présentées dans la partie précédente suppose une incertitudeconstante suivant l’axe y . Dans les faits, cette hypothèse est rarement réalisée. Ilest possible de reprendre l’analyse précédente en minimisant la somme des écarts

1. Numériquement, les relations indiqués précédemment sont généralisées à n’importe quelleloi polynomiale et réécrite dans un formalisme d’algèbre linéaire. Calculer les coeﬃcients a et b consiste donc à des calculs matriciels, facilement réalisés par un système informatique. L’incertitudeapparait naturellement comme les coeﬃcients de la matrice de covariance du système. x y Estimateurs:a = 2.10 ± 0.17 b = -5.74 ± 0.94 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 2.00 ± 0.16 Figure a .quadratiques normalisés par l’écart type de chaque point. χ = N X i =1 [ y i − f ( x i )] σ y i (2.5)De même que précédemment, cette minimisation conduit à la détermination del’ordonnée à l’origine b et la pente a de la régression linéaire. Exemple

La ﬁgure 2.3 est un ajustement linéaire à partir de données construite de manièresimilaire au cas présenté en ﬁgure 2.2, à la diﬀérence de l’incertitude sur les données y qui ici n’est pas constante. La procédure des moindres carrés permet de prendreen compte des incertitudes diﬀérentes suivant l’axe y . a et b Le modèle de la régression linéaire permet d’obtenir des incertitudes sur lescoeﬃcients a et b . Ces incertitudes sont calculées analytiquement dans le cadredu modèle et doivent s’interpréter comme caractéristiques de la loi normale quesuivent les coeﬃcients a et b . 32 x y Estimateurs:a = 1.99 ± 0.13 b = -4.95 ± 0.69 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 2.00 ± 0.12 Figure a .Généralement, ces coeﬃcients sont négligés au proﬁt des seuls valeurs a et b alors que l’évaluation des incertitudes occupent une place importante dans leraisonnement scientiﬁque. a L’écart type de l’estimateur de a est : σ a = σ qP ( x i − x ) (2.6)où σ est l’écart type associé au mesure y i . • L’écart type σ des mesures inﬂuence directement les écart type σ a . Réduire σ permet de réduire les incertitudes sur la pente. • P ( x i − x ) est un terme chiﬀrant l’écart total entre les points x i et leurvaleur moyenne. L’augmentation de ce dernier conduit à une diminutiondes incertitudes sur a . Ce denier peut être augmenter de deux manières :— en augmentant le nombre de points N ;— en augmentant l’intervalle de prise de mesure x i . Plus les pointsde mesure seront dispersés et éloignés les uns des autres, plusl’écart type σ a sera faible.33 .2.2 Estimateur de b L’écart type de l’estimateur de b est : σ b = σ vuut N + x P ( x i − x ) (2.7)où σ est l’écart type associé au mesure y i et N le nombre de points. • L’écart type σ des mesures inﬂuence directement les écart type σ b . Réduire σ permet de réduire les incertitudes sur l’ordonnée à l’origine ; • x P ( x i − x ) est un terme chiﬀrant la dispersion des valeurs de x i etl’éloignement à l’ordonnée à l’origine. Pour réduire σ b , il conviendra de :— prendre des points x i proche de l’ordonnée à l’origine pourréduire le terme x i ;— augmenter l’intervalle de mesure des x i ainsi que le nombre depoints n qui agit sur le terme en 1 n La faiblesse de la méthode des moindres carrés réside dans le fait qu’elle donnetrop de poids à des données aberrantes par rapport à l’ensemble des données. Celasigniﬁe qu’un faible nombre de valeurs aberrantes peut conduire à une variationsigniﬁcative du résultat ﬁnal.La ﬁgure 2.4 représente une telle situation. L’ensemble des données est générésimilairement à celles présentées en ﬁgure 2.2. Un point est choisi au hasard pourjouer le rôle d’une valeur aberrante. Ce dernier se voit attribuer une valeur aléatoirecentrée sur la moyenne des valeurs y et d’écart type constant mais élevé.L’ajustement linéaire réalisé sur un jeu de donnée tiré au hasard est moins bon,mais est toujours compatible avec avec la loi initiale. Cependant, la statistiquecomplète ne suit plus une loi normale et les intervalles de conﬁance ne sont plusvalide. Élimination des valeurs aberrantes

Une stratégie classique consiste à éliminer les données aberrantes. Ce processusd’élimination est fréquent, mais introduit des diﬃcultés quand à la validité dela mesure en elle-même puisque ce processus est souvent à l’appréciation de la34 x y Estimateurs:a = 1.80 ± 0.28 b = -4.08 ± 1.35 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.83 ± 0.46 Figure a ne suitplus une loi normale et n’est plus symétrique. La valeur moyenne de a et l’écarttype sont très éloignés des estimateurs. Il est à remarquer que la valeur la plusprobable reste néanmoins égale à la valeur théorique du coeﬃcient a .personne responsable de la mesure ou du traitement de données. Il existe desprocédures d’élimination des données aberrantes, par exemple : • critère de Chauvenet ; • critère de Peirce ; • test de Grubb’s.Ces méthodes fournissent un procédé objectif et quantitatif pour l’éliminationdes données aberrantes, néanmoins cela ne les rends pas forcément scientiﬁque-ment et méthodologiquement correcte, en particulier dans les échantillons à faiblepopulation. Lors d’études de données, certains usages courants ne satisfont pas les conditionsd’application strict de la régression linéaire : • données aberrantes ; • loi non conforme au modèle : présence d’une non linéarité dans les donnéeset modélisation par une loi aﬃne ;35 incertitude suivant X et Y ; • corrélation entre incertitudes et donnéesLes sous-parties suivantes présentent des exemples associés à la statistiquecomplète du coeﬃcient a comme illustration de la déviation au modèle gaussiencentré sur la valeur théorique de a . Ces déviations, bien que généralement faible,font qu’il est plus diﬃcile de conclure sur la valeur ﬁnale et sur les incertitudesassociées aux coeﬃcients. Le choix du modèle inﬂue grandement sur les résultats de ce type de méthode.En ﬁgure 2.5(a), la loi initiale n’est pas parfaitement linéaire, un terme quadratiquede faible amplitude est ajouté à la loi initiale. Ceci a pour conséquence d’éloignerles valeurs des coeﬃcients calculés par la méthode des moindres carrés. En ﬁgure2.5(a), la recherche d’une valeur a = 2 conduit à une statistique d’allure gausiennecentrée sur a = 1 , ± , x et y Le modèle de la régression linéaire demande une incertitude suivant x négligeabledevant l’incertitude suivant y . La ﬁgure 2.5(b) présente un exemple de régressionréalisée avec une incertitude de même ordre de grandeur suivant les deux axes. Demême que précédemment, la recherche d’une valeur a = 2 conduit à une statistiqued’allure gausienne centrée sur a = 1 , ± , Les incertitudes ne doivent pas être corrélées aux données x et y pour pouvoirutiliser le modèle de la régression linéaire. Cette situation est fréquemment ren-contrée expérimentalement : n’importe quelle mesure au multimètre possède uneincertitude dépendant de la valeur lue.Les changements de variables introduisent aussi une corrélation de ce type. Poursimpliﬁer les analyses, il est courant de pratiquer un changement de variable pourse ramener à une relation linéaire. Cette pratique est aussi liée au fait que souvent,les logiciels utilisés pour réaliser les analyses de données ont peu d’options en termede régression linéaire et souvent, seul un modèle aﬃne est proposé.Prenons le cas de la période T d’un pendule de longueur l , à partir de laquelleil est extrait l’accélération de la pesanteur g . T = 2 π s lg (2.8)36e changement de variable classiquement introduit est θ = T = 4 π g l . Ainsil’étude de θ = f ( l ) conduit à une relation aﬃne dont le coeﬃcient directeur permetune évaluation de g .La diﬃculté est que l’incertitude associée à la variable θ est corrélée à T , eneﬀet : σ ( θ ) = 2 T σ ( T ) (2.9)Ainsi, même si l’incertitude suivant T est constante, ce n’est pas le cas de θ . Laplupart des changement de variable conduisent à cette situation.La ﬁgure 2.5(c) présente un exemple de régression réalisée avec une incertitudecorrélée à la valeur y . La recherche d’une valeur a = 2 conduit à une statistiquecentrée sur a = 1 , ± ,

21 dont l’allure n’est plus gausienne.37 x y Estimateurs:a = 1.92 ± 0.17 b = -5.45 ± 0.94 y = x + ax + b a = 2 b = -5= -0.02 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.80 ± 0.16 (a) Loi initiale non linéaire. x y Estimateurs:a = 1.95 ± 0.17 b = -5.15 ± 0.93 y = ax + b a = 2 b = -5 Loi initialeAjustement linéaire a P ( a ) valeur moyenne : a = 1.80 ± 0.21 (b) Incertitudes suivant x et y . x y Estimateurs:a = 1.96 Â± 0.11 b = -4.64 Â± 0.27 y = ax + b a = 2 b = -5 Loi initialeAjustement linÃ©aire a P ( a ) valeur moyenne : a = 1.72 Â± 0.21 (c) Incertitudes corrélée aux données : cas d’un changement de variables. Figure a . .5 Conditions d’applications de la méthode desmoindres carrés Dans les parties précédentes, il a été mis en évidence le fait que les conditionsd’application de la méthode des moindres carrés sont strictes et un non respectde ces dernières conduit rapidement à une estimation erronée des paramètres dumodèle ainsi que leurs incertitudes.La méthode des moindres carrés repose sur les hypothèses suivantes : • La loi physique sous-jacente aux données est connue ; • L’incertitude suit une loi Normale uniquement suivant y i et non corréléeaux y i ; • Absence de points aberrantsDans les faits, les conditions d’applications ne permettent souvent pas l’utilisa-tion de cette méthode, mais dans un contexte scolaire, elles sont largement utilisées,faute de mieux. La grande diﬃculté étant qu’en dehors des conditions d’applicationstrictes de cette méthode, il n’existe pas de consensus net permettant de réaliserl’ajustement des données par une loi connue de manière simple. σ (cid:15) Un estimateur sans biais de l’écart type de l’incertitude est : σ (cid:15) = P (cid:15) i N − (cid:15) i les résidus déﬁnis dans la relation 2.1. a et b Lorsque l’incertitude est estimée à partir des résidus, les facteurs d’élargissementà prendre en compte pour les intervalles de conﬁance ne sont plus ceux de la loinormale, mais ceux d’une loi de Student à N − σ a et σ b sont identiques à ceux déﬁnis par les relations 2.6 et 2.7.39 .7 Conclusions Le traitement et la manipulation de données occupent une place fondamentaledans une démarche scientiﬁque. Plus largement, l’utilisation d’outils statistiques estde plus en plus répandue car fortement démocratisés avec l’utilisation de tableursdans des champs professionnels divers et variés. Ces outils grand public reposenttous sur le modèle de la régression linéaire dont les conditions d’utilisation sontassez strictes. De ce fait, il est important d’avoir des notions relatives à l’utilisationde cet outils et avoir conscience de leurs limites.Concernant une utilisation pédagogique, il est important de ne pas négligerl’évaluation des incertitudes associées aux coeﬃcients issues de la régression linéaire.Ces derniers sont simples à obtenir et si les conditions d’applications sont vériﬁés,ils informent correctement sur l’incertitude des résultats.40 hapitre 3Inférence bayésienne

L’inférence est un procédé permettant d’ induire les caractéristiques généralesd’une statistique à partir d’un échantillon. Ce procédé permet de calculer desestimateurs tout en évaluant le niveau de conﬁance de ces derniers.L’ensemble des techniques présentés dans les chapitres 1 et 2 sont des techniquesd’inférences statistiques.L’objectif de ce chapitre est d’introduire le concept d’inférence bayésienne. Cettetechnique d’inférence nécessite de renverser certains a priori relatifs à la mesureet au traitement de données. Ce changement de paradigme sera expliqué dans lapremière partie de ce chapitre.La suite de ce chapitre sera consacrée à des études de cas permettant de mettreen lumière les techniques d’inférence bayésienne.Références : • Frequentism and Bayesianism : A Python-drivenPrimer J.VanderPla • Data Analysis Recipes : Using Markov Chain Monte Carlo D.W. Hogg,D. Foreman-Mackey • emcee Documentation D. Foreman-Mackey • It is Time to Stop Teaching Frequentism to Non-statisticians W. M.Briggs • Bayesian Reasoning in Data Analysis G. D’Agostini • A Gentle Introduction to Bayesian Analysis : Applications to Develop-mental Research R. van de Shoot, D. Kaplan, J. Denissen, J.B. Asendorpf,F.J. Neyer, M.A.G. van Aken • Infolrxiation Theory and Statistical Mechanics E. T. Jaynes • Note de cours - Statistique Bayésiennes, J. Rousseau, ParisTech • Bayes Theorem, G. Sanderson41

Bayésianisme versus fréquentisme en inférence statistique, J. Sprenger • BAYESIAN INDUCTIVE INFERENCE AND MAXIMUM ENTROPYS.F. Gull • Bayesian reasoning in data analysis, a critical introduction G.D. Agostini

Le théorème de Bayes permet l’estimation de probabilités. Il est utilisé dansdes domaines variés comme l’intelligence artiﬁcielle en lien avec des algorithme deprise de décisions, dans les secteurs ﬁnanciers pour les calculs de risques ou encoreen sciences pour induire des informations concernant des hypothèses moyennant laconnaissance de certaines données issues de mesures.C’est un résultat de base en statistique permettant de manipuler des probabilitésconditionnels.

Un premier cas

Voyons en détail un exemple d’application de ce théorème.Sur le campus d’une université, vous observez un groupe d’étudiantsappeler un de leur camarade pour qu’il les rejoigne "Steve, par ici !".Steve, la démarche maladroite, chemise froissée et mal rangée, cheveuxen batailles, les rejoint timidement. Vous l’observez dans sa course. Deslunettes rondes et repositionnées à la hâte barre son visage. Il porteune sacoche mal fermée entre ses bras.Est-il plus probable qu’il s’agisse d’un doctorant en mathématiquesfondamentales ou d’un étudiant d’école de commerce ?42a première réponse qu’il vient à l’esprit est qu’il s’agit vraisemblablement d’un étudiant en mathématiques. Cela semble raisonnable dans la mesure oùla description colle à la représentation qu’il est possible de se faire de ce typed’étudiant. En étant honnête, la réponse va beaucoup dépendre des représentationset conception que l’on a de ces deux disciplines. Néanmoins, une étude similaire aété conduite par D. Kahneman et A. Tversky concernant le discernement et la prisede décision, l’énoncé diﬀère, mais l’esprit est identique. Les résultats de cette étudeindique que les personnes interrogées pensent qu’il est hautement plus probableque Steve soit un étudiant en mathématique.

Maths90% Commerce10%

Ce point de vu est largement biaisé par les représentations, les préjugés concer-nant les étudiants en mathématiques et en école de commerce. Et pour répondrecorrectement à cette questions, il faut inclure des informations concernant le ratio doctorant en mathématiques / étudiant en école de commerce . C’est ce que permetle théorème de Bayes.

La mécanique du théorème de Bayes

Les données présentés dans ce paragraphe ne sont pas exactes mais cela n’a pasd’importance sur le raisonnement. Prenons un ratio de 1 doctorant en mathématiquepour 20 étudiants en école de commerce. Ce ratio est représenté sous forme d’aircoloré dans la ﬁgure suivante :

Ensembledes étudiants M a t h s Commerce1 20 Ensembledes étudiantsvérifiant la description40% 5% +Probabilité que l'étudiantsoit doctorant en mathssachant la description

43i nous devions mettre quelques chiﬀres, il n’est pas complètement absurde dedire que peut-être 40% des doctorants en mathématiques fondamentales peuventrépondre à la description précédente alors que peut-être 5% des étudiants en écolevériﬁeraient cette description.La probabilité de rencontrer un doctorant en maths vériﬁant la description estdonc : p = doctorants en maths vériﬁant la descriptionTotal des étudiants vériﬁant la description = 0 , × , × , ×

20 = 0 , Les opérations que permettent ce formalisme sont les suivantes :1. Nous cherchons à vériﬁer une hypothèse H , pour notre exemple, il s’agiraitde { H : Steve est doctorant en mathématiques }.2. Des mesures sont réalisés en lien avec cette hypothèse, ici il s’agit d’unensemble d’observations décrivant Steve. Il s’agit d’un ensemble de donnéesnotées D pour datas.3. Nous voulons connaître la probabilité que l’hypothèse H soit vrai sachantque nous connaissons des données D .Cette dernière probabilité est une probabilité conditionnelle noté : p ( H | D ).En reprenant l’analyse précédente, pour calculer cette probabilité, nous avonsutilisé les termes suivant : • p ( H ) : la probabilité que l’hypothèse soit vraie. Il s’agit de la proportionde doctorant en mathématiques. • p ( D | H ) : la probabilité d’obtenir les données si l’hypothèse est vériﬁée.Il s’agit de la proportion de doctorant en mathématiques vériﬁant ladescription. • p ( D ) : la probabilité d’avoir les données. Il s’agit de la proportion d’indi-vidus vériﬁant la description parmi les doctorants en mathématiques et étudiant en école de commerce .

1. Précédemment, cette probabilité a été exprimé sous la forme de la somme de deux termes : p ( D ) = p ( D | H ) + p ( D |¬ H ). ( H ) p (¬ H ) p ( D | H ) p ( D |¬ H ) Le théorème de Bayes s’écrit ainsi de la façon suivante : p ( H | D ) = p ( D | H ) · p ( H ) p ( D ) (3.2) Déﬁnitions • H est l’hypothèse pour laquelle un niveau de crédibilité est inférée. Dansle cadre d’une mesure, il s’agit d’un modèle associé à des paramètres θ i qui permettent de déﬁnir des intervalles de crédibilité . • p ( H | D ) est la plausibilité ou probabilité postérieur d’une hypothèse H . Elle est calculée en tenant compte du processus de mesure D . Ils’agit d’un degrés de conﬁance a postériori prenant en compte toutes lesinformations à dispositions : données et connaissances a priori . Il permetde quantiﬁer la crédibilité d’une hypothèse. • p ( D | H ) est la fonction de vraisemblance des données D vis à vis del’hypothèse H . Cette fonction décrit la plausibilité des données D vis àvis d’une hypothèse H dans le cadre d’une réalisation aléatoire de cesdonnées D . • p ( H ) est la probabilité a priori qui précède toute mesures. Il peut s’agird’une conviction estimée par l’opérateur ou des données antérieurs à lamesure et intégrées par ce biais dans le processus d’inférence. • p ( D ) agit comme une normalisation ou une fonction de partition enphysique statistique. Nous verrons par la suite qu’il ne sera pas forcément45tile de la prendre en compte et est souvent diﬃcile à obtenir .Le schéma de fonctionnement de ce formalisme est le suivant :Distribution a priori + Données −→ Distribution a posteriori

Il est à noter que le formalisme présenté permet de calculer la probabilité oule niveau de crédibilité d’une hypothèse moyennant la connaissance de données .Ces probabilité se présentent sous la forme de distribution pour les paramètresde l’hypothèse ou du modèle considéré. Habituellement, dans un positionnementstatistique classique, c’est l’inverse qui est recherché : quelle probabilité ont lesdonnées d’être vrai sachant l’hypothèse qui est supposée vrai . De là et à partir deces intervalles de conﬁance, un seuil de rejet est déﬁni pour aﬃrmer ou inﬁrmerl’hypothèse choisie .Dans le formalisme bayésien, les données sont considérés comme vraies oucertaines . Au moyen de la relation de Bayes, une distribution, la vraisemblance d’une hypothèse, est inférée. À partir de cette vraisemblance, des intervalles decrédibilités sont déﬁnis pour les paramètres de l’hypothèse. Cette exemple est inspiré de la documentation en ligne du module Python emcee dédié à l’analyse de données par statistique bayésienne. Il s’agit d’une sériede mesure de l’activité d’un échantillon radioactif. Cette activité A est constantedans le temps. Nous réalisons une série de n mesures : D = { A i , e i } Génération des données

Le bloque de code suivant permet de générer les données : ?? PythonTeX ??

Les données sont générées avec une loi de Poisson et sont représentées à laﬁgure 3.3. Cette dernière est pertinente pour décrire un comptage d’événements seproduisant dans un intervalle de temps donné avec une fréquence moyenne connue

2. analytiquement et numériquement3. Voir hypothèse nulle et facteur ou valeur p4. Après tout, ce sont des faits expérimentaux.

46t indépendant du temps. Ici, la dispersion statistique est supposée être uniquementdue aux processus de mesure.

925 950 975 1000 1025 1050 1075 1100Activité en coups par seconde01020304050 M e s u r e Figure D = { A i , e i } .La barre centrale représente la valeur de référence. Une dispersion autour de lavaleur de référence est observée. Approche classique

Une fois les données acquises, le travail d’analyse consiste à répondre à la questionsuivante :

Quelle est la meilleur estimation de l’activité réelle de l’échantillon.

L’approche statistique classique, détaillée dans les premiers chapitres, indique quele meilleur estimateur est la valeur moyenne empirique : A = 1000 s − A estimée = 1 n P A i = 997 ± − Ainsi, la valeur estimée est compatible avec la valeur de référence pour 50mesures. 47 pproche bayésienne

Maintenant, nous voulons calculer la probabilité de l’activité connaissant lesmesures : p ( A | D ) en utilisant le théorème de Bayes. p ( A | D ) = p ( D | A ) · p ( A ) p ( D ) (3.3) • p ( A ) ∝ a priori est choisie uniforme et proportionnel à 1,il s’agit un d’un prior non informatif. • p ( D | A ) ∝ L ( D | A ) est la fonction de vraisemblance.Cette fonction de vraisemblance est construite de façon à chiﬀrer la probabilitéqu’une donnée D i soit vraie pour une activité A réelle. Supposons une erreur deforme gausienne : p ( D i | A ) = 1 q πe i e " − ( A i − A ) e i (3.4)La fonction de vraisemblance est construite de la manière suivante : L ( D | A ) = N Y i =1 p ( D i | A ) (3.5)En eﬀet, les mesures étant indépendantes, la probabilité totale d’avoir ce jeu dedonnées est simplement le produit des probabilités de chacune des données.En combinant ces résultats avec l’équation 3.3 : p ( A | D ) ∝ L ( D | A ) (3.6)La distribution postérieur est simplement proportionnelle à la fonction devraisemblance L . Il n’est pas utile de calculer tous les termes du théorème deBayes. Le terme p ( D ) est une normalisation qui est indépendante des paramètresde l’hypothèse, il n’apporte rien à l’analyse de données. ?? PythonTeX ?? Les probabilités utiles sont déﬁnis par leur logarithmique car il est plus simplede réaliser une somme qu’un produit numériquement. ?? PythonTeX ??

Nous obtenons un ensemble de distribution de probabilité concernant le para-mètre A du modèle. L’hypothèse la plus probable et son intervalle de crédibilitésont identiques à la valeur moyenne et à l’intervalle de conﬁance calculés avec destechnique statistique classique. 48

80 990 1000 1010 1020Activité en coups par seconde0.000.020.040.060.08 p ( A | D ) A = 1000 A crédible = 997 ± 4 Figure D = { A i , e i } . La zone centrale grise représente l’intervalle de crédibilité. A = 1000 s − A crédible = 997 ± − L’inférence bayésienne est plus complexe à mettre en œuvre, et fournit unrésultat rigoureusement identique à l’inférence classique. L’enjeu réside dans lepositionnement de ce dernier et surtout dans l’universalité de la méthode. La partiesuivante propose une extension de l’étude réalisé ci-dessus et le code algorithmiquemis en place sera à peine modiﬁé pour répondre à un problème bien plus complexe.Concernant la procédure numérique, la probabilité postérieure est facile àdéterminer par calcul direct. Ce n’est plus le cas quand le modèle possède beaucoupde variable. Dans la partie suivante, nous utiliserons le module emcee utilisant destechniques d’échantillonnage avec méthode de Monte-Carlo par chaîne de Markov.Ces techniques sont particulièrement adaptés lorsque le modèle se complexiﬁe.

Cet exemple est similaire au cas précédant. Nous allons étudier l’activité radio-active d’un échantillon. A la diﬀérence de précédemment, cet activité A ﬂuctuealéatoirement dans le temps. Nous réalisons une série de n mesures : D = { A i , e i } .Nous cherchons donc à déterminer deux paramètre : θ = [ µ A , σ A ], avec µ A lavaleur moyenne de l’activité et σ A l’écart type associée aux ﬂuctuations intrinsèques49e la source. L’activité suit donc le modèle suivant : A ∝ q πσ A e " − ( A − µ ) σ A (3.7) Génération des données

Le bloque de code suivant permet de générer les données : ?? PythonTeX ??Approche classique d’inférence

Une approche classique consiste à déﬁnir une fonction de deux paramètresmaximisant la probabilité que les données vériﬁent le modèle. Cette technique estidentique à celle utilisée pour la régression linéaire qui minimise l’erreur entre unecourbe et une série de point, et donc consiste à trouver des paramètres maximisantla probabilité que les données vériﬁe le modèle.La fonction de vraisemblance utilisé est l’association des distributions statistiquede la source et les incertitudes de mesure. Les deux processus ne sont pas corrélés,nous allons utiliser un modèle gaussien dont l’écart type est : σ A + e i : L ( D | θ ) = N Y i =1 q π ( σ A + e i ) e " − ( A i − µ A ) σ A + e i ) (3.8)Ici, θ représente le modèle, donc l’hypothèse à vériﬁer.Il n’est pas possible d’utiliser des modèles analytiques pour trouver une solu-tion. Des procédures numériques existent et permettent de déterminer les valeursoptimales de µ A et σ A avec leur incertitude associées.Le principe consiste à générer un grand nombre de sous-ensembles de données àpartir des données initiales . Chacun de ces sous-ensembles est alors traité commeune réalisation des mesures pour lequel la valeur moyenne et l’écart type est calculé.Il est ainsi possible d’obtenir un ensemble de valeurs moyennes et d’écarts types etainsi d’obtenir l’incertitude sur ces deux grandeurs.Résultats avec techniques bootstrap et maximisation d’une fonction de vraisem-blance : Valeurs théoriques µ = 1000 s − σ = 10 s − Valeurs inférées µ = 1000 ± − σ = 14 ± −

5. algorithme de bootstrap ou jacknife µ et σ .Cela donne une zone de conﬁance rectangulaire centrée sur µ = 1000 et σ = 14de côtés les intervalles de conﬁance. Nous allons voir que l’approche bayésiennepermet d’aller plus loin. Approche par inférence bayésienne

De même que précédemment, nous déﬁnissons le logarithme du prior, de la fonc-tion de vraisemblance et de la probabilité postérieure. La fonction de vraisemblanceest identique (équation 3.8) à celle déﬁnie pour une approche classique. ?? PythonTeX ??

Le calcul du postérieur est encore envisageable avec une procédure naïve pourdeux paramètres à inférer. La technique consister à calculer les valeurs de log(p) pour chaque couple ( µ, σ ) dans une fenêtre donnée. ?? PythonTeX ??

Et le tracé de la distribution postérieur comme présenté en ﬁgure 3.3 : ?? PythonTeX ??

Figure D = { A i , e i } . La croix représente lavaleur la plus probable, le point rouge représente la valeur théorique.51es courbes représentent les zones de crédibilité à 68% et 95%. La formegénérale de la distribution n’est plus gaussienne et les zones de crédibilités sont plusrestreintes. Le résultat ﬁnal est identique à celui obtenu par méthode classique :Résultats avec techniques d’inférence bayésienne :Valeurs théoriques µ = 1000 s − σ = 10 s − Valeurs inférées µ = 1000 ± − σ = 14 ± − a priori Cette partie est consacrée à l’inﬂuence de la probabilité a priori . L’exempleproposé est l’analyse de données d’une mesure de résistance. Les données sontsimulées numériquement, mais les incertitudes associées sont celles fournies par ladocumentation du multimètre numérique agilent 34401.

Une résistance à 5% de valeur nominale R nom = 500 Ω est déterminée aumoyen d’une méthode volt-ampèremétrique. La valeur réelle de la résistance est R vrai = 512 Ω. Les caractéristiques de la mesure sont données dans le tableauci-contre : σ U ,

002 mV σ I ,

01 mA σ R U et I sont tirées aléatoirement avec une loi normale d’écart typedonnée par les caractéristiques de la mesure. La fonction de vraisemblance reﬂète la loi normale choisie pour représenterl’incertitude sur les mesures. Pour une mesure, la probabilité p ( R i = U i I i | R ) estdonnée par la relation suivante : p ( R i = U i I i | R , σ R ) = 12 πσ R exp " − (cid:18) R i − R σ R (cid:19) (3.9)52our une ensemble de n mesures { R i } , la fonction de vraisemblance est leproduit des probabilités p ( R i = U i I i | R , σ R ) : p ( { R i }| R , σ R ) = n Y i =0 πσ R exp " − (cid:18) R i − R σ R (cid:19) (3.10) L’objectif est d’étudier l’inﬂuence de la probabilité a priori p ( R ) sur la proba-bilité postérieure.Nous allons utiliser deux priors diﬀérents se basant sur les connaissances sui-vantes de la valeur de résistance : • données constructeurs : prior quasi non informatif, une fonction uniformesur l’intervalle déﬁni par la tolérance de la résistance est utilisée • mesure précédente : prior suivant une loi normale R prior = 490 ± a prosteriori Comme dans les parties précédentes, la probabilité a posteriori est déﬁnie par : p ( R |{ R i } , σ R ) ∝ p ( R ) × p ( { R i }| R , σ R ) (3.11)Une normalisation est ensuite réalisée pour obtenir une distribution. Les résultatssont tracées en ﬁgure 3.4.La probabilité a posteriori est tracée avec un nombre diﬀérent de mesure. Lecas N = 0 correspond au tracé du prior, une distribution normale et uniforme estbien retrouvé et correspondent aux informations précédant toutes mesures. Avecl’augmentation du nombre de mesures, les probabilités obtenues s’aﬃnent de plusen plus et tendent toutes les deux vers une seule et même valeur la plus probable : R ( p max ) = 512 Ω qui est bien la valeur vraie de la résistance. ?? PythonTeX ?? .3.6 Conclusions Le prior a un eﬀet important quand le nombre de mesures est faible, mais il tendà s’eﬀacer rapidement avec l’augmentation de données empiriques. Les conclusionssont identiques et indépendantes du choix initiales pour le prior.A l’inverse, il est très important de réaliser un choix judicieux et éclairé duprior quand le nombre de mesure est faible. Ce dernier permet d’intégrer toute lesconnaissances liées à la grandeur mesurée, et permet d’une certaine manière unemise à jour de cette grandeur sous l’éclairage de nouvelles mesures.Cette notion de probabilité a priori est une critique récurrente associée à ladémarche d’inférence bayésienne. Cependant, il est souvent possible de formaliserdes choix rationnels et objectifs pour le prior et reﬂétant les connaissances préalablesà la mesure. L’avantage est qu’il permet justement de prendre en compte un certainnombre de connaissances liées à la mesure car il est rare de réaliser une mesuresans aucune intuition ou contrainte sur le résultat.545

480 500 520 R ( )0.000.050.100.150.20 p ( R | { R i } , R ) N=0 R ( p max )=490.0 R ( p max )=500.0 480 500 520 R ( )0.000.050.100.150.20 p ( R | { R i } , R ) N=1 R ( p max )=492.1 R ( p max )=505.0480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=2 R ( p max )=494.1 R ( p max )=506.8 480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=3 R ( p max )=496.9 R ( p max )=510.7480 500 520 R ( )0.00.10.2 p ( R | { R i } , R ) N=4 R ( p max )=498.4 R ( p max )=511.1 480 500 520 R ( )0.00.20.40.6 p ( R | { R i } , R ) N=50 R ( p max )=509.1 R ( p max )=511.6480 500 520 R ( )0.00.20.40.60.8 p ( R | { R i } , R ) N=100 R ( p max )=510.4 R ( p max )=511.7 480 500 520 R ( )012 p ( R | { R i } , R ) N=1000 R ( p max )=512.0 R ( p max )=512.2 Figure a posteriori . hapitre 4Applications de l’inférencebayésiennes à l’analyse dedonnées Ce chapitre portera sur quelques exemples d’application de l’inférence bayé-siennes. Le chapitre 3 a permis d’introduire cette méthodes et de montrer sacohérence avec les techniques d’inférence classique. Ce chapitre porte sur dessituations où les techniques classiques sont inadaptées.

Cette partie est un exemple détaillé par E.T Jaynes dans

Conﬁdence Intervalsvs Bayesian Intervals .Prenons une installation industrielle dont le fonctionnement nécessite des piècesd’usures. A partir d’un instant θ , l’usure devient telle que la machine devient sujetteà des pannes. La probabilité qu’une panne se déclenche suit une loi exponentielle.Il est trop couteux pour l’industriel de réaliser des vériﬁcations régulières despièces ainsi que les changer trop régulièrement.A device will operate without failure for a time θ because of a protec-tive chemical inhibitor injected into it ; but at time θ the supply ofthe chemical is exhausted, and failures then commence, following theexponential failure law. It is not feasible to observe the depletion ofthis inhibitor directly ; one can observe only the resulting failures. Fromdata on actual failure times, estimate the time θ of guaranteed safeoperation... 56a probabilité qu’une panne se produite à un instant t est donnée par ladistribution suivante : p ( t | θ ) =  exp ( θ − t ) , t > θ t < θ (4.1) p ( t ) Figure θ = 10.Les données recueilli par l’industriel sont : D = { , , } en semaines.L’objectif est de trouver une estimation de θ connaissant D = { t i } .Étant donnée la forme générale de la distribution, il est évident que θ doit êtreplus petit que la plus petite valeur observée : θ ≤ min( D ). Connaissant la forme de la distribution, il est montré qu’un estimateur de θ est : ˆ θ = 1 n n X i =1 t i − intervalle de conﬁance par une loi normale d’écarttype σ = 1, ce n’est pas rigoureusement l’intervalle de conﬁance réel pour cette loi,

1. On montre que E ( t ) = R ∞ tp ( t ) dt = θ + 1 θ ± √ n (4.3)Soit : θ estimé = 12 , ± , ,

7; 12 , θ . C’est principalement lié au faible nombre de données. Ceci étant,pour ce type de problème, le nombre de données ne sera jamais élevé puisqu’il fautattendre une panne arrivant à un délais supérieur à 10 semaines pour ajouter unpoint à la statistique. Commençons par écrire le théorème de Bayes : p ( θ | D ) = p ( D | θ ) · p ( θ ) p ( D ) (4.4)Nous allons utiliser un prior non informatif : p ( θ ) = 1 et une fonction devraisemblance de la forme : p ( D | θ ) = n Y i =1 p ( t | θ ) (4.5)Le produit d’exponentielles tronquées donne : p ( D | θ )  n exp [ n ( θ − min( D ))] , θ < min( D )0 , θ > min( D ) (4.6)Dans la mesure où l’exponentielle est une fonction croissante, le plus petitintervalle [ θ min ; θ max ] contenant 65% des valeurs est donnée par : Z θ max θ min n exp [ n ( θ − min( D ))] dθ = 0 ,

65 (4.7)avec θ max = min( D ) qui vériﬁe l’approche de bon sens.Et donc : θ min = θ max + log (1 − , n (4.8)Ce qui donne l’ intervalle de crédibilité suivant : θ estimé = [9 ,

65; 10]Sans surprise, nous constatons que l’approche bayésienne vériﬁe le bon sens etpermet de déﬁnir un intervalle pendant lequel planiﬁer l’intervention sur l’installa-tion industrielle avant que cette dernière ne tombe en panne.58 .2 Problème de la position du phare

Un phare est positionné sur des récifs au large d’une côte. Sa position et sadistance à la côte sont inconnue. Il émet aléatoirement des faisceaux étroits delumière dans des directions aléatoires. Une série de photo-détecteurs sont placés lelong de la côte et permettent simplement de détecter qu’un faisceau a été émis : ladirection dans laquelle il a été émis est inconnue.

Figure D = { x k } de position pour laquelle un ﬂash aété enregistré. Où est situé le phare ? Il est raisonnable de penser que les ﬂashs sont émis uniformément suivant unangle θ k autour du phare, en direction de la côte : p ( θ k | α, β ) = 1 π (4.9)Les notations utilisées sont celles déﬁnies dans la ﬁgure 4.2. Les ﬂashs ayantlieu vers le demi espace supérieur ne sont reçus par aucun capteur et sont perdus,tout se passe comme si le phare n’émettait que vers la côte.59n reliant θ k à x k : β tan θ k = x k − α (4.10)Ainsi, en réécrivant l’équation 4.9 : p ( x k | α, β ) = 1 π ββ + ( x k − α ) (4.11)Dans ce problème, la probabilité de mesurer un ﬂash à la position x k connaissantles coordonnées ( α, β ) du phare est décrite pas une distribution de Cauchy . Cettedistribution possède un maximum en x k = α et une largeur à demi hauteur de 2 β comme montré sur la ﬁgure 4.3. Figure α, β ) du phare. Pour des raisons de clarté,nous allons considérer β comme connue et ﬁxée dans un premier temps et chercherà déterminer α uniquement. L’application du théorème de Bayes donne la relationsuivante : p ( α |{ x k } , β ) ∝ p ( { x k }| α, β ) · · · p ( α, β ) (4.12)

2. C’est une fonction de Lorentz. e prior p ( α, β )Nous allons choisir un prior faiblement informatif : le phare est situé dans uneplage { α min ; α max } × { β min ; β max } Les valeurs minimal et maximal sont complètement arbitraires et peuvent êtreaussi larges que souhaité si nous n’avons aucune idée de la position du phare ouau contraire plutôt réduites si une zone plus précise dans laquelle peut se situer lephare est déﬁnie. p ( α, β ) =  , si α min < α < α max et β min < β < β max , sinon. (4.13) Fonction de vraisemblance p ( { x k }| α, β )Les données mesurées proviennent d’événements indépendants, la probabilitéd’obtenir un ensemble { x k } est simplement le produit des probabilités x k : p ( { x k }| α, β ) = n Y k=1 p ( x k | α, β ) (4.14)Ce qui donne :log( p ( { x k }| α, β )) = n log β − n X k=1 log (cid:16) β + ( x k − α ) (cid:17) (4.15) α la plus crédible Nous allons considérer que le prior est suﬃsamment large pour pour ne pas s’ensoucier dans l’écriture du postérieur. Numériquement, ce prior permet de délimiterles zones de tracé ou de recherche des solutions.log( p ( α |{ x k } , β )) = constante − n X k=1 log (cid:16) β + ( x k − α ) (cid:17) (4.16)La meilleur estimation pour la valeur de α est donnée pour le maximum de larelation donnée en 4.16. Analytiquement, cette relation est extrêmement diﬃcile àinverser pour exprimer α en fonction des données du problème. Numériquement,c’est un problème simple à résoudre : il suﬃt de tracer cette probabilité en fonctionde α et de rechercher la valeur maximum graphiquement. Ce tracé est réalisé enﬁgure 4.4 pour des valeurs ( α, β ) = (5 , α max = 4 ,

70 km pour N = 100. La distribution quesuit α en fonction du nombre de point N tend vers une forme piquée sur la valeurvraie de α . Il est à remarquer que pour de faibles valeurs de N , cette probabilitépeut devenir multimodale : des maxima principaux et secondaires apparaissent. Iltrès diﬃcile de pouvoir utiliser les outils classiques que sont la valeur moyenne etl’écart-type pour décrire cette distribution ou en tirer des informations.L’analyse bayésienne présente ainsi l’avantage de prendre en compte toute lacomplexité du problème et d’en donner une réponse adéquate.En ce qui concerne la valeur moyenne, il peut sembler surprenant de constaterqu’elle ne semble pas tendre vers une valeur centrale, comme le laisserait supposerune application du théorème de la limite centrale. De plus, cette valeur est trèséloignée de la zone la plus probable pour α , ce qui en fait un mauvais estimateurpour ce problème.Ici, la distribution statistique des positions sur la côte est pilotée par la dis-tribution de Cauchy. Cette dernière ne possède ni valeur moyenne, ni écart type,ce qui explique le comportement erratique de la valeur moyenne et le fait que lethéorème de la limite centrale ne s’applique pas. Recherche de α et β La démarche précédente s’étend sans diﬃcultés aux paramètres ( α, β ). Il s’agitd’un problème à deux dimensions dont la démarche de résolution est similaire àcelui présenté en 4.5.Cette technique permet de déterminer les positions les plus probables en fonctiondes deux dimensions de la position du phare. Avec suﬃsamment de points, la positiondu phare est déterminée avec une bonne précision.

L’analyse de données ne peut se limiter à fournir une valeur moyenne et un écarttype ou une série de paramètres issues d’une régression. Il faut garder à l’espritqu’un tel résultat sous-entend toujours une loi normale, or ce n’est pas toujoursle cas. Prenons simplement l’exemple d’une mesure de masse, est-il raisonnabled’écrire m = 7 ± bizarrerie de la distribution de Cauchy de ne pasposséder de valeur moyenne ou d’écart type, il existe des situations où la probabilitépostérieure ne saurait se résumer à une simple loi normale. Dans beaucoup de

3. Qui est utilisée pour décrire les raies spectroscopiques. − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=1 µ =0.25 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=2 µ =7.24 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=3 µ =3.08 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=5 µ =-18.13 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=7 µ =-10.69 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=15 µ =-16.19 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=20 µ =-11.13 − −

20 0 20 40

Position α du phare (km) p ( α | { x k } , β ) N=100 µ =43.18 Figure α du phare le long de la côteen fonction du nombre de données. Le nombre de données et la moyenne de cesdernières sont indiqués en haut à gauche de chaque graphique. La valeur moyenneest représentée par un trait verticale.5 − −

20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = − −

20 0 20 40 position α sur la cˆote d i s t a n ce β ` a l a c ˆo t e N = p ( α, β |{ x k } ) Figure α et β du phare. Le nombrede données est indiqué en haut de chaque graphique. La position exacte du phareest représentée par un point rouge. .3 Module EMCEE pour Python EMCEE est une implantation Python d’un méthode de Monte-Carlo par chaînede Markov. Cette méthode permet d’échantillonner des distributions statistiques etd’en déterminer les caractéristiques.Références : • Ensemble samplers with aﬃne invariance, J. Goodman and J. Weare • EMCE documentation • • Emcee : the MCMC Hammer, D. Foreman-Mackey, D. W. Hogg, D. Lang,J. GoodmanL’intérêt de cet algorithme est sa capacité à rapidement converger vers unedistribution satisfaisant la probabilité postérieure et d’en dessiner une image.Jusqu’à présent, il a été possible de tracer numériquement cette probabilité dans lamesure où les problèmes rencontrés ont peu de paramètres (maximum 2 jusqu’àprésent). La diﬃculté de cette méthode directe est qu’elle est trop couteuse en tempsde calcul pour des modèles avec beaucoup de paramètres, et certains nécessitentautant de paramètres que de données.

Reprenons l’analyse précédente en traitant numériquement le problème avec lemodule EMCEE. L’analyse du problème est strictement identique, seul la recherchedes paramètres α et β optimaux et le tracé diﬀèrent. ?? PythonTeX ?? L’algorithme EMCEE fonctionne de la manière suivante : des walkers sontinitialisés à des positions estimées et proche de la solution recherchée. Ici, les walkers pour a et b sont initialisés aléatoirement dans la zone a = [ − ,

50] et b = [0 , walkers d’explorer la distribution et de perdre la mémoire de leur position initiale, c’estla phase de burn-in . Les données acquises durant cette phase sont simplementéliminées. Enﬁn, après cette première phase, un certain nombre d’étapes sontlaissées aux walkers pour explorer pleinement la distribution.Le nombre d’étape de chacune des deux phases dépend de la complexité duproblème.Ensuite la distribution est tracée comme montré en ﬁgure 4.6. Les zones sombressont des zones fortement explorées par les walkers et correspondent aux zones oùla probabilité postérieure est grande.

4. module Python sous licence MIT d i s t a n c e b à l a c ô t e Figure α et β du phare calculé aumoyen de l’algorithme EMCE. Références : • Notice en ligne EMCE • Data analysis recipes : Fitting a model to data, D.W. Hogg, J. Bovy, D.LangAvec le module EMCEE et les techniques d’inférences bayésiennes, il est possiblede déﬁnir des modèles de régression suﬃsamment complexes pour détecter etéliminer les valeurs aberrantes d’un ensemble de données. En eﬀet, l’enjeu estimportant dans la mesure où la régression linéaire classique est très sensible auxvaleurs aberrantes. Il existe des techniques de correction pour rendre ces régressionsmoins sensible aux valeurs aberrantes, mais ces techniques ont des limites et àdéfaut d’éliminer complètement les valeurs aberrantes, elles réduisent le poids deces dernières.

5. Fonction objectif d’Huber, par exemple. .4.1 Positionnement du problème L’objectif est de trouver les meilleurs coeﬃcients a et b d’un modèle aﬃne y = ax + b pour une série de données obtenues par les relations suivantes :  { x i } = distribution uniforme sur l’intervalle [0 , { σ i } = distribution uniforme sur l’intervalle [2 , { y err } = N (0 , { σ i } ) { y i } = a · { x i } + b + { y err } (4.17)Les données aberrantes sont ensuite inclues dans l’ensemble des données. Le codePython indiqué ci-dessous permet la génération de données décrite précédemment. ?? PythonTeX ?? Un modèle de régression linéaire tel que décrit dans le chapitre 2 est ajoutée àla représentation graphique des données en ﬁgure 4.7. Ce dernier est lourdementinﬂuencé par les quelques données aberrantes et ne permet pas de décrire la relationlinéaire qui se dessine intuitivement avec les données valides.

Caractéristique des données valides

Le modèle initiale est similaire à celui décrit par la relation 2.5 : Il faut chercherun extremum d’une fonction chiﬀrant l’écart du modèle aux données.Nous allons supposer que l’incertitude associée à chaque point suit une loinormale. La probabilité d’avoir les données D = { x i , y i , σ i } connaissant le modèle H = ( a, b ) est : p ( { x i , y i , σ i }| ( a, b )) = p ( D | H ) = n Y i =0 πσ i exp  − ax i + b − y i σ i !  (4.18)Chaque terme du produit est simplement une probabilité donnée par une loinormale d’écart type σ i et de valeur centrale ax i + b donnée par le modèle. Enutilisant cette probabilité comme fonction de vraisemblance et en prenant un prioruniforme, l’utilisation du théorème de Bayes conduit à minimiser la même grandeurque celle déﬁnie par la relation 2.5, et cela conduit au modèle de la régressionlinéaire. 68

20 40 60 80 100x050100150200 y modéle initialRégression linéaireDonnéesDonnées aberrantes Figure σ ≈

10 et centrée sur chaque point y i = ax i + b , avec a = 2 et b = − Caractéristique des données aberrantes

Une donnée aberrante est une donnée qui n’est pas corrélée au phénomène donton mesure une grandeur mais qui suit une statistique indépendante du modèle :12 πσ A exp " − (cid:18) Y A − y i σ A (cid:19) (4.19) Association des deux caractéristiques

Pour combiner les deux aspects, il est possible de construire une probabilitéreposant sur des paramètres { g i } chiﬀrant le caractère aberrant ou non d’unedonnées. g i est un paramètre supplémentaire associé à chaque point et variant de 0

6. Ce choix est discutable pour une mesure réelle, mais par soucis de simpliﬁcation, c’est lemodèle qui est retenu pour cet exemple.

69 1 : • g i proche de 1, le point est une donnée valide ; • g i proche de 0, le point est une donnée aberrante.L’association des données aberrantes et valides se fait donc au travers de laprobabilité suivante :  f ( g i ) =  , si g i > g , si g i < g p ( x i , y i , σ i | ( a, b ) , g i ) = f ( g i )2 πσ i exp (cid:20) − (cid:16) ax i + b − y i σ i (cid:17) (cid:21) + 1 − f ( g i )2 πσ A exp (cid:20) − (cid:16) Y A − y i σ A (cid:17) (cid:21) (4.20)Suivant la valeur de g i , la probabilité suivie est soit celle d’une donnée valide,soit celle d’une donnée aberrante. Fonction de vraisemblance, prior et probabilité postérieure

Un prior uniforme est utilisé, par soucis de simplicité : p ( a, b ) ∝ p : p ( { x i , y i , σ i }| ( a, b ) , { g i } ) = n Y i =0 p ( x i , y i , σ i | ( a, b ) , g i ) (4.22)La probabilité postérieure est donc : p (( a, b ) , { g i }|{ x i , y i , σ i } ) = p ( H, { g i }| D ) ∝ n Y i =0 p ( x i , y i , σ i | ( a, b ) , g i ) (4.23) Code python

Les probabilités précédentes sont déﬁnies numériquement au moyen de loga-rithme pour en facilité le calcule numérique. ?? PythonTeX ??

7. Concernant le paramètre a , le prior n’est pas non informatif. En eﬀet, il faudrait choisir uneprobabilité a tel que la probabilité que la droite fasse un angle α avec l’horizontale soit uniforme. .4.3 Paramètres de nuisance Les paramètres { g i } sont des paramètres de nuisance. Un paramètre de nuisanceest nécessaire au modèle retenu, mais n’apporte aucune information concernant lerésultat ﬁnal. L’opération visant à les faire disparaitre est appelée marginalisationdes paramètres de nuisance et consiste à intégrer la probabilité sur l’ensemble desvaleurs de ces paramètres : p (( a, b ) |{ x i , y i , σ i } ) = p ( H | D ) = Z { g i } p (( a, b ) , { g i }|{ x i , y i , σ i } ) dg i (4.24) ?? PythonTeX ?? L’opération de marginalisation est cachée par le principe de l’algorithme. Eneﬀet, une des propriétés des chaines de Monte-Carlo est d’ imager la distributionpostérieur, et l’opération de marginalisation se fait simplement en ignorant lesparamètres { g i } . sample est un tableau dont l’une des dimensions contient les paramètres dusystème : les deux premiers sont les coeﬃcients a et b, tous les suivants sont les { g i } . ?? PythonTeX ?? Les données a et b issues de l’échantillonnage sont représentées en ﬁgure 4.8.Une zone centrée sur a = 2 et b = 0 ressort des données et correspond aux zonesde crédibilité les plus élevées. Le modèle sélectionne les valeurs de g i minimisant l’erreur commise entrela droite moyenne et les données. Lorsque les g i dépassent une valeur seuil g arbitrairement ﬁxée à 0 ,

5, ces derniers ne participent plus à l’évaluation descoeﬃcients a et b .Cela signiﬁe que les données aberrante possèdent un paramètre g i inférieur à0 ,

5. Il est donc possible de mettre en évidence les valeurs aberrantes. Le graphique4.9 reprend l’ensemble de l’analyse réalisée. Les données entourée en bleu sontcelles détectées comme valeurs aberrantes par la méthode. Une faisceau de courbesreprésentant l’intervalle de crédibilité à 95% est ajouté. La droite servant de modèleinitiale est bien inclue dans ce faisceau. ?? PythonTeX ??

L’intérêt de cette méthode est de pouvoir normaliser et rendre transparent leprocessus d’élimination des valeurs aberrantes. La richesse du formalisme d’analyse71 P e n t e a Figure a et ordonnées àl’origine b du modèle.bayésienne rend cette opération possible. Bien que plus complexe à mettre enœuvre, une fois implémenté ces outils peuvent s’utiliser dans une grande variété desituations. 723 y Ajustement par regression : inférence bayésienne modéle initialRégression linéaireDonnées estimées comme aberrantesAjustement par inférence bayésienneIntervalle de crédibilité à 2DonnéesDonnées aberrantes

Figure .5 Quelques mots pour conclure

Références : • Nature, volume 506, issue 7487, 13 February 2014, "Statistical errors", R.Nuzzo • Bayesian Reasonning in Data Analysis, G. D’AgostiniJe reviendrai simplement sur la diﬀérence de point de vu entre les traitementsclassiques et par inférences bayésiennes. Cette diﬀérence réside dans l’interprétationdonnée dans l’analyse statistique d’un problème. D’un côté, nous nous intéressons àla probabilité d’obtenir un jeu de données particulier moyennant la connaissanced’un modèle. D’un autre côté, nous déterminons le degrés de probabilité du modèleconnaissant un jeu de données.A P value measures whether an observed result can be attributed tochance. But it cannot answer a researcher’s real question : what are theodds that a hypothesis is correct ? Those odds depend on how strongthe result was and, most importantly, on how plausibile the hypothesisis in the ﬁrst place.Ces deux approches sont diﬀérentes et ne répondent fondamentalement pas auxmêmes questions.La diﬃculté réside dans le fait que la plupart du temps l’analyse de donnéesconduit aux mêmes résultats chiﬀrés quelque soit la méthode employée. De ce fait,l’aspect utilitaire l’emporte : pourquoi faire compliqué ?L’approche bayésienne est complexe à mettre en œuvre auprès d’élèves ouétudiants et nécessite beaucoup de prérequis. Le cadre des travaux pratiques entemps limité ne permet souvent pas de réaliser l’analyse de données ou même de s’yarrêter quelques minutes alors qu’elle fait partie intégrante du travail expérimental.Cependant, après ce modeste tour des capacités d’analyse de l’approchebayésienne et des limites de certaines pratiques, j’ose espérer que l’analyse dedonnées occupera une place plus importante, et qu’a défaut de rentrer dans lesdétails, le cadre d’application des méthodes d’analyses statistiques sera déﬁni et lesens à donner à ces analyses sera introduit.

8. Cette probabilité se résume souvent au fameux facteur p .9. Au vu de la littérature universitaire existant sur le sujet.9. Au vu de la littérature universitaire existant sur le sujet