[PDF] Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

Abstract

In this work, we evaluate the performance of recent text embeddings for the automatic detection of events in a stream of tweets. We model this task as a dynamic clustering problem.Our experiments are conducted on a publicly available corpus of tweets in English and on a similar dataset in French annotated by our team. We show that recent techniques based on deep neural networks (ELMo, Universal Sentence Encoder, BERT, SBERT), although promising on many applications, are not very suitable for this task. We also experiment with different types of fine-tuning to improve these results on French data. Finally, we propose a detailed analysis of the results obtained, showing the superiority of tf-idf approaches for this task.

Full PDF

aa r X i v : . [ c s . I R ] J a n Représentations lexicales pour la détection non superviséed’événements dans un ﬂux de tweets : étude sur des corpusfrançais et anglais

Béatrice Mazoyer ∗ , ∗∗ , Nicolas Hervé ∗∗ ,Céline Hudelot ∗ , Julia Cagé ∗∗∗∗ CentraleSupélec (Université Paris-Saclay), MICS, Gif-sur-Yvette, Francebeatrice.mazoyer, [email protected], ∗∗ Institut National de l’Audiovisuel, Bry-sur-Marne, [email protected] ∗∗∗

SciencesPo Paris, Département d’économie, Paris, [email protected]

Résumé.

Dans cet article, nous nous intéressons aux approches récentes deplongements lexicaux en vue de les appliquer à la détection automatique d’évé-nements dans un ﬂux de tweets. Nous modélisons cette tâche comme un pro-blème de clustering dynamique. Nos expériences sont menées sur un corpus detweets en anglais accessible publiquement ainsi que sur un jeu de données si-milaire en français annoté par notre équipe. Nous montrons que les techniquesrécentes fondées sur des réseaux de neurones profonds (ELMo, Universal Sen-tence Encoder, BERT, SBERT), bien que prometteuses sur de nombreuses ap-plications, sont peu adaptées pour cette tâche, même sur le corpus en anglais.Nous expérimentons également différents types de ﬁne-tuning aﬁn d’améliorerles résultats de ces modèles sur les données en français. Nous proposons en-ﬁn une analyse ﬁne des résultats obtenus montrant la supériorité des approchestraditionnelles de type tf-idf pour ce type de tâche et de corpus.

Les recherches récentes en traitement automatique du langage ont permis d’atteindre desperformances proches des capacités humaines, notamment en ce qui concerne la détectionde paraphrase ou l’évaluation de la similarité sémantique entre deux phrases . Cependant, cesavancées, fondées sur l’entraînement de réseaux de neurones sur de très vastes corpus de textes,sont à nuancer.En effet, malgré des progrès rapides ces dernières années dans l’adaptabilité des modèles detraitement du langage (GLUE, le benchmark de référence (Wang et al., 2018), est constitué de9 tâches différentes, et les modèles sont évalués en fonction de leur performance moyenne surtoutes ces tâches), il reste difﬁcile d’adapter ces modèles à de nouvelles tâches. Dans cet article,

1. Voir les résultats obtenus sur le benchmark GLUE : gluebenchmark.com eprésentations lexicales pour la détection d’événements dans un ﬂux de tweetsnous nous intéressons ainsi à la similarité thématique de phrases (savoir si deux phrasesparlent du même sujet), qui diffère dans certains cas de la similarité sémantique (savoir si deuxphrases veulent dire la même chose) évaluée dans GLUE. Il est vrai que de nouveaux modèles,comme BERT (Devlin et al., 2018) sont prévus pour être facilement adaptés sur de nouveauxcorpus. Cependant, toute transformation de la tâche initiale, même minime, demande d’adapterce réseau en ayant recours au ﬁne-tuning sur (au minimum) quelques milliers de phrases, ce quiimplique des heures d’annotation manuelle pour créer un jeu de données adapté. Par ailleurs,même sur une tâche strictement identique, les performances annoncées dans la littérature nesont parfaitement reproductibles que sur des corpus en anglais.Enﬁn, la plupart de ces modèles sont conçus pour être utilisés en entrée de systèmes debout-en-bout ( end-to-end ). Par exemple, pour calculer un score de similarité entre phrasesavec BERT, il faut traiter chaque couple de phrases au lieu de chaque phrase. Ces architecturess’appliquent mal à des systèmes de recherche d’information qui supposent de comparer descentaines de milliers de phrases . Pour des tâches de clustering ou de recherche d’informa-tion, il est plus efﬁcace de représenter chaque phrase dans un espace vectoriel où les phrasessimilaires sont proches (ce que l’on appelle un plongement lexical, embedding en anglais), oùl’on peut ensuite appliquer des mesures de distance classiques (cosinus, distance euclidienne).En utilisant des structures d’index adaptées, trouver la paire la plus similaire parmi 10 000phrases peut dès lors s’effectuer en quelques millisecondes (Johnson et al., 2019).Dans cet article, nous testons différents plongements lexicaux pour une tâche de clusteringthématique de tweets : il s’agit de grouper ensemble les documents traitant du même sujet, dansdes corpus de tweets concernant des événements médiatiques. Nous comparons une représen-tation traditionnelle des documents sous forme de vecteurs tf-idf (Sparck Jones, 1972) à desplongements lexicaux plus récents : Word2Vec (Mikolov et al., 2013), Universal Sentence En-coder (Cer et al., 2018), SBERT (Reimers et Gurevych, 2019). Aﬁn d’obtenir un plongementlexical à partir de réseaux de neurones profonds, il est possible d’utiliser la sortie d’une coucheintermédiaire en tant que représentation vectorielle d’une phrase, ce que nous testons égale-ment pour deux modèles, ELMo (Peters et al., 2018) et BERT. Nos expériences sont menéessur un jeu de données de tweets en anglais accessible publiquement (McMinn et al., 2013) ainsique sur un jeu de données similaire de tweets en français annoté par notre équipe. Le code denos expériences est disponible en ligne . Nous montrons que les plongements lexicaux créésà partir de techniques récentes fondées sur des réseaux de neurones profonds ne permettentpas d’améliorer la performance de l’algorithme de clustering, même sur le jeu de données enanglais. Nous réalisons également plusieurs expériences de ﬁne-tuning aﬁn d’améliorer BERTet SBERT sur le corpus français. Dans ce cadre, nous montrons qu’utiliser un dataset traduitautomatiquement de l’anglais en français (ici le benchmark STS ) est une piste valable pourobtenir des jeux de données de ﬁne-tuning en français. Enﬁn, nous proposons une analyse dé-taillée des résultats obtenus et montrons la supériorité des approches classiques de type tf-idfpour le clustering de tweets.

2. Plus précisément, nous nous intéressons à la similarité thématique de texte courts, ici des tweets, qui ont laparticularité de n’être pas toujours grammaticalement corrects. Pour simpliﬁer, nous considérons les tweets commedes phrases dans cet article.3. Pour reprendre l’exemple proposé par Reimers et Gurevych (2019), si l’on cherche à trouver les deux phrasesles plus similaires dans un corpus de n = 10 000 phrases, le nombre de traitements à réaliser est n ( n − / = 49 995000 opérations, ce qui représente environ 65 heures de traitement avec BERT sur un GPU V100.4. https://github.com/ina-foss/twembeddings http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark . Mazoyer et al. Nous présentons tout d’abord dans cette partie les travaux antérieurs consacrés au cluste-ring thématique de tweets, avec une attention particulière portée aux types de représentationsvectorielles utilisées, puis nous détaillons les techniques existantes de plongement lexical dephrases.

Le clustering thématique de tweets vise à regrouper ensemble les tweets traitant du mêmesujet. Pour ce type de clustering, il est souvent fait appel à des algorithmes prenant en compteà la fois la similarité thématique des documents et leur proximité temporelle, aﬁn de ne pasregrouper dans le même cluster des tweets émis à des époques très différentes. Par ailleurs, lenombre de thématiques (et donc de clusters) n’est pas connu à l’avance dans la plupart des cas.De ce fait, des techniques telles que l’algorithme “First Story Detection", utilisé dans le sys-tème UMass (Allan et al., 2000), sont souvent appliquées aux tweets. C’est notamment le caschez Petrovi´c et al. (2010), Hasan et al. (2016), et Repp et Ramampiaro (2018). Petrovi´c et al.(2010) proposent une méthode fondée sur du

Locality Sensitive Hashing pour accélérer la re-cherche, tandis que Repp et Ramampiaro (2018) introduisent des mini-batches. Cet algorithme"FSD" est détaillé ci-dessous car c’est également celui que nous utilisons.

Algorithm 1 “First Story Detection"

Input: threshold t , window size w , corpus C of documents in chronological order Output: thread ids for each document T ← [] ; i ← while document d in C do if T is empty then thread _ id ( d ) ← i i ← i + 1 else d nearest ← nearest neighbor of d in T if cosine ( d, d nearest ) < t then thread _ id ( d ) ← thread _ id ( d nearest ) else thread _ id ( d ) ← i i ← i + 1 end if end if if | T | ≥ w then remove ﬁrst document from T end if add d to T end while eprésentations lexicales pour la détection d’événements dans un ﬂux de tweetsSankaranarayanan et al. (2009) et Becker et al. (2011) utilisent un autre algorithme fondésur la distance (pondérée par un facteur temporel) entre la moyenne des vecteurs de chaquecluster et chaque nouveau tweet. Hasan et al. (2016) utilisent l’algorithme FSD dans un pre-mier temps pour déterminer le caractère “unique" d’un tweet (c’est-à-dire s’il est sufﬁsammentéloigné des tweets précédents), mais l’attribution d’un tweet à un cluster se fait ensuite en fonc-tion de la distance à la moyenne, de façon similaire à Sankaranarayanan et al. (2009).Ici, nous utilisons l’algorithme FSD car il est fondé sur une simple mesure de distance, cequi permet de bien tester la qualité des plongements sémantiques pour des tâches de clustering.Nous introduisons cependant la même variante “mini-batch" que Repp et Ramampiaro (2018)pour diminuer le temps de traitement.Dans ces travaux, les tweets sont représentés sous la forme de vecteurs tf-idf dans lagrande majorité des cas (Sankaranarayanan et al., 2009; Petrovi´c et al., 2010; Becker et al.,2011; Hasan et al., 2016). Repp et Ramampiaro (2018) testent différents types de représenta-tions des tweets (moyenne de Word2Vec, moyenne de GloVe, Doc2Vec, moyenne de Word2Vecpondérée par l’idf de chaque mot). Cependant ces représentations sont uniquement testées surune tâche de classiﬁcation, et la meilleure représentation (la moyenne de Word2Vec) est ensuiteutilisée pour le clustering. Il nous paraît donc important de mettre à jour ces travaux en testantdes plongements lexicaux récents, et notamment ceux développés en vue de la représentationde phrases. La méthode de “vectorisation" la plus couramment utilisée jusque dans les années 2010était le tf-idf, introduit par Sparck Jones (1972). Il s’agit d’une amélioration du principe desvecteurs “sac de mots" ( “bag of words" ) (Harris, 1954), où chaque document est décrit par lenombre d’occurrences des mots qu’il contient (“term frequency"). La pondération tf-idf pon-dère chacun des mots inversement proportionnellement au nombre de documents dans lesquelsil apparaît.

Avec la publication de Word2Vec (Mikolov et al., 2013) et GloVe (Pennington et al., 2014),des méthodes fondées sur la prédiction du contexte de chaque mot (ou la prédiction de chaquemot en fonction de son contexte) ont permis de créer des vecteurs de mots porteurs d’une formede sémantique autre que leurs fréquence dans le corpus. Ces représentations perdent cependantla faculté de décrire chaque document par un seul vecteur. Pour contourner ce problème, onreprésente souvent chaque document par la moyenne des vecteurs des mots qu’il contient.Avec ELMo (Peters et al., 2018) apparaît une nouvelle génération de modèles, permettantune représentation des mots non seulement en fonction de leur contexte général (les motsavec lesquels ils sont fréquemment employés dans le corpus d’entraînement), mais aussi enfonction de leur contexte local (dans une phrase en particulier). ELMo est fondé sur un réseaude neurones LSTM bi-directionnel entraîné à prédire dans les deux sens le prochain mot d’uneséquence (c’est-à-dire prédire le prochain mot d’une phrase, mais aussi, étant donné la ﬁnd’une phrase, prédire le mot venant juste avant). ELMo n’est toutefois pas prévu pour produiredes plongements lexicaux de phrases, mais pour être utilisé en entrée de modèles neuronauxspéciﬁques à certaines tâches. Les auteurs testent néanmoins la performance de vecteurs de. Mazoyer et al.mots directement issus de la première couche ou de la deuxième couche de leur modèle (quien contient trois) pour une tâche de désambiguïsation par recherche du premier plus prochevoisin. Les résultats obtenus sont proches de l’état de l’art.BERT (Devlin et al., 2018) est plus générique encore qu’ELMo, car ce modèle ne nécessiteaucune architecture spéciﬁque à chaque type de tâche : il peut être ﬁne-tuné sur un nouveau jeude données en ajoutant simplement une couche de sortie. BERT est construit avec une archi-tecture de type

Transformer (Vaswani et al., 2017), et pré-entraîné sur deux types de tâches :prédire des mots masqués dans une phrase et prédire la phrase suivante dans un texte. Commepour ELMo, les auteurs de BERT ne prévoient pas l’extraction de vecteurs de phrases à partirde leur modèle, mais ils démontrent qu’un simple transfer learning (extraction de vecteurs demots sans ﬁne-tuning utilisés à l’entrée d’un nouveau modèle) permet d’égaler l’état de l’artpour une tâche de détection d’entités nommées.

Il existe un grand nombre de travaux cherchant à représenter les phrases par des vecteursgénériques, utilisables dans une très grande variété de tâches, notamment pour du transfer-learning. Ainsi Skip-Thought (Kiros et al., 2015) est fondée sur une architecture encodeur-décodeur entraînée à générer le passage encadrant une phrase donnée dans un texte. Conneau et al.(2017) montrent avec InferSent, un réseau LSTM bi-directionnel siamois (c’est-à-dire quele réseau prend deux phrases en entrée, mais ce sont les mêmes poids qui sont appliquésdans les deux parties du réseau), qu’un apprentissage supervisé fournit de meilleurs résul-tats pour la création de vecteurs de phrases génériques. En l’occurrence, InferSent est entraînésur le jeu de données SNLI, qui contient 570 000 paires de phrases en anglais annotées ma-nuellement en trois catégories : la première phrase implique la deuxième, la première phrasecontredit la deuxième, ou la première phrase et la deuxième phrase sont mutuellement neutres.Cer et al. (2018) (

Universal Sentence Encoder ) appliquent les résultats de Kiros et al. (2015)et Conneau et al. (2017) en entraînant une architecture de type

Transformer à la fois sur destâches non-supervisées, comme Skip-Thought et sur le jeu de données SNLI, comme InferSent.Sentence-BERT (SBERT, Reimers et Gurevych, 2019) propose non pas des vecteurs uni-versels, mais une architecture de ﬁne-tuning du modèle BERT spéciﬁquement adaptée pourproduire des plongements lexicaux de phrases adaptés à certains types de tâches. Ce modèlemodiﬁe BERT pour en faire un réseau siamois, complété par une dernière couche dépendantedu type de tâche sur lequel le réseau est entraîné. Les auteurs testent leurs représentations sur lejeu de données STS (8628 paires de phrases auxquelles est associé un score de similarité entre0 et 5) en calculant un simple score de similarité cosinus entre les vecteurs associés à chaquephrase. Ils montrent que les meilleures performances sur le jeu de données STS sont obtenuespar un premier ﬁne-tuning sur SNLI puis un second sur le jeu d’entraînement de STS.Nous détaillons dans la partie suivante les méthodes utilisées pour tester différents typesde représentations (tf-idf, Word2Vec, ELMo, BERT, Universal Sentence Embedding, SBERT)pour la tâche de clustering dynamique de tweets.eprésentations lexicales pour la détection d’événements dans un ﬂux de tweets

Évaluer la “qualité" d’un plongement lexical pour la représentation de tweets peut se faireselon différentes approches : d’une part, évaluer si la représentation permet une bonne sépa-rabilité des différentes classes (événements). D’autre part, s’assurer que les vecteurs produitsse prêtent bien à des mesures de distance, qui sont utilisées pour le clustering. Enﬁn, il fautévaluer la qualité des modèles pré-entraînés pour différentes langues. Nous avons donc, dansun premier temps, ramené la tâche de détection non supervisée d’événements à une tâche declassiﬁcation. Dans un second temps, nous avons modélisé le problème de détection d’événe-ments de façon plus réaliste comme un clustering dynamique, en utilisant l’algorithme FSD.Chaque type d’évaluation a été réalisé sur le jeu de données en anglais (McMinn et al., 2013)et sur notre propre corpus en français.Pour la classiﬁcation des tweets, nous utilisons un classiﬁeur de type SVM avec un kerneldit “triangulaire" (Fleuret et Sahbi, 2003). Ce kernel est de la forme k ( x, y ) = 1 − || x − y || .Nos expériences montrent que ce type de kernel, en plus d’être invariant aux changementsd’échelles (Fleuret et Sahbi, 2003), s’applique à la fois à des vecteurs denses et creux, sansmodiﬁcation de paramètres, et obtient des performances similaires aux noyaux paramétriquessur du clustering de texte. Le classiﬁeur est entraîné sur un échantillon aléatoire de 50% ducorpus. La classiﬁcation est évaluée par la moyenne macro du score F1 de chaque classe.Pour le clustering, nous utilisons l’algorithme FSD (voir 2.1) en introduisant des “mini-batch" de 8 tweets de façon à paralléliser la recherche de plus proche voisin. Les paramètresde cet algorithme sont w (nombre de tweets du passé parmi lesquels on recherche un plusproche voisin) et t , le seuil de distance au-dessus duquel un tweet est jugé sufﬁsamment éloignédes tweets passés pour former un nouveau cluster. La valeur de w a été ﬁxée différemmentpour chaque corpus : elle est ﬁxée à environ un jour d’historique de tweets, en fonction dunombre moyen de tweets par jour dans chaque corpus. On a ensuite testé différentes valeursde t pour chaque type de plongement lexical. D’une manière générale, des valeurs de t plusbasses entraînent une création de clusters plus fréquente, et donc une meilleure homogénéitéintra-cluster, mais peuvent augmenter le sur-clustering.La performance du clustering est évaluée par une mesure que nous nommons “F1 dumeilleur appariement" ( best matching F1 ). Elle est déﬁnie par Yang et al. (1998) : on évalue lescore F1 de chaque paire entre les clusters (détectés) et les événements (annotés). On appariealors chaque événement au cluster pour lequel le score F1 est le meilleur. Chaque événementne peut être associé qu’à un seul cluster. Le “F1 du meilleur appariement" correspond donc àla moyenne des F1 des couples cluster/événement, une fois l’appariement réalisé. Nous présentons dans cette partie nos expériences, en détaillant le contenu des jeux dedonnées utilisés puis le type de plongements lexicaux testés. Enﬁn nous revenons sur nos testsde ﬁne-tuning visant à améliorer les performances de BERT et S-BERT sur le corpus français.. Mazoyer et al.

Corpus en anglais.

Le corpus

Event2012 (McMinn et al., 2013) est le seul jeu de donnéespubliquement accessible en anglais pour la détection d’événements sur Twitter. Il contient plusde 150 000 tweets annotés, au sein d’un corpus total de 120 millions de tweets collectés entreOctobre et Novembre 2012. Chaque tweet est associé à un identiﬁant d’événement parmi uneliste de plus de 500 événements. L’annotation a été réalisée sur Amazon Mechanical Turk.Conformément aux conditions d’utilisation de l’API Twitter, les auteurs ne partagent pas di-rectement le contenu des tweets, mais seulement leurs identiﬁants. Le corpus datant de 2012,beaucoup de tweets ont été effacés, et nous n’avons pu obtenir (en Mars 2019) que 66,5 mil-lions de tweets du corpus initial (55%), et seulement 72 790 tweets annotés (72%).

Corpus en français.

Nous avons annoté notre propre jeu de données de tweets en fran-çais,

Event2018 , à partir d’un corpus de 40 millions de tweets collectés entre Juillet et Août2018. L’annotation a été réalisée manuellement par 3 étudiants en Sciences Politiques . Lesévénements ont été tirés aléatoirement parmi les articles parus pendant cette période dans 6quotidiens français ( Le Monde , Le Figaro , Les Échos , Libération , L’Humanité , Médiapart )ainsi que parmi les événements particulièrement relayés sur Twitter durant cette période. Lesannotateurs avaient pour consigne de trouver pour chaque événement des mots-clefs associés.Pour chaque mot-clef, les tweets contenant cette expression dans le corpus étaient afﬁchés, etles annotateurs devaient sélectionner parmi ceux-ci ceux qui étaient en lien avec l’événement.Au total, 316 événements ont été annotés, avec un score inter-annotateurs (Randolph, 2005)de 0,79. Un travail de regroupement des événements sur plusieurs jours a ensuite été effectué(par exemple, tous les rebondissements de l’affaire Benalla ont été regroupés en un seul événe-ment), pour obtenir 243 "macro-événements", que nous utilisons comme vérité de terrain pourles tâches de clustering et de classiﬁcation. Au total, 95 796 tweets ont été annoté comme liésà l’un de ces événements. Le corpus est accessible en ligne à des ﬁns de recherche. Aﬁn de mener nos expériences sur les deux corpus, nous avons choisis des modèles entraî-nés à la fois sur du français et de l’anglais. Cette sous-partie détaille les modèles utilisés.

Tf-idf.

Du fait de la brièveté inhérente aux tweets, nous avons simpliﬁé le calcul de tf-idfà un simple calcul d’idf, car il est peu fréquent qu’un terme soit utilisé plusieurs fois dansle même tweet. La forme utilisée pour calculer le poids d’un terme t dans un tweet est donc idf ( t ) = 1 + log ( n + 1 /df ( t ) + 1) , avec n le nombre total de documents dans le corpus et df ( t ) le nombre de documents du corpus qui contiennent t . Nous avons distingué deux modesde calcul pour n et df ( t ) : tﬁdf-dataset désigne la méthode qui ne décompte que les tweetsannotés, et tﬁdf-all-tweets désigne le mode de calcul qui prend en compte tous les tweetsdu corpus (plusieurs dizaines de millions de tweets) pour obtenir n et df ( t ) . Pour chaqueméthode, nous restreignons le vocabulaire avec une liste de stop-words et un seuil df min , lenombre minimum de tweets qui doivent contenir t pour qu’il soit inclut dans le vocabulaire.

6. Tous nos remerciements à Liza Héliès, Siegrid Henry et Antoine Moutiez pour leur annotation attentive7. https://dataset.ina.fr/corpus . Veuillez remplir le formulaire en indiquant le nom du jeu de don-nées (Event2018). Conformément aux CGU de Twitter, nous ne fournissons pas le contenu des tweets mais seulementleurs identiﬁants. Un script permettant d’obtenir le texte des tweets est fourni dans notre dépôt github. En novembre2019, 81% des tweets annotés étaient encore disponibles. eprésentations lexicales pour la détection d’événements dans un ﬂux de tweetsDans toutes nos expériences, df min = 10 . On obtient donc un vocabulaire de près de 330000mots en anglais et 92000 mots en français pour tﬁdf-all-tweets , et de 5000 mots en anglais et9000 mots en français pour tﬁdf-dataset . Word2Vec.

Nous avons utilisé des modèles pré-entraînés pour l’anglais, et entraînés nospropres modèles français. Pour chaque corpus, nous distinguons w2v-twitter , les modèles en-traînés sur des tweets, et w2v-news , les modèles entraînés sur des articles de presse. Pour l’an-glais, w2v-twitter est un modèle pré-entraîné publié par Godin et al. (2015) (400 dimensions)et w2v-news est un modèle entraîné sur Google News et publié par Google (300 dimensions).En français, w2v-twitter a été entraîné avec l’algorithme CBOW sur 370 millions de tweetscollectés entre 2018 et 2019, et w2v-news a été entraîné de la même façon sur 1.9 millions dedépêches AFP collectées entre 2011 et 2019. Les deux modèles ont 300 dimensions. CommeWord2Vec fournit un plongement lexical de mots et non de phrase, la représentation des tweetsest obtenue en moyennant les vecteurs de chaque mot. Deux méthodes ont été utilisées pour lamoyenne : une moyenne simple, et une moyenne pondérée par l’idf (tﬁdf-all-tweets). ELMo.

Pour l’anglais, nous avons utilisé le modèle publié sur TensorFlow Hub . Pour lefrançais, un modèle entraîné sur du français publié par Che et al. (2018) . Dans chaque cas,nous utilisons la moyenne des trois couches du réseau comme représentation de chaque mot.La représentation d’un tweet est produite en moyennant ces vecteurs (de dimension 1024). BERT.

Google fournit un modèle en anglais et un modèle multilingue . Aﬁn d’améliorerles performances du modèle multilingue sur des tweets en français, nous avons poursuivi l’en-traînement pendant 150 000 étapes sur des tweets collectés en juin 2018. Nous désignons lemodèle multilingue simple par bert et le modèle entraîné sur des tweets par bert-tweets . Danschaque cas, nous avons utilisé l’avant-dernière couche du réseau (de dimension 768) commeplongement lexical, en moyennant les tokens pour obtenir une représentation de tweet. Universal Sentence Encoder.

Les modèles fournis

13, 14 (anglais et multilingue) sont pré-vus pour fournir des plongements lexicaux de phrases, nous avons donc pu les utiliser telsquels. Les vecteurs calculés sont de dimension 512.

Sentence BERT.

Les auteurs de SBERT fournissent des modèles pré-entraînés pour l’an-glais . Pour le français, nous avons dû réaliser un ﬁne-tuning du modèle BERT multilingue,que nous présentons dans la sous-partie suivante. Les vecteurs obtenus sont de dimension 768. Le modèle SBERT est spéciﬁquement entraîné pour fournir des scores de similarité cosi-nus. Ainsi, sur le corpus STS de similarité sémantique, la fonction de coût est l’erreur qua-dratique moyenne entre le score de similarité cosinus entre les vecteurs des deux phrases etle score de similarité évalué manuellement dans le jeu de données. Ce type de modèles paraîtparticulièrement adapté pour notre algorithme de clustering, et en effet, parmi les plongements github.com/loretoparisi/word2vec-twitter code.google.com/archive/p/word2vec/ tfhub.dev/google/elmo/2 github.com/HIT-SCIR/ELMoForManyLangs github.com/google-research/bert . Modèles : bert-large, uncased et bert-base, multilingual cased13. tfhub.dev/google/universal-sentence-encoder-large/3 tfhub.dev/google/universal-sentence-encoder-multilingual-large/1 github.com/UKPLab/sentence-transformers . Modèle : bert-large-nli-stsb-mean-tokens . Mazoyer et al.sémantiques de phrases ( Universal Sentence Embedding et SBERT) c’est celui qui fournit lesmeilleurs résultats de clustering en anglais (voir le tableau 2).Cependant, le modèle pré-entraîné en anglais est fondé sur le ﬁne-tuning de BERT sur destâches supervisées (voir la partie 2.2.2 pour le détail des tâches SNLI et STS), ce qui ne peutpas être réalisé sans corpus en français annoté. Nous avons donc mis en place deux stratégiespour réaliser un ﬁne-tuning du modèle bert-tweets sur des données en français : d’une partnous avons utilisé

Cloud Translation API dans la limite d’utilisation gratuite pour traduireune partie du dataset STS (nous avons obtenu 2984 paires de phrases en français). D’autrepart, nous avons annoté manuellement 500 paires de titres d’articles de presse sélectionnéscar ils contenaient des mots-clefs en commun. L’annotation s’est fait sur une échelle de 0à 5, de la même façon que pour STS. Cependant, au lieu d’indiquer le degré de similaritésémantique entre les phrases, nous avons plutôt cherché à évaluer si les deux titres décrivaientle même événement. Les deux types de ﬁne-tuning (corpus traduit, ou corpus traduit + corpusannoté) sont désignés par sbert-tweets-sts-short et sbert-tweets-sts-long . Les performancesdes différentes représentations sont décrites dans la prochaine partie. Modèle Anglais Français bert . ± .

41 78 . ± . bert-tweets - . ± . elmo . ± .

41 73 . ± . sbert-nli-sts . ± . -sbert-tweets-sts-long - ± . tﬁdf-all-tweets ± . ± . tﬁdf-dataset ± . ± . use . ± . ± . w2v-news . ± . ± . w2v-news tﬁdf-weights ± . ± . w2v-twitter . ± . ± . w2v-twitter tﬁdf-weights . ± . ± . T AB . 1: Résultats de la classiﬁcation des tweets en événements pour chaque corpus. La perfor-mance est calculée par la moyenne macro de la mesure F1 pour chaque classe. Chaque mesureest réitérée 5 fois avec des initialisations différentes. Chaque cellule indique la moyenne etl’écart-type de ces 5 mesures, en pourcentages. D’une manière générale, pour les deux tâches, aucun des modèles testés ne parvient à fairemieux que le modèle tf-idf calculé sur l’ensemble du corpus (tﬁdf-all-tweets). Cependant, laperformance relative des modèles varie selon la langue, et selon le type de tâche.Les résultats de classiﬁcation par SVM (voir tableau 1) montrent que BERT et ELMone fournissent pas des plongements lexicaux facilement séparables. Les modèles prévus pour cloud.google.com/translate/docs/reference/rest/ eprésentations lexicales pour la détection d’événements dans un ﬂux de tweetsêtre utilisés comme plongements lexicaux (Word2Vec,

Universal Sentence Encoder , SBERT)obtiennent de meilleurs résultats. Sur le corpus français, les résultats de ces modèles sont simi-laires à ceux des vecteurs tf-idf. Sur le corpus anglais, les vecteurs tf-idf demeurent les mieuxadaptés, avec les vecteurs w2v-news pondérés par les poids tf-idf.Les vecteurs tﬁdf-all-tweets donnent également les meilleurs résultats pour la tâche declustering (tableau 2), et ce de façon encore plus nette que pour la classiﬁcation. Cela s’ex-plique par la forme des vecteurs tf-idf, particulièrement adaptés aux calculs de similarité co-sinus, ainsi que par les caractéristiques propres aux événements dans les deux jeux de don-nées : les mêmes termes sont manifestement largement employés parmi les tweets d’un mêmeévénement. Concernant les modèles neuronaux adaptés aux plongements lexicaux de phrases(SBERT,

Universal Sentence Encoder ), ils ne font pas mieux que les modèles w2v-news pon-dérés par tf-idf. Sur le corpus anglais, on note que le ﬁne-tuning de

Sentence-BERT sur descorpus de similarité sémantique (sbert-nli-sts) permet de meilleurs résultats que les vecteursgénériques de

Universal Sentence Encoder . Notre propre ﬁne-tuning de

Sentence-BERT (sbert-tweets-sts-short et sbert-tweets-sts-long) ne permet pas de surpasser

Universal Sentence Enco-der sur le corpus français. On note cependant que le corpus de similarité thématique (qui necontient que 500 paires de phrases) permet d’augmenter de 2 points la performance du clus-tering. Toutefois, ne disposant pas d’un corpus de taille similaire à SNLI, notre ﬁne-tuning neparvient pas à d’aussi bons résultats que le modèle anglais.Anglais FrançaisModèle t F1 t F1 bert 0.04 39.22 0.04 44.79bert-tweets - - 0.02 50.02elmo 0.08 22.48 0.2 46.08sbert-nli-sts 0.39 58.24 - -sbert-tweets-sts-long - - 0.36 67.89sbert-tweets-sts-short - - 0.38 65.71tﬁdf-all-tweets 0.75 tﬁdf-dataset 0.65 68.07 0.7 74.39use 0.22 55.71 0.46 74.57w2v-news 0.3 53.99 0.25 66.34w2v-news tﬁdf-weights 0.31 61.81 0.3 75.55w2v-twitter 0.16 43.2 0.15 57.53w2v-twitter tﬁdf-weights 0.2 53.45 0.25 71.73T AB . 2: Résultats du clustering de tweets par l’algorithme FSD. La performance est calculéeen utilisant le score “F1 du meilleur appariement" et afﬁchée en pourcentages. Pour chaquemodèle, on a sélectionné la meilleure valeur de seuil t par tests successifs.. Mazoyer et al. Dans cet article, nous cherchons à sélectionner le meilleur type de plongement lexicalpour une tâche de détection non-supervisée d’événements dans un ﬂux de tweets, que nousmodélisons par un clustering dynamique. Nous montrons, sur un corpus en anglais et un corpusen français, qu’une représentation des tweets par tf-idf permet d’obtenir les meilleurs résultatspar rapport à Word2Vec, BERT, ELMo,

Universal Sentence Encoder ou Sentence-BERT . Nousmontrons également qu’un ﬁne-tuning sur un corpus de quelques centaines de paires de phrasesannotées selon leur similarité thématique améliore de deux points les résultats de

Sentence-BERT , sans permettre néanmoins d’égaler les modèles entraînés sur des centaines de milliersd’examples.

Références

Allan, J., V. Lavrenko, D. Malin, et R. Swan (2000). Detections, bounds, and timelines: Umassand tdt-3. In

Proc. of Topic Detection and Tracking workshop , pp. 167–174.Becker, H., M. Naaman, et L. Gravano (2011). Beyond trending topics: Real-world eventidentiﬁcation on twitter. In

Fifth international AAAI conference on weblogs and socialmedia .Cer, D., Y. Yang, S.-y. Kong, N. Hua, N. Limtiaco, R. S. John, N. Constant, M. Guajardo-Cespedes, S. Yuan, C. Tar, et al. (2018). Universal sentence encoder. arXiv preprintarXiv:1803.11175 .Che, W., Y. Liu, Y. Wang, B. Zheng, et T. Liu (2018). Towards better UD parsing: Deepcontextualized word embeddings, ensemble, and treebank concatenation. In

Proc. of theCoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies ,pp. 55–64.Conneau, A., D. Kiela, H. Schwenk, L. Barrault, et A. Bordes (2017). Supervised learningof universal sentence representations from natural language inference data. arXiv preprintarXiv:1705.02364 .Devlin, J., M.-W. Chang, K. Lee, et K. Toutanova (2018). Bert: Pre-training of deep bidirec-tional transformers for language understanding. arXiv preprint arXiv:1810.04805 .Fleuret, F. et H. Sahbi (2003). Scale-invariance of support vector machines based on thetriangular kernel. In , pp. 1–13.Godin, F., B. Vandersmissen, W. De Neve, et R. Van de Walle (2015). Multimedia lab @ acl wnut ner shared task: Named entity recognition for twitter microposts using distributedword representations. In Proc. of Workshop on Noisy User-generated Text , pp. 146–153.Harris, Z. S. (1954). Distributional structure.

Word 10 (2-3), 146–162.Hasan, M., M. A. Orgun, et R. Schwitter (2016). TwitterNews: Real time event detection fromthe Twitter data stream.

PeerJ PrePrints .Johnson, J., M. Douze, et H. Jégou (2019). Billion-scale similarity search with gpus.

IEEETransactions on Big Data .eprésentations lexicales pour la détection d’événements dans un ﬂux de tweetsKiros, R., Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, et S. Fidler (2015).Skip-thought vectors. In

Advances in neural information processing systems , pp. 3294–3302.McMinn, A. J., Y. Moshfeghi, et J. M. Jose (2013). Building a large-scale corpus for evaluatingevent detection on twitter. In

Proc. of ACM-CIKM , pp. 409–418. ACM.Mikolov, T., K. Chen, G. Corrado, et J. Dean (2013). Efﬁcient estimation of word representa-tions in vector space. arXiv preprint arXiv:1301.3781 .Pennington, J., R. Socher, et C. Manning (2014). Glove: Global vectors for word representa-tion. In

Proc. of EMNLP , pp. 1532–1543.Peters, M. E., M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, et L. Zettlemoyer (2018).Deep contextualized word representations. arXiv preprint arXiv:1802.05365 .Petrovi´c, S., M. Osborne, et V. Lavrenko (2010). Streaming ﬁrst story detection with applica-tion to Twitter. In

Proc. of NAACL , pp. 181–189.Randolph, J. J. (2005). Free-marginal multirater kappa: An alternative to ﬂeiss’ ﬁxed-marginalmultirater kappa.

Online submission .Reimers, N. et I. Gurevych (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint arXiv:1908.10084 .Repp, Ø. et H. Ramampiaro (2018). Extracting news events from microblogs.

Journal ofStatistics and Management Systems 21 (4), 695–723.Sankaranarayanan, J., H. Samet, B. E. Teitler, M. D. Lieberman, et J. Sperling (2009). Twit-terstand: news in tweets. In

Proc. of ACM-GIS , pp. 42–51.Sparck Jones, K. (1972). A statistical interpretation of term speciﬁcity and its application inretrieval.

Journal of Documentation 28 (1), 11–21.Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, et I. Polo-sukhin (2017). Attention is all you need. In

Advances in neural information processingsystems , pp. 5998–6008.Wang, A., A. Singh, J. Michael, F. Hill, O. Levy, et S. R. Bowman (2018). Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprintarXiv:1804.07461 .Yang, Y., T. Pierce, et J. G. Carbonell (1998). A study of retrospective and on-line eventdetection. In

Proc. of ACM-SIGIR , pp. 28–36.