Titre : Contributions sur la structure morphosyntaxique des graphies terminologiques et sur l’hybridation entre terminologie et modèles de thèmes
Début de thèse : —
Fin de thèse : 2020
Résumé :
Nous présentons ici diverses expériences et hypothèses en lien avec l’extraction terminographique automatique et de potentielles hybridations avec des modèles de thèmes. Dans le domaine du tal, la construction automatique de terminologies n’est que peu consensuelle. Les différents objectifs des chercheurs font poindre des divergences d’opinion quant à ce qui constitue ou non une unité terminologique. Les divergences se situent à différents niveaux de la tâche. Sur le plan linguistique, les chercheurs sont parvenus à un accord relatif quant à la structure morphosyntaxique des graphies terminologiques. De nouvelles propositions apparaissent régulièrement mais qui complètent le consensus plus qu’elles ne l’invalident. Si la structure des graphies fait consensus, il n’en est pas de même pour leur caractérisation en tant qu’unité terminologique. L’aspect terminologique d’une unité est déterminé à partir de différents facteurs internes ainsi qu’externes. Dans un premier temps nos expériences portent sur le contexte d’apparition des unités terminologiques à partir de modèles de thèmes. Nous verrons si et comment les unités terminologiques peuvent bénéficier à la construction de modèles de thèmes. Ce bénéfice sera estimé à l’aune de la pertinence des modèles construits et de mesures statistiques. Dans un second temps, nous proposerons une extension de la structure morphosyntaxique des graphies terminologiques.
Mots clés : Terminologie, Modèles de thèmes, Lexique, Morphosyntaxe, Hybridation, Évaluation
Date de soutenance prévue : 08/10/2020
Encadrement :
- Directeur de thèse : Michel Beigbeder, École des Mines de Saint-Étienne
Partenaires ou/et Financeurs :
Télécharger la thèse :
Objectifs de développement durable concernés :
Publications
- Nous présentons ici diverses expériences et hypothèses en lien avec l’extraction terminographique automatique et de potentielles hybridations avec des modèles de thèmes. Dans le domaine du tal, la construction automatique de terminologies n’est que peu consensuelle. Les différents objectifs des chercheurs font poindre des divergences d’opinion quant à ce qui constitue ou non une unité […]
- Nous présentons ici diverses expériences et hypothèses en lien avec l’extraction terminographique automatique et de potentielles hybridations avec des modèles de thèmes. Dans le domaine du tal, la construction automatique de terminologies n’est que peu consensuelle. Les différents objectifs des chercheurs font poindre des divergences d’opinion quant à ce qui constitue ou non une unité […]
- […]
- The LDA topic model describes a corpus on the basis of its vocabulary. Our experiment aims at determining whether LDA outputs' quality can be estimated through text similarity metrics, and if so determining the most relevant one. To do so, we use a categorized corpus on which we apply these metrics on every pair of […]
- Le but de cet article est d'étudier l'apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l'hypothèse qu'ajouter des syntagmes à la représentation des documents– pour lesquels ne sont traditionnellement considérés que les mots simples– permettrait d'améliorer la qualité d'un modèle de thèmes, en l'occurrence LDA. […]
- In this piece of industrial application, we focus on the identification of omission in statement pairs for an online news platform. We compare three annotation schemes, namely two crowdsourcing schemes and an expert annotation. The simplest of the two crowdsourcing approaches yields a better annotation quality than the more complex one. We use a dedicated […]