Titre : Soutenabilité et explicabilité par l’apprentissage sur de grands graphes de connaissances
Début de thèse : 01/10/2024
Fin de thèse : 30/09/2027
Résumé : La thèse vise à trouver des alternatives aux grands modèles de langages (LLM), caractérisés par un grand nombre de paramètres et/ou un grand nombre de symboles dans leur corpus d’apprentissage. L’utilisation des LLM est synonyme d’une dépense énergétique considérable, dans leur phase d’apprentissage comme dans leur phase d’utilisation (inférence), et d’un manque de transparence sur le texte produit. L’objectif de la thèse sera de montrer que les graphes de connaissances tels que Dbpedia, BabelNet ou ConceptNet peuvent être une solution à ces deux problèmes. Ils sont déjà largement utilisés pour des tâches de question-réponse, malgré une incomplétude notoire sur la modélisation physique (le raisonnement spatio-temporel, entre autres). L’incomplétude d’un grand graphe de connaissances peut être compensée par l’apprentissage de représentations vectorielles des principaux concepts du graphe (son ontologie fondationnelle), dont les propriétés géométriques restent interprétables sémantiquement.
L’objectif du doctorat sera de développer une méthode pour l’apprentissage à moindre coût d’une représentation vectorielle de concepts et de produire un modèle de langage pré-entraîné à partir de DBpedia (ou graphe de connaissances similaire). Le modèle pré-entraîné pourra être utilisé pour du raisonnement spatio-temporel dans une application liée aux systèmes cyber-physiques.
Mots clés : Graphes de connaissances, Sountenabilité, Explicabilité, Intégration neuro-symbolique
Date de soutenance prévue : —
Encadrement :
- Directeur de thèse : Antoine Zimmermann, Mines Saint-Étienne
Partenaires ou/et Financeurs : —
Objectifs de développement durable concernés :