DAGOBAH : Des outils pour l'interprétation automatique de données tabulaires

Présenté par : Yoan Chabot  Pierre Monnin  Thomas Labbé  

La valorisation des données tabulaires est un enjeu stratégique pour les organisations car leurs connaissances sont en grande partie intégrées dans ces structures (csv, excel, ods, gsheet). L'entreprise Orange ne fait pas exception à cet état de fait. Avec plus de 140 000 employés à travers le monde et un portfolio de clients et de domaines variés, Orange produit quotidiennement une quantité phénoménale de données tabulaires hétérogènes. Ces tables servent à la fois de vecteur et de support de stockage des connaissances. Elles sont profondément intégrées au sein de nombreux services administratifs (RH, finances, etc.), techniques (logs produits par les infrastructures de réseau, etc.) et commerciaux (catalogues de produits multimédias, etc.). Par conséquent, leur interprétation automatique ouvre la voie à une meilleure efficacité opérationnelle et à des services innovants tirant partie de la sémantique des données.

L'utilisation de techniques d'interprétation automatique de tables (Semantic Table Interpretation, STI) permet d'adresser efficacement ce challenge. Ces techniques ont pour objectif de rendre la sémantique des données plus explicite en établissant des correspondances entre les éléments de la tables (les colonnes et les cellules) et des entités décrites dans des graphes de connaissances (encyclopédiques comme Wikidata/DBPedia ou d'entreprise). Les annotations sémantiques produites par les techniques de STI peuvent être valorisées dans plusieurs domaines d'applications : l'enrichissement de graphes de connaissances, la correction et l'augmentation des données brutes, les moteurs de questions réponses, la recherche et la gouvernance de jeux de données ou encore plus généralement la gestion des connaissances. En particulier, nous proposons d'établir une boucle vertueuse dans laquelle le graphe de connaissances est tout d'abord utilisé pour interpréter sémantiquement les données tabulaires puis enrichi grâce aux annotations qui en résultent.

Cette présentation introduit DAGOBAH, une approche de STI développée par la recherche d'Orange en collaboration avec EURECOM. DAGOBAH permet de réaliser des tâches allant du pré-traitement des tables (extraction d'en-têtes, détection de l'orientation, etc.) jusqu'à l'identification de propriétés sémantiques entre les colonnes en passant par la désambiguïsation des mentions contenues dans les cellules et le typage des colonnes.

Pour améliorer la pertinence des outils DAGOBAH et favoriser l'adoption des technologies de STI au sein de l'entreprise, notre équipe de recherche utilise deux leviers qui seront l'objet de la deuxième partie de cette présentation :

  • La participation, depuis trois années (avec un 1er prix en 2021), au challenge SemTab (intégré à la conférence ISWC), une compétition scientifique internationale de référence pour les techniques de STI.

  • Une approche Test&Learn matérialisée par la mise à disposition au sein de l'entreprise d'une API et d'une interface graphique pour l'annotation de données tabulaires dont une démonstration sera proposée en fin d'intervention.

références: