La fouille de textes par l'exemple à travers l'exploitation des corpus istex
COMPÉTENCES VISÉES
Le TDM est aujourd'hui un enjeu majeur pour la recherche et pour la documentation, objet de débats politiques dans le cadre de la loi numérique, ayant abouti la création d’un droit à la fouille de données (article 38 de la loi sur une république Numérique). Ce stage vise à illustrer en pratique ce qu'est le TDM sur un corpus de textes. Les notions de base seront abordées et illustrées par des projets de recherche en cours sur le corpus ISTEX et par d'autres recherches mobilisant les mêmes concepts, plusieurs outils seront présentés.
Le stage vise à donner aux bibliothécaires et documentalistes une approche concrète de cette pratique de recherche, sachant qu'ils seront dans un avenir proche amenés à accompagner les chercheurs dans ce nouveau champ d'activité dont ISTEX sera certainement l'infrastructure incontournable.
CONTENU DE LA FORMATION
Jour 1
Présentation des enjeux et des apports potentiels d’ISTEX :
1 - les enjeux de la fouille de textes scientifiques ;
2 - le projet ISTEX et ses ressources.
Construire un corpus exploitable : exemple du pré-traitement des collections ISTEX :
1 - enrichissement des métadonnées et indexation des données d’ISTEX
2 - extraction d’un sous corpus d’ISTEX.
Un exemple d’enrichissement des données : les cascades de graphes CasSys pour l'enrichissement de textes scientifiques pour :
1 - principe général ;
2 - application à la détection d’entités nommées ;
3 - autres champs d’application de tels cascades : l’exemple du projet Biosystémique.
Jour 2
Enrichissement du corpus par annotation automatique grâce à l’utilisation d’outils libres : l’exemple de GROBID
1 - les modèles d'apprentissage non supervisés ;
2 - du PDF au XML ;
3 - reconnaissance automatique et balisage des références ;
4 - recherche et balisage d'entités nommées et de mesure physique ;
5 - exemples d’applications.
Gargantext : une plateforme web de text mining.
Les analyses diachroniques d'évolution de concepts et leurs visualisations.
PRÉ-REQUIS RECOMMANDÉS
Maîtrise de la documentation électronique et connaissance des finalités du projet ISTEX (www.istex.fr)
Infos pratiques
Contact
Lieu à définir
75000 Paris