Ressources textuelles incrémentales pour la modélisation des interactions linguistiques multiples - Université Denis Diderot - Paris VII Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Ressources textuelles incrémentales pour la modélisation des interactions linguistiques multiples

Résumé

Pour préciser d'avantage les apports croisés entre qualitatif et quantitatif, nous menons une réflexion sur la modélisation systémique de la structure du matériau textuel informatisé. Cette réflexion s'appuie sur les résultats de développement d'un modèle de données concret qui s'inspire des avancées récentes de l'analyse de données textuelles. Pour analyser un corpus de textes électronique, on construit un système de décompte d’unités résultant du processus de segmentation automatique. Le flux textuel se présente alors sous forme d’une succession d’items numérotés qui fournissent un système de coordonnées sur le texte : la Trame. Les empans textuels (parties) sont indexés sur la Trame comme suites d’items consécutifs, entre la position x1 et la position x2. Les systèmes d'empans sont regroupés dans une structure de données appelée Cadre. Une ressource textuelle constituée sous la forme Trame/Cadre est utilisée pour un repérage des objets type Sélections qui peuvent être soumis à l'analyse quantitative. Les Sélections de contenus sont des items correspondant aux occurrences d’un type (forme, lemme, patron morphosyntaxique, expression régulière croisant plusieurs annotations). Les Sélections de contenants sont constitués d’items connexes (zones, parties, sections, paragraphes). Indexées sur une Trame commune, les Sélections sont analysées au sein des tableaux croisant les décomptes de chacun des types (contenus) dans chacune des parties (contenants). Elles sont transmises entre procédures de traitement. Notons que ce modèle de données permet de stocker non seulement les découpages du texte mais aussi les annotations produites par les différentes procédures informatiques et, éventuellement, les passer d'une procédure de traitement à l'autre. Par conséquent, l'annotation s'intègre dans le processus dynamique d'exploration : elle est créée, prise en compte ou corrigée dans le Cadre défini à partir d'une Trame unique (Fleury, Zimina, 2014).
Fichier principal
Vignette du fichier
TRELA MZ SF.pdf (104.34 Ko) Télécharger le fichier
TRELA_SF_MZ_PPT.pdf (993.58 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01224015 , version 1 (03-04-2023)

Identifiants

  • HAL Id : hal-01224015 , version 1

Citer

Maria Zimina, Serge Fleury. Ressources textuelles incrémentales pour la modélisation des interactions linguistiques multiples. Terrains de Recherche en Linguistique Appliquée (TRELA 2015), Université Paris-Diderot, Jul 2015, Paris, France. ⟨hal-01224015⟩
74 Consultations
10 Téléchargements

Partager

Gmail Facebook X LinkedIn More