Annotation automatique d'un corpus d'apprenants d'anglais avec un jeu d'étiquettes modifié du Penn Treebank

Résumé : Cet article aborde la problématique de l'annotation automatique d'un corpus d'apprenants d'anglais. L'objectif est de montrer qu'il est possible d'utiliser un étiqueteur PoS pour annoter un corpus d'apprenants afin d'analyser les erreurs faites par les apprenants. Cependant, pour permettre une analyse suffisamment fine, des étiquettes fonctionnelles spécifiques aux phénomènes linguistiques à étudier sont insérées parmi celles de l'étiqueteur. Celuici est entraîné avec ce jeu d'étiquettes étendu sur un corpus de natifs avant d'être appliqué sur le corpus d'apprenants. Dans cette expérience, on s'intéresse aux usages erronés de this et that par les apprenants. On montre comment l'ajout d'une couche fonctionnelle sous forme de nouvelles étiquettes pour ces deux formes, permet de discriminer des usages variables chez les natifs et nonnatifs et, partant, d'identifier des schémas incorrects d'utilisation. Les étiquettes fonctionnelles éclairent sur le fonctionnement discursif.
Document type :
Conference papers
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal-univ-diderot.archives-ouvertes.fr/hal-00997255
Contributor : Thomas Gaillat <>
Submitted on : Tuesday, May 27, 2014 - 5:09:24 PM
Last modification on : Friday, January 4, 2019 - 5:33:30 PM
Long-term archiving on : Wednesday, August 27, 2014 - 12:06:11 PM

File

taln-2013-long-020.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-00997255, version 1

Collections

Citation

Thomas Gaillat. Annotation automatique d'un corpus d'apprenants d'anglais avec un jeu d'étiquettes modifié du Penn Treebank. TALN-RECITAL 2013, Jun 2013, France. pp.271-284. ⟨hal-00997255⟩

Share

Metrics

Record views

91

Files downloads

231