Skip to Main content Skip to Navigation
Theses

Discontinuous Constituency Parsing of Morphologically Rich Languages

Résumé : L'analyse syntaxique consiste à prédire la représentation syntaxique de phrases en langue naturelle sous la forme d'arbres syntaxiques. Cette tâche pose des problèmes particuliers pour les langues non-configurationnelles ou qui ont une morphologie flexionnelle plus riche que celle de l'anglais. En particulier, ces langues manifestent une dispersion lexicale problématique, des variations d'ordre des mots plus fréquentes et nécessitent de prendre en compte la structure interne des mots-formes pour permettre une analyse syntaxique de qualité satisfaisante. Dans cette thèse, nous nous plaçons dans le cadre de l'analyse syntaxique robuste en constituants par transitions. Dans un premier temps, nous étudions comment intégrer l'analyse morphologique à l'analyse syntaxique, à l'aide d'une architecture de réseaux de neurones basée sur l'apprentissage multi-tâches. Dans un secon temps, nous proposons un système de transitions qui permet de prédire des structures générées par des grammmaires légèrement sensibles au contexte telles que les LCFRS. Enfin, nous étudions la question de la lexicalisation de l'analyse syntaxique. Les analyseurs syntaxiques en constituants lexicalisés font l'hypothèse que les constituants s'organisent autour d'une tête lexicale et que la modélisation des relations bilexicales est cruciale pour désambiguïser. Nous proposons un système de transition non lexicalisé pour l'analyse en constituants discontinus et un modèle de scorage basé sur les frontières de constituants et montrons que ce système, plus simple que des systèmes lexicalisés, obtient de meilleurs résultats que ces derniers.
Complete list of metadatas

Cited literature [202 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/tel-02302563
Contributor : Maximin Coavoux <>
Submitted on : Tuesday, October 1, 2019 - 4:30:07 PM
Last modification on : Friday, June 12, 2020 - 9:36:03 AM

File

these_HAL.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02302563, version 1

Citation

Maximin Coavoux. Discontinuous Constituency Parsing of Morphologically Rich Languages. Computation and Language [cs.CL]. Université Sorbonne Paris Cité, 2017. English. ⟨tel-02302563⟩

Share

Metrics

Record views

121

Files downloads

167