Extracting collocations in context: the case of verb-noun constructions in Romanian - Université Denis Diderot - Paris VII Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Extracting collocations in context: the case of verb-noun constructions in Romanian

Résumé

Verb-Noun (VN) constructions involve a ‘generic’ V plus a ‘specific’ N which is either (i) a structural qualifierof the Predicator as in make haste, or (ii) a syntactic Complement as in to make a suggestion. In each case the Nexpresses the semantic Range of the VN construction (Banks 2000, Gledhill 2007). However, despite muchresearch on ‘support verb’ or ‘light verb’ constructions, there is no one morpho-syntactic feature which allows usto distinguish these constructions from any other sequence of V plus N, at least in English. From the point of view of corpus linguistics, this lack of formal marking makes it hard to extract them on a semi-automatic basis.As part of an on-going lexicographic project, we have examined various computational models in order toextract VN constructions from multilingual corpora. One of our main findings is that statistical methods aloneare not sufficient; the collocations that are thrown up in the data extend from a few ‘relevant’ VN constructions,to rather too many ‘semi-relevant’ VN co-occurrences and ‘irrelevant’ noise.
Les constructions Verbo-Nominales (VN) sont composées d’un V générique et d’un N spécifique, lequel est soit (i) qualifieur structurel du Prédicateur comme faire faillite, soit (ii) Complément syntaxique comme faire des recommandations. Dans chaque cas, le N exprime la Portée sémantique de la construction (Banks 2000, Gledhill2007). Mais malgré quantité d’études sur les ‘verbes supports’ ou ‘verbes légers’, aucune propriété morpho-syntaxique ne permet de distinguer ces constructions des autres séquences V plus N, au moins en anglais. Du point de vue de l’analyste de corpus, ce manque de marque formelle rend difficile la conception d’un outild’extraction automatique. Dans le cadre d’un projet lexicographique, nous avons étudié plusieurs modèlesdestinés à extraire des VN des corpus multilingues. Nos résultats préliminaires indiquent que des méthodes purement statistiques ne sont pas suffisantes : les données révèlent parfois de ‘véritables’ constructions VN,mais aussi pour la plupart des exemples ‘non-pertinents’ de cooccurrences VN, ou tout simplement du bruit.

Domaines

Linguistique
Fichier principal
Vignette du fichier
Gledhill, Todirascu & Stefanescu 2007 Extracting collocations in context the case of Romanian VN constructions RANLP.pdf (204.01 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01220405 , version 1 (29-06-2021)

Identifiants

  • HAL Id : hal-01220405 , version 1

Citer

Amalia Todirascu, Christopher Gledhill, Dan Stefânescu. Extracting collocations in context: the case of verb-noun constructions in Romanian. RANLP, Sep 2007, Borovets, Bulgaria. ⟨hal-01220405⟩
52 Consultations
74 Téléchargements

Partager

Gmail Facebook X LinkedIn More