Thèmes abordés |
Le cours est une introduction aux principes qui sous-tendent la linguistique de corpus et aux méthodes et techniques utilisées pour analyser de vastes corpus de textes électroniques écrits ou oraux.
Il comprend les cinq sections suivantes :
- constitution des corpus : collecte des données, archivage et balisage.
- typologie des corpus : écrits et oraux ; monolingues et multilingues ; corpus natifs et corpus d'apprenants ; diachroniques et synchroniques.
- corpus principaux : British National Corpus, International Corpus of English, International Corpus of Learner English, MICASE, Louvain International Database of Spoken English Interlanguage, etc.
- annotation de corpus: étiquetage grammatical, lemmatisation, étiquetage syntaxique, sémantique et prosodique, étiquetage des erreurs.
- analyse automatisée des aspects lexicaux, grammaticaux et discursifs.
On s'attachera plus particulièrement aux liens qui unissent la linguistique de corpus et l'apprentissage des langues étrangères, la linguistique contrastive et la traductologie et le traitement automatique des langues (TAL).
|
Bibliographie |
Support : cours en ligne McEnery, T., Xiao, R. & Tono, Y. 2006. Corpus-based Language Studies. An advanced resource book. Routledge.
Granger, S., J. Hung & S. Petch-Tyson (eds) (2002) Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Language Learning and Language Teaching 6. Benjamins: Amsterdam & Philadelphia. Kennedy, G. (1998) An Introduction to Corpus Linguistics. Longman: Harlow. Scott, M. (1996). WordSmith Tools. Oxford University Press: Oxford.
|