A 38 Million Words Dutch Text Corpus and its Users

  • J.G. Kruyt Instituut voor Nederlandse Lexicologie INL, Leiden, Nederland
  • M.W.F. Dutilh Instituut voor Nederlandse Lexicologie INL, Leiden, Nederland
Trefwoorden: groot elektronisch nederlands tekstcorpus, corpussamenstelling, tekstclassificatie, onderwerpsdomein, publicatiemedium, linguistische annotatie, on-line toegang via internet, corpusgebruikers

Samenvatting

<b>Een tekstcorpus Nederlands (38 miljoen woorden) en de gebruikers ervan</b>Het gebruik van tekstcorpora is de laatste jaren aanzienlijk toegenomen, niet alleen op het gebied van de lexicografie maar ook in de computationele linguïstiek en de taaltechnologie. Ten gevolge daarvan kregen de corpusdata en de expertise opgebouwd door lexicografische instellingen een breder toepassingsdomein. Op Europees niveau leidde dit tot een herziene visie op corpussamenstelling. In overeenstemming met deze ontwikkelingen, geeft het Instituut voor Nederlandse Lexicologie (INL) sinds 1994 externe toegang via Internet tot steeds beter wordende corpora. In augustus 1996 was het <i>38 Miljoen Woorden Corpus</i> gereed voor consultatie door het internationale onderzoeksveld. Dit artikel beschrijft de karakteristieke kenmerken van dit corpus (corpussamenstelling, tekstclassificatie, linguïstische annotatie) en het gebruik in zowel woordenboekprojecten als in taalkundig onderzoek. Ondanks beperkingen ten aanzien van corpussamenstelling, is duidelijk gebleken dat de INL corpora die via Internet toegankelijk zijn, voorzien in een externe behoefte. Door deze faciliteiten aan te bieden, heeft het INL een veel bredere ervaring in corpusopbouw opgedaan dan voorheen. Deze is van essentieel belang voor nieuwe interne woordenboekprojecten. Het verlenen van externe toegang tot corpusdata die primair voor interne doeleinden ontwikkeld zijn, kan voor alle betrokken partijen profijt hebben.   
Gepubliceerd
2012-11-02
Citeerhulp
Kruyt, J., & Dutilh, M. (2012). A 38 Million Words Dutch Text Corpus and its Users. Lexikos, 7(1). https://doi.org/10.5788/7-1-982
Sectie
Projekte/Projects