Improving the Computational Morphological Analysis of a Swahili Corpus for Lexicographic Purposes

  • Guy De Pauw CNTS — Language Technology Group, University of Antwerp, Antwerp, Belgium; School of Computing and Informatics, University of Nairobi, Nairobi, Kenya; and Xhosa Department, University of the Western Cape, Bellville, Republic of South Africa
  • Gilles-Maurice de Schryver Department of African Languages and Cultures, Ghent University, Ghent, Belgium; Xhosa Department, University of the Western Cape, Bellville, Republic of South Africa; and TshwaneDJe HLT, Pretoria, Republic of South Africa

Abstract

Abstract: Computational morphological analysis is an important first step in the automatic treatment of natural language and a useful lexicographic tool. This article describes a corpus-based approach to the morphological analysis of Swahili. We particularly focus our discussion on its ability to retrieve lemmas for word forms and evaluate it as a tool for corpus-based dictionary compilation.Keywords: LEXICOGRAPHY, MORPHOLOGY, CORPUS ANNOTATION, LEMMATIZATION,MACHINE LEARNING, SWAHILI (KISWAHILI)Samenvatting: Accuratere computationele morfologische analyse van eenSwahili corpus voor lexicografische doeleinden. Computationele morfologischeanalyse is een belangrijke eerste stap in de automatische verwerking van natuurlijke taal en eennuttig lexicografisch hulpmiddel. Dit artikel beschrijft een corpusgebaseerde aanpak voor de morfologischeanalyse van het Swahili. We concentreren ons hierbij vooral op de lemmatiseringseigenschappenvan het ontwikkelde systeem en evalueren het als een hulpmiddel bij de corpusgebaseerdeontwikkeling van woordenboeken.Sleutelwoorden: LEXICOGRAFIE, MORFOLOGIE, CORPUSANNOTATIE, LEMMATISERING,AUTOMATISCHE LEERTECHNIEKEN, SWAHILI (KISWAHILI)
Zitationsvorschlag
De Pauw, G., & de Schryver, G.-M. (1). Improving the Computational Morphological Analysis of a Swahili Corpus for Lexicographic Purposes. Lexikos, 18. https://doi.org/10.5788/18-0-488
Rubrik
Lexikoprogrammatuur/Lexicosoftware