The Utilization of Parallel Corpora for the Extension of Machine Translation Lexicons

  • Jeanne Pienaar Department of Computer Science, University of Pretoria, Pretoria, South Africa
  • G.D. Oosthuizen Department of Computer Science, University of Pretoria, Pretoria, South Africa
Trefwoorden: afparing, eentalige korpusse, leksikon, masjienvertaling, parallelle korpusse, tweetalige korpusse, korpus, uitbreiding

Samenvatting

<b>Die benutting van parallelle korpusse vir die uitbreiding van masjienvertalingsleksikons</b>Onlangs was daar 'n toenemende bewustheid van die belangrikheid van groot versamelings tekste (korpusse) wat as bronne in die navorsing van masjienvertaling gebruik word. Die proses om masjienvertalingsleksikons te skep of uit te brei is tydrowend, kompleks en duur in terme van menslike betrokkenheid. Die bydrae wat korpusse kan maak tot die vermindering van koste, tyd en kompleksiteit is deur verskeie navorsingsgroepe ondersoek. Hierdie artikel beskryf die ontwikkeling van 'n stelsel wat gebruik maak van 'n afgepaarde tweetalige (Engels-Afrikaanse) korpus vir die identifisering van woordpare met die doel om 'n bestaande tweetalige leksikon uit te brei met hierdie woorde en hul vertalings wat nie in die leksikon voorkom nie of om nuwe vertalings vir bestaande inskrywings by te voeg. Die stelsel pas ook grammatikareëls toe vir die identifisering van die grammatikale kategorie van elke woordpaar. Die stelsel beperk die betrokkenheid van die menslike vertaler en het 'n positiewe impak op die vermindering van tyd, koste en moeite in die uitbreiding van 'n tweetalige leksikon.
Gepubliceerd
2012-09-20
Citeerhulp
Pienaar, J., & Oosthuizen, G. (2012). The Utilization of Parallel Corpora for the Extension of Machine Translation Lexicons. Lexikos, 7(1). https://doi.org/10.5788/7-1-975
Sectie
Navorsingsartikels / Research Articles