Semi-automating the Reading Programme for a Historical Dictionary Project
Trefwoorden:
korpora, woordeboekwerksvloei, historiese leksikografie, taalvariëteite, leksikale databasisse, leesprogramme, Suid-Afrikaanse Engels
Samenvatting
Die semi-outomatisering van die leesprogramme van 'n historiese woordeboekprojek.Hierdie artikel beskryf die hulpbronne en sagtewareprosedures wat gebruik word of ontwikkel is in 'n belangrike bemagtigingstap na die hersiening van die vakkundige naslaanwerk A Dictionary of South African English on Historical Principles (DSAE, Silva et al. 1996), naamlik die semi-outomatiese generering van 'n leksikale databasis van digitale bronne waarop nuwe en bygewerkte woordeboekinskrywings gebaseer sal wees; asook die gelyktydige toevoeging van 'n nuwe korpus van Suid-Afrikaanse Engels (SAE) tot die projek. Gebaseer op aanlyn databronne en 'n uitgebreide lys bekende SAE woordvorme, het ons 'n sagteware nutsketting ontwerp vir die versameling, enkodering, annotering en vergelyking van teksbronne, wat gelei het tot die skep van (i) 'n 3.1-biljoen woordsoortgeannoteerde korpus van Suid-Afrikaanse Engels; (ii) 'n leksikale databasis van illustratiewe aanhalings vir ongeveer 20,000 bekende SAE-woordvorme, wat by die hersieningsfase van die inskrywings beskikbaar is vir seleksie; en (iii) 'n lys van potensieel nuwe variante spellings en moontlikhede vir trefwoordseleksie. Wat onlangse elektroniese bronne betref, vervang hierdie stappe die meganiese aspekte van die versameling van aanhalings, wat gewoonlik met die hand met behulp van 'n leesprogram wat jare se spanwerk vereis om voldoende dekking te verkry, gedoen word (cf. Hicks 2010).
Gepubliceerd
2018-12-17
Citeerhulp
van Niekerk, T., Schäfer, J., & Heid, U. (2018). Semi-automating the Reading Programme for a Historical Dictionary Project. Lexikos, 28(1). https://doi.org/10.5788/28-1-1468
Nummer
Sectie
Artikels/Articles
Outeursreg op alle materiaal wat in Lexikos gepubliseer is, berus by die Direksie van die Woordeboek van die Afrikaanse Taal. Dit staan skrywers egter vry om hulle materiaal elders te gebruik mits Lexikos (AFRILEX-reeks) erken word as die oorspronklike publikasiebron.