Limbörgs Corpus
zelfstandeg naomwoord (oonzijdeg) /ˈlɪmbœʀəxs ˈkɔː2ʀəpəs/
’n biejeinzeumering vaan gesjreve Limbörgse tekste opgeslage op ’ne computer en gebruuk veur taoloonderzeuk en ’t make vaan dictionairs
Veer kinne ’t neet zoonder uuch!
Steun us door eur eige tekste in ’t Limbörgs te sjikke! Wie mie tekste veer mage gebruke, wie beter eus gratis digitaol taolprodukte goon aonslete bij alle dialekte.
Veur ’t Limbörgs Corpus zeuke veer tekste in alle Limbörgse dialekte, oetgegeve of neet. Veer verzamele alle sjrieves in ’t Limbörgs, zoe wie: verhäölselkes, (Sinterklaos-)gediechte, stökskes oet de gezèt, vastelaovendsjrieves, columns, breve, daagbeuk, oonderwiesmatriaole, speeches, kemissiebreefkes (boodsjappebreefkes), scrips vaan kemediestökke of musicals, en väöl mie. Ouch digitaol tekste, wie vaan de Limbörgse Wikipedia, WhatsApp-gesprekke, Tweets, enzoewijer.
Partners in Limbörg drage tekste bij aon ’t Limbörgs Corpus, wie de Stichting Boeken voor Mensen. Väöl sjrievers höbbe tekste touwgesjik. Veer vraoge auteurs sjriftelek touwstumming um tekste veur eus neet-commercieel projek te gebruke. De auteursrechte blieve bij de sjrievers zelf. Oetgevers, wie Veldeke Limburg, versjeie Veldeke Kring en ’t Hoes veur de Kunste Limburg, höbbe ouch al permissie gegeve.
Veur ’t Limbörgs Corpus verzamele veer tekste vaan 1775 tot noe. Veur mie informatie gief ’t ’n interview bij L1 TV (Limburgstaoleg) en ’n artikel in gezèt De Limburger (Hollandstaoleg).
Touwgaankelekheid Limbörgs Corpus veur oonderzeuk
Eus Limbörgs Corpus is in beginsel touwgaankelek veur taoloonderzeukers. Vaanwege auteursrechtelek besjermp matriaol en get persoensgegeves weure in e kontrak condities veur touwgaank aofgesproke. Matriaole mage oonder aandere neet publiek gemaak of verspreid weure. Nump kontak mèt us op veur oonderzeuk te doen mèt eus Limbörgs Corpus.
NLP bewèrking Limbörgs Corpus
Wijer weure de tekste verwèrk veur de Digitaol Bibliotheek vaan ’t Limburgs en oonderzeuk op taolgebruuk veur de Limbörgsen Dictionair. Binne de Limbörgse Academie oontwikkele veer Natural Language Processing (NLP) software um ’t Limbörgs Corpus digitaol te bewèrke. Heiveur wèrke veer ouch same mèt aander oonderzeukers. Veer zien wijer aongeslote bij de European Lexicographic Infrastructure eLexis. Heidoor blieve veer op de huugde vaan en höbbe touwgaank tot de nuiste lexicografische software-oontwikkelinge.
Es ierste weurt de spellingsvariatie genormaliseerd: de tekste weure in ein inkel spelling gezat um zoe gemekeleker wijer verwèrk te kinne weure. Denao volg tokenisatie (opsplitse vaan d’n teks), lemmatisatie (touwvoge vaan d’n dictionairvörm bij eder woord) en PoS-tagging (touwvoge vaan de grammaticaol woordsoort bij eder woord). Veur lexicografische analyses gebruke veer Sketch Engine. Euze lexicografischen aonpak weurt in ’n artikel veur eLex oetereingelag.
Digitaol touwpassinge veur ’t Limbörgs
Mèt NLP bewèrking weurt ’t Limbörgs Corpus verriek. Daodoor weurt ’t Limbörgs gesjik gemaak veur lexicografische doelindes, digitaol taolkundeg oonderzeuk en wijer digitaol touwpassinge. Ein digitaol touwpassing is ’t veurspellend taolmodel veur ’t Limbörgs toetsebord veur mobiel applicaties oontwikkeld door Microsoft Swiftkey in samewèrking mèt de Limbörgse Academie. Mèt ’t NLP bewèrk Limbörgs Corpus lègke veer ’t digitaol fundamint boemèt wijer taolprodukte veur ’t Limbörgs oontwikkeld kinne weure, zoe wie spellingcheckers, touwpassinge veur otomatische spraokherkenning, text-to-speech, speech-to-text, taolcursusse en computerondersteunde methodes veur Limbörgs te liere, enzoewijer. Dit gief de meugelekheid de taol aon te passe aon de gebruuksvereiste vaan allewijl en de touwkoms um ze leveteg te hawwe en wijer oet te bouwe.