Limburgs Corpus
zelfstandig naamwoord (het) /ˈlɪmˌbʏrxs ˈkɔrpʏs/
een verzameling van geschreven Limburgse teksten opgeslagen in een computer en gebruikt voor taalonderzoek en het maken van woordenboeken
We kunnen het niet zonder U!
Voor het Limburgs Corpus zoeken wij teksten in alle Limburgse dialecten, al dan niet uitgegeven. Wij verzamelen alle geschriften in het Limburgs, zoals: verhaaltjes, (Sinterklaas) gedichten, krantenknipsels, carnavalsschrijfsels, columns, brieven, dagboeken, onderwijsmateriaal, speeches, boodschappenlijstjes, scripts van blijspelen of musicals, en nog veel meer. Ook digitale teksten zoals van de Limbörgse Wikipedia, WhatsApp-gesprekken, tweets, enzovoorts.
Partners in Limburg leveren teksten voor het Limburg Corpus, bijvoorbeeld de Stichting Boeken voor Mensen. Veel schrijvers hebben al teksten toegezonden. Wij vragen auteurs schriftelijke toestemming om teksten voor ons niet-commercieel project te gebruiken. De auteursrechten blijven bij de schrijvers. Uitgevers zoals Veldeke Limburg, verschillende Veldeke Kringen en het Hoes veur de Kunste Limburg, hebben ook al toestemming gegeven.
Voor het Limburgs Corpus verzamelen we teksten vanaf 1775 tot heden. Meer informatie wordt gegeven in een interview bij L1 TV (Limburgstalig) en met een artikel in krant De Limburger (Nederlandstalig).
Toegankelijkheid Limburgs Corpus voor onderzoek
Ons Limburgs Corpus is in beginsel toegankelijk voor taalonderzoekers. Vanwege auteursrechtelijk beschermd materiaal en enkele persoonsgegevens worden er toegangsvoorwaarden in een contract afgesproken. Materialen mogen onder meer niet publiek gemaakt of verspreid worden. Neem contact op om onderzoek te doen met ons Limburgs Corpus.
NLP bewerking Limburgs Corpus
De teksten worden verder verwerkt voor de Digitale Bibliotheek van ’t Limburgs en onderzocht op taalgebruik voor het Limburgs Woordenboek. In de Limbörgse Academie ontwikkelen wij Natural Language Processing (NLP) software om het Limburgs Corpus digitaal te bewerken. Hiervoor werken wij ook samen met andere onderzoekers. Wij zijn overigens aangesloten bij de European Lexicographic Infrastructure eLexis. Hierdoor blijven we op de hoogte van en hebben we toegang tot de nieuwste lexicografische software-ontwikkelingen.
Eerst wordt de spellingsvariatie genormaliseerd: de teksten worden in één spelling gezet om op deze manier gemakkelijk verder verwerkt te kunnen worden. Daarna volgt tokenisatie (opsplitsen van de tekst), lemmatisatie (toevoegen van de woordenboekvorm aan elk woord) en PoS-tagging (toevoegen van de grammaticale woordsoort aan elk woord). Voor lexicografische analyses gebruiken we Sketch Engine. Onze lexicografische aanpak wordt in een artikel voor eLex uiteengezet.
Digitale toepassingen voor het Limburgs
Met de NLP bewerking wordt het Limburgs Corpus verrijkt. Daardoor wordt het Limburgs geschikt gemaakt voor lexicografische doelstellingen, digitaal taalkundig onderzoek en verdere digitale toepassingen. Een digitale toepassing is het voorspellend taalmodel voor het Limburgs toetsenbord voor mobiele applicaties zoals ontwikkeld door Microsoft Swiftkey in samenwerking met de Limbörgse Academie. Met het in NLP bewerkte Limburgse Corpus leggen wij het digitale fundament waarmee andere taalproducten voor het Limburgs ontwikkeld kunnen worden zoals spellingcheckers, toepassingen voor automatische spraakherkenning, text-to-speech, speech-to-text, taalcursussen en computerondersteunde methodes om Limburgs te leren, enzovoorts. Dit biedt de mogelijkheid om de taal aan te passen aan de hedendaagse en toekomstige gebruiksvereisten om haar levend te houden en verder uit te bouwen.