OpenSoNaR / Whitelab

Doorzoek en verken een corpus van 500M woorden

Een van de grootste uitdagingen voor taalonderzoekers is het gebrek aan toegang tot gegevens van hoge kwaliteit. In een poging om dit probleem voor de Nederlandse taalgemeenschap op te lossen, werd het SoNaR-corpus geconstrueerd. SoNaR bevat meer dan 500 miljoen woorden moderne Nederlandse teksten van verschillende genres en bronnen. Alle teksten zijn verrijkt met taalkundige informatie, waaronder lemma’s, woordsoorten en eigennamen.

Daarnaast ontving het OpenSoNaR-project financiering om SoNaR verder beschikbaar te maken aan zijn beoogde publiek. Hiertoe hebben we de online zoek- en exploratie-interface Whitelab ontwikkeld. Whitelab bevat vier verschillende zoekschermen die zijn ontworpen om te voldoen aan de behoeften van zowel beginnende gebruikers als degenen die meer vertrouwd zijn met linguïstische data.

De verkenningsinterface onthult corpusstatistieken, inclusief frequentielijsten, n-grammen en vocabulaire groei. Beide interfaces bevatten uitgebreide filters op de corpus-metadata. Hiermee kunnen onderzoekers inzoomen op alleen de gegevens die relevant zijn voor hun onderzoek.

Homepagehttps://portal.clarin.nl/node/4195
Start2013
Eind2014