Vom manuellen Überprüfen von POS-Tagging

Wie untersucht man eigentlich gesprochene Daten?

Im Studium beschäftige ich mich viel mit gesprochener Sprache und Korpuslinguistik. In einem computerlinguistischen Seminar hat sich meine Gruppe mit dem POS-Tagging gesprochener Sprache beschäftigt. Wir haben bereits ein Korpus, welches am Institut entstanden ist. Dieses besitzt auch bereits ein POS-Tagging (mit Hilfe des TreeTaggers). Allerdings wurde eben jener TreeTagger auf eine normalisierte Ebene ausgeführt, in welcher viele Phänomene, die typisch für gesprochene Sprache sind, bereits rausgefallen sind. Wenn man nun also mit Hilfe der POS-Ebene nach Phänomenen sucht, kommt man nicht auf die wirklich gesprochene Sprache. Dies kann so nicht bleiben, haben wir uns gedacht.

Im Korpus gibt es auch eine diplomatische Ebene, mit dem wirklich gesprochenen Text, keine Anpassungen an den Duden oder irgendwas. Eigentlich dachten wir uns, den TreeTagger so zu trainieren, dass er diese Ebene möglichst genau taggen kann. Dafür wollten wir das STTS erweitern – angelehnt am KiDKo aus Potsdam – damit alles wirklich ziemlich genau ist. Also haben wir annotiert und annotiert – und sind auf reichlich Probleme gestoßen… Um uns schließlich zu fragen: Was ist eigentlich eine POS-Ebene? Wie sollte sie annotiert sein? Soll sie schon jegliche semantische Überlegung beinhalten? Oder ist sie nicht doch einfach nur ein Wortarten-Tagging, unabhängig von der Semantik, nur auf der Grammatik beruhend?

Wir haben den TreeTagger nun nicht neu trainiert. Dafür sind zu viele Fragen offen geblieben und wir zu wenig Leute mit zu wenig Zeit, um das gesamte, nicht so umfassende Korpus zu taggen bzw. ebenso ein weiteres Korpus nach unserem „neuen“ Tag-Set (welches ebenso noch nicht besteht) zu taggen. Allerdings haben wir uns angeschaut bzw. sind gerade dabei, wie genau denn der TreeTagger taggt. Sowohl auf der normalisierten als auch auf der diplomatischen Ebene. Und Überraschung, auch wenn er in den einzelnen Gesprächen, die ich bisher ausgewertet habe, etwas variiert, er ist gar nicht so schlecht. Der Unterschied in der Genauigkeit der beiden Ebenen liegt übrigens bei etwa 20%, fyi 😉


Have your say