Blog

Zwischen Sprache und Information

Lange war es ruhig hier (und aufgrund eines Bloghacks vor etlicher Zeit ist mein letzter Beitrag über die DHd vor einigen Jahren auch verschwunden…). Inzwischen hat sich einiges getan.

Von Studium her bin ich ja Sprachwissenschaftlerin. Die letzten Jahre habe ich auch in einem sprachwissenschaftlichen Projekt gearbeitet, wenn auch auf technisch-analytischer Seite. Und meine Dissertation habe ich angefangen vor 2 Jahren. Auch hier ein Thema, was sich an den Grenzen zwischen Sprachwissenschaft und Digital Humanities bewegt. Das Dissertationsthema ist ziemlich genau auf das Projekt zugeschnitten.

Nun hat sich die Lage aber etwas verändert. Inzwischen arbeite ich in der Informationswissenschaft. Ich habe immer noch mit Daten zu tun, allerdins sind die jetzt nicht mehr sprachlicher Natur. Ich muss auch nicht mehr so richtig anderen beim Auswerten ihrer Daten unterstützen. Wobei, wenn man sich es etwas zurecht biegt, könnte man das auch fast so verkaufen.

Nun habe ich es zum einen mit kulturellem Erbe zu tun (das hatte ich doch schon mal…), zum anderen mit dem Tourismus. Wir selbst haben auch im eigentlichen Sinne gar keine Quellen oder „Daten“, sondern im Projekt sollen viel mehr Daten unterschiedlicher Quellen verbunden werden.

Ich bin jetzt 6 Wochen in dem neuen Projekt und ich muss sagen, ich habe schon unheimlich viel Neues gelernt und kennengelernt. Eigentlich sollte ich wohl inzwischen unsere Kooperationspartner schon (fast) alle persönlich gesehen haben und ihnen die Hand geschüttelt. Das konnte nun natürlich nicht geschehen ob der Umstände (Hallo, Corona). Aber immerhin habe ich den meisten eine Mail geschrieben und hatte Video-Kontakt. Fast so gut wie in echt.

Die Frage, die mich trotzdem manchmal umtreibt: Was ist mit meiner Dissertation. Neben einem Fulltime-Job. In einer anderen Disziplin. Für den ich unheimlich viel neues lernen muss und darf. In den letzten Wochen bin ich ab und an an den Punkt gekommen, da hätte ich mich sogar richtig gern an mein Paper gesetzt. Aber das schlechte Gewissen, oder ist es das Pflichtgefühl, hat mich dann doch lieber weiter lernen lassen.

In jedem Fall bin ich sehr gespannt, wie sich das entwickeln wird. Also alles. Mit dem lernen, dem anwenden, der Diss und dem Homeoffice… Vermisst ihr euer Büro schon?

Vom manuellen Überprüfen von POS-Tagging

Wie untersucht man eigentlich gesprochene Daten?

Im Studium beschäftige ich mich viel mit gesprochener Sprache und Korpuslinguistik. In einem computerlinguistischen Seminar hat sich meine Gruppe mit dem POS-Tagging gesprochener Sprache beschäftigt. Wir haben bereits ein Korpus, welches am Institut entstanden ist. Dieses besitzt auch bereits ein POS-Tagging (mit Hilfe des TreeTaggers). Allerdings wurde eben jener TreeTagger auf eine normalisierte Ebene ausgeführt, in welcher viele Phänomene, die typisch für gesprochene Sprache sind, bereits rausgefallen sind. Wenn man nun also mit Hilfe der POS-Ebene nach Phänomenen sucht, kommt man nicht auf die wirklich gesprochene Sprache. Dies kann so nicht bleiben, haben wir uns gedacht.

Im Korpus gibt es auch eine diplomatische Ebene, mit dem wirklich gesprochenen Text, keine Anpassungen an den Duden oder irgendwas. Eigentlich dachten wir uns, den TreeTagger so zu trainieren, dass er diese Ebene möglichst genau taggen kann. Dafür wollten wir das STTS erweitern – angelehnt am KiDKo aus Potsdam – damit alles wirklich ziemlich genau ist. Also haben wir annotiert und annotiert – und sind auf reichlich Probleme gestoßen… Um uns schließlich zu fragen: Was ist eigentlich eine POS-Ebene? Wie sollte sie annotiert sein? Soll sie schon jegliche semantische Überlegung beinhalten? Oder ist sie nicht doch einfach nur ein Wortarten-Tagging, unabhängig von der Semantik, nur auf der Grammatik beruhend?

Wir haben den TreeTagger nun nicht neu trainiert. Dafür sind zu viele Fragen offen geblieben und wir zu wenig Leute mit zu wenig Zeit, um das gesamte, nicht so umfassende Korpus zu taggen bzw. ebenso ein weiteres Korpus nach unserem „neuen“ Tag-Set (welches ebenso noch nicht besteht) zu taggen. Allerdings haben wir uns angeschaut bzw. sind gerade dabei, wie genau denn der TreeTagger taggt. Sowohl auf der normalisierten als auch auf der diplomatischen Ebene. Und Überraschung, auch wenn er in den einzelnen Gesprächen, die ich bisher ausgewertet habe, etwas variiert, er ist gar nicht so schlecht. Der Unterschied in der Genauigkeit der beiden Ebenen liegt übrigens bei etwa 20%, fyi