Relaunch der MHDBDB

Am 1. Dezember 2016 startete der Relaunch der Mittelhochdeutschen Begriffsdatenbank (MHDBDB). In den kommenden zwei Jahren wird die Datenbank einem Redesign und einer Migration unterzogen. Zukünftig soll noch mehr Wert gelegt werden auf offene Systemstellen und die bisher schon essenzielle Open Access-Policy weiter vorangetrieben werden (Downloadbarkeit urheberrechtlich unproblematischer Texte und großzügige Datenauszüge ebenso wie eine öffentlich zugängliche IT-Dokumentation).
Die vorhandenen Texte werden in das XML-TEI-Format konvertiert. TEI (Text Encoding Initiative) stellt heute einen de facto-Standard in den Geisteswissenschaften dar und wird zur Kodierung und Auszeichnung von Texten verwendet.

Weiters wird die Oberfläche komplett überarbeitet und auf den neuesten Stand der Technik und Usability gebracht. So kann die MHDBDB danach auch auf mobilen Geräten wie Tablets oder Smartphones genutzt werden.
Eine neue Abfragesprache wird komplexe Recherchen ermöglichen, ebenso die Verknüpfung mit externen Datenquellen (z.B. des Semantic Webswie LOD) und auch den Export der Daten in die unterschiedlichsten Formate wie z.B. PDF, TEI, LaTeX, XLS oder Graphen (zur weiteren Verarbeitung z.B. mit Gephi).

Neue Tools, die dabei entstehen sollen, sind u.a.: Synonym-, Komposita- und Reimwörterbücher des Mittelhochdeutschen, die Abfrage eines autor- und textspezifischen Wortschatzes (Hapaxlegomena), Visualisierungsanwendungen, eine NutzerInnen-spezifische Oberfläche mit Speichermöglichkeit („myMHDBDB“), sowie ein automatischer Disambiguierer, der Mehrdeutigkeit von Wörtern auflösen können wird. Zudem wird das Begriffssystem der MHDBDB auf der Basis von Ontologien überarbeitet. Dabei werden die (meisten) bestehenden hierarchischen Relationen der Categories (Begriffsfelder) beibehalten, jedoch um zahlreiche weitere (Poly-)Hierarchien sowie standardisierte Tags erweitert und außerdem ein Netzwerk von Äquivalenzrelationen über den Wortbestand gelegt, vergleichbar mit dem nhd. Wortmaterial im lexikalisch-semantischen Netz von GermaNet. Assoziationsrelationen, die an die Vorgehensweise bekannter Onlineshops erinnern („Kunden, die sich für dieses Buch interessierten, kauften auch…“), sind ebenfalls in Arbeit.

Vom Institut für Literaturwissenschaft sowie dem Institut für Maschinelle Sprachverarbeitung an der Universität Stuttgart konnte bereits auf Basis der Texte und des Wortindexes der MHDBDB eine Trainingsdatei für einen Tree-Tagger erstellt werden. Das Trainingskorpus enthält etwa 10 Millionen tokens und repräsentiert unterschiedliche Gattungen, Epochen und Dialekte. Dieser Tree-Tagger ist nun Basis für die weitere Entwicklung des automatischen Disambiguierers der MHDBDB im Zuge des Relaunches. Details s. http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/PoS_Tag_MHG.html (Koordination Stuttgart: Prof.Dr. Manuel Braun und Dr. Nils Reiter)

Der Relaunch der MHDBDB erfolgt unter der Leitung von: Daniel Schlager (MHDBDB-Team Salzburg). Fragen zum Relaunch können Sie direkt stellen an Daniel.schlager(at)sbg.ac.at

Wir halten Sie über den Fortschritt auf dem Laufenden.

Weiterführende Links

Kategorien