Themse

Text-Hermeneutic Multilevel Similarity Exploration

Was ist THeMSE?

THeMSE ist ein visuelles Textanalysewerkzeug zur Exploration von Textähnlichkeiten, das im Kontext des Projekts Das Buch der Briefe der Hildegard von Bingen. Genese – Struktur – Komposition von Marina Lehmann, Markus John und Andreas Kuczera entwickelt wurde. Aktuell können die Briefe Hildegard von Bingens aus den Sammlungen R (Riesenkodex) und Wr (Wiener Handschrift) miteinander verglichen werden. R enthält momentan 282 Briefe, Wr 43 Briefe, die sowohl in einer normalisierten als auch in einer lemmatisierten Fassung vorliegen. Textähnlichkeit kann mit THeMSE sowohl über die für jedes Briefpaar berechneten Ähnlichkeitswerte als auch über eine Begriffssuche erkundet werden.

Textähnlichkeit

Da Textähnlichkeit auf verschiedene Arten definiert werden kann, stehen drei verschiedene Verfahren zur Auswahl, um die Ähnlichkeitswerte zu ermitteln: Levenshtein, ein Bag-of-Words-Modell mit TF-IDF-Gewichtung (kurz: TF-IDF) und doc2vec. Levenshtein arbeitet zeichenbasiert und ermittelt anhand der übereinstimmenden bzw. abweichenden Zeichen die Editierdistanz zwischen zwei Texten, auf deren Grundlage die Ähnlichkeitswerte berechnet werden. Das TF-IDF-Verfahren und doc2vec arbeiten vektorbasiert. Bei TF-IDF werden die Dokumentvektoren anhand der gewichteten Worthäufigkeiten ermittelt, bei doc2vec ergeben sie sich aus den Wortkontexten. In beiden Fällen wird der Ähnlichkeitswert über die Kosinusähnlichkeit zwischen den Dokumentvektoren berechnet.

Features der Betaversion

Die Betaversion umfasst zwei Analyseebenen, welche ein Distant Reading der Texte ermöglichen. Die Heatmap-Ebene bietet einen Überblick über die Ähnlichkeitswerte pro Briefpaar aus R und Wr. Die Farbintensität spiegelt die Höhe des Ähnlichkeitswerts wider: 0 – keine Ähnlichkeit, 1 – maximale Ähnlichkeit.

Ausschnit der Heatmap-Ebene

Mit Klick auf eine Zelle der Heatmap gelangt man zur Fingerprint-Ebene, welche über eine Begriffssuche zusätzlich eine Erkundung thematischer Ähnlichkeiten zwischen den Briefen ermöglicht. Nach der Auswahl eines Startbriefs werden Begriffe vorgeschlagen, welche für diesen Brief charakteristisch sind. Diese Begriffe können in den Vergleichsbriefen aus der anderen Sammlung gesucht werden. Die Suchtreffer werden in Form von Fingerprint-Matrizen angezeigt, abstrakte Repräsentationen der Vergleichsbriefe, in denen die Suchbegriffe farblich hervorgehoben werden. So entsteht für jeden Brief ein individuelles Profil. Alternativ können auch eigene Suchbegriffe eingegeben werden (durch Komma getrennt). Die zehn vorgeschlagenen Vergleichsbriefe entsprechen den Briefen, die im Vergleich mit dem Startbrief die höchsten Ähnlichkeitswerte erzielt haben.

Ausschnitt der Fingerprint-Ansicht

Ausblick auf weitere Features

Perspektivisch wird auch eine Textansicht in THeMSE eingebunden werden, in der die Unterschiede zwischen den Texten farblich hervorgehoben werden. Dadurch wird neben dem Distant Reading auch ein Close Reading der Brieftexte möglich werden.