Kategorie: Lehrveranstaltungen

Ringvorlesung Digital Humanities an der Universität Regensburg

Zum aktuellen Wintersemester 2017 / 2018 wird an der Universität Regensburg die Ringvorlesung „Digital Humanities“ angeboten – Ansprechpartner: Manuel Burghardt, vorname.nachname@ur.de

Digital Humanities: Chancen und Herausforderungen, Spannweiten und Interpretationen – Eine transdisziplinäre Perspektive

1959 konstatiert C. P. Snow in seinem Essay „The Two Cultures“ eine Kluft zwischen den Fachkulturen der Naturwissenschaften und der Geisteswissenschaften. Gleichzeitig bemerkt er, dass – wenn es gelänge, diese Kluft zu überwinden – sich ein enormes, kreatives Potenzial entfalten könnte[1]. Einen Wandel hin zu einer Annäherung der beiden Kulturen kann man aktuell mit der Konjunktur der Digital Humanities beobachten. Weiterhin belegen jüngere Aktivitäten der Forschungsförderung, wie etwa die VW-Ausschreibung zu „Mixed Methods in den Geisteswissenschaften“[2], eine zunehmende Interaktion zwischen quantitativen Verfahren und qualitativen Ansätzen. Mit den Chancen für wissenschaftliche Innovationen, die eine solche Kombination aus unterschiedlichen methodischen Ansätzen mit sich bringt, gehen jedoch auch Herausforderungen und Gefahren einher, die von den Geistes- und Kulturwissenschaften kritisch diskutiert werden. So wurde etwa auf der ersten Jahrestagung des Fachverbands Digital Humanities im deutschsprachigen Raum (DHd 2014, Passau) darüber debattiert, ob mit den Digital Humanities ein „methodischer Brückenschlag“ gelingen könne, oder ob doch eher eine „feindliche Übernahme“ durch die Informatik drohe[3].

Weiterlesen

Syllabus – Introduction to DH and Text Analysis

I have recently adjusted the syllabus of my course on digital humanities and text analysis and wanted to share some of the methods, tools and resources that I currently use. For some great tutorials and exercises on computer-based text analysis, you might want to check out the following:

Weiterlesen

Masterstudiengang „Digital Humanities“ an der Universität Regensburg

Im Rahmen des Förderprogramms „Digitaler Campus Bayern“ fördert das Bayerische Ministerium für Bildung und Kultus, Wissenschaft und Kunst ein kooperatives Studienprogramm der Universitäten Regensburg, Erlangen-Nürnberg und München im Bereich „Digital Humanities“. In Regensburg wird dabei ein Masterstudiengang „Digital Humanities“ entstehen, der zum WS 2017/2018 startet.

Weiterlesen

DH-Blockseminar für angehende Bibliothekare

dh-books-header
Am 18.4.2016 wurde von Manuel Burghardt und Christian Wolff ein 6-stündiger Digital Humanities-Blockkurs an der Fachhochschule für öffentliche Verwaltung und Rechtspflege (FHVR) im Fachbereich Archiv- und Bibliothekswesen (München) abgehalten. Dabei wurden zum einen Geschichte und Entwicklung sowie zentrale Konzepte und Herausforderungen der Digital Humanities vorgestellt, und zum anderen in einer praktischen Übung computer-basierte Textanalysen mit dem Online-Tool Voyant mit den Seminarteilnehmern erprobt.

Aus dem offiziellen Kurskommentar:

Die Durchdringung aller Wissenschaftsbereiche durch Informationstechnologie prägt auch die geistes- und kulturwissenschaftlichen Fächer. Neben der Unterstützung der wissenschaftlichen Arbeit durch geeignete Werkzeuge verändern sich auch die Methoden und Fragestellungen. Unter dem Schlagwort „Digital Humanities“ werden diese Entwicklungen gemeinhin zusammengefasst.

Der Blockkurs zeigt in zwei Vorlesungsblöcken kurz die Geschichte und die rasante Entwicklung der Digital Humanities auf und macht dabei deutlich, warum der Einsatz computergestützter Methoden in den Geisteswissenschaften – anders als etwa in den Naturwissenschaften – besondere Herausforderungen mit sich bringt. Durch zahlreiche praktische Beispiele wird das breite Spektrum der aktuellen Digital Humanities-Landschaft anschaulich gemacht und ein kurzer Überblick zu bestehenden Tools und Methoden in den Digital Humanities gegeben.

In einer gemeinsamen Übung wird schließlich ein exemplarisches Tool zur computergestützten Textanalyse vorgestellt und zusammen mit den Kursteilnehmern erprobt.

Für alle Interessierten finden sich hier die entsprechenden Kursmaterialien:

Online-Ressourcen:

Weiterlesen

Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften

Manuel Burghardt und Christian Wolff sprechen im Rahmen der DH-Summerschool in München, am 29.7.2015 zum Thema „Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften“. Dieser Blogpost soll einerseits den Teilnehmenden der Summerschool als Plattform zum Download bzw. zur Verlinkung relevanter Ressourcen dienen, und mag andererseits auch für all diejenigen interessant sein, die sich erstmals mit dem Thema automatische Textanalyse beschäftigen.

Foliensatz

summerschool-2015-slides

Voyant-Übung

Im Rahmen dieser Übung wird ein digitalisierter Text mit dem frei verfügbaren Web-Tool Voyant automatisch analysiert. Dabei sollen die folgenden Fragen Schritt für Schritt beantwortet werden:

  1. Aus wie vielen types und tokens besteht der Text?
  2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
  3. Welche Wortarten kommen am häufigsten vor?
  4. Welche Adjektive (Lemmata) kommen am häufigsten vor?
  5. Welche Kollokationen kommen im Text vor?

Zuletzt soll schließlich noch gezeigt werden, wie mit Voyant mehrere Texte anhand der oben genannten Parameter verglichen werden können

Download des Übungstexts

Als Übungstext wird das erste Kapitel von Franz Kafkas „Der Prozess“ verwendet, welcher über Projekt Gutenberg-DE frei verfügbar ist.

  • Eine grundlegend normalisierte Version des Texts finden Sie hier: kafka.txt

Foto 2

1. Aus wie vielen types und tokens besteht der Text?

Schritt 1 – Aufruf des Tools

Navigieren Sie nun zum Web-Tool Voyant: http://voyant-tools.org/

Hinweis: Für die weitere Vertiefung finden Sie ein Tutorial zum Tool unter „Voyant Getting started

Schritt 2 – Importieren des Übungstexts

Importieren Sie den Kafka-Text in Voyant indem Sie …

  • die heruntergeladene Datei „kafka.txt“ über den Upload-Dialog hochladen,
  • oder die heruntergeladene Datei „kafka.txt“ öffnen, und den Text über copy-paste in das Formularfeld einfügen,
  • oder den Link zur TXT-Datei „kafka.txt“ in das Formularfeld kopieren.

Schritt 3 – Analyse des Texts auf Types und Tokens

Betrachten Sie die Standard-Analyse von Voyant:

  • Was ist grundlegend zu sehen?
  • Aus wie vielen tokens besteht der Text?
  • Aus wie vielen types besteht der Text, und was hat es in Voyant mit sog. „unique words“ auf sich?

Beobachtung

Um types auszählen lassen zu können, müssen die Wörter zunächst auf ihre Grundformen (Lemmata) reduziert werden.

Zwischenschritt (wurde bereits vorbereitet)

Für die Beantwortung der weiteren Fragen ist eine grundlegende Wortartenannotation und Grundformenreduktion nötig. Der Übungstext wurde mit dem TreeTagger automatisch lemmatisiert und nach Wortarten annotiert (Tagset: STTS). Das Ergebnis der Annotation wurde als XML-Datei gespeichert.

Ein vollständiges Tutorial zur Erstellung eigener annotierter Ressourcen mit dem Onlinedienst WebLicht finden Sie hier: WebLicht-Tutorial

  • Download: Den Kafka-Text mit grundlegender POS-Annotation und Lemmatisierung finden Sie hier: kafka.xml

2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?

Schritt 1 – Betrachten der XML-Datei „kafka.xml“

Öffnen Sie die XML-Datei „kafka.xml“ in einem beliebigen Editor, und betrachten Sie deren grundlegende Struktur.

  • Welche Informationen sind als Annotationen im Dokument hinzugefügt worden?

Exkurs – Selektion spezifischer Dokumentteile mit XPath

XPath ist ein einfacher Selektionsmechanismus, mit dem Sie spezifische Dokumentteile in einem XML-Dokument auswählen können.

XPath-Beispiel-01

Schritt 2 – Hochladen der XML-Datei auf Voyant und Definition eines XPath-Ausdrucks

Navigieren Sie abermals zur Startseite von Voyant. Nun soll allerdings nicht der gesamte Text eingelesen werden, sondern nur die Wörter, die innerhalb eines <lemma>-Tags stehen. Klicken Sie hierzu auf das kleine Zahnrad und definieren Sie im Feld „XPath to content“ den folgenden XPath-Ausdruck:

/DocumentElement/Table1/lemma

XPath-Voyant-01Laden Sie nun über den Upload-Dialog die Datei „kafka.xml“ hoch. Das Ergebnis ist eine Voyant-Analyse über der Lemma-Teilmenge des Dokuments, also ausschließlich der Grundformen.

Beobachtung

Nicht ganz unerwartet sind in unserem Übungstext bestimmte und unbestimmte Artikel, Konjunktionen, Personalpronomen, etc. besonders hochfrequent. Da solche Wörter typischerweise keine oder nur geringe semantische Aussagekraft haben – man spricht auch von sogenannten Synsemantika – werden sie meist mithilfe von Stoppwortlisten von der Korpusanalyse ausgenommen. Auch Voyant stellt solche Stoppwortlisten bereit, die bei Bedarf an spezifische Anwendungszwecke angepasst werden können.

Schritt 3 – Anwendung der deutschen Stoppwortliste

Wenden Sie die deutsche Stoppwortliste in Voyant (Wordcloud-Fenster > „Zahnrad-Icon“ > „Stop Word Lists“ > „German“) auf das Lemma-Teilkorpus an. Markieren Sie außerdem die Checkbox „Apply Stop Words Globally“, damit die Stoppwortliste auch für andere Analysedarstellungen in Voyant angewendet wird, und Sie eine konsistente Analyse bekommen.

Voyant-Stopwords

Nach Anwendung der Stoppwortliste zeigt sich, dass relativ viele „unknowns“ im Text sind.

Zur Erläuterung: Wo sich der TreeTagger nicht sicher ist, wie das Lemma oder die Wortart eines Wortes lautet, trägt das Programm den Wert „unknown“ ein.

Schritt 4 – XPath-Ausdruck zur Analyse der unknowns

Formulieren Sie nun in Voyant einen XPath-Ausdruck, der den Inhalt aller Wort-Elemente selektiert, welche im Lemma-Tag den Wert „unknown“ haben:

/DocumentElement/Table1[lemma='unknown']/word
  • Ist plausibel warum der TreeTagger gerade diese Wörter nicht erkannt hat?

3. Welche Wortarten kommen am häufigsten vor?

Nachdem bereits XPath-Abfragen zur Lemma-Information einzelner Wörter erstellt wurden, soll nun die Wortarten-Information abgefragt werden. Definieren Sie in Voyant einen XPath-Ausdruck der alle Wortarten-Werte selektiert:

/DocumentElement/Table1/pos

Die Wortarten sind mithilfe der Kürzel aus dem STTS getaggt worden. Es zeigt sich, dass „normale Nomen“ (NN), „Personalpronomen“ (PPER), und „Adverbien“ (ADV) zu den drei häufigsten Wortarten gehören.

4. Welche Adjektive (Lemmata) kommen am häufigsten vor?

Definieren Sie nun in Voyant einen XPath-Ausdruck, der alle Lemmata selektiert die Adjektive sind:

/DocumentElement/Table1[pos='ADJD']/lemma

5. Welche Kollokationen kommen im Text vor?

Voyant hält eine Vielzahl unterschiedlicher Analysetools und Visualisierungen bereit.

Eine ausführliche Erklärung all dieser Tools finden Sie hier: http://docs.voyant-tools.org/tools/

Schritt 1

Laden Sie wiederum den Kafka-Text (kafka.xml) hoch und selektieren Sie alle Lemmata (siehe Aufgabe 2).

/DocumentElement/Table1/lemma

Schritt 2

Wenden Sie die deutsche Stoppwortliste an, und ergänzen Sie das Wort „unknown“, um alle unbekannten Lemmata aus der Analyse auszunehmen.

Schritt 3

Öffnen Sie nun das Tool „Collocate Clusters“ im Fenster links, Mitte  („Summary“) über das Diskettensymbol > „URL for a different tool / skin and current data“ > „Collocate Cluster“ > „Open this URL in a new window“.

collocate-clustersSchritt 4

Analyse der Kollokationen

 6. Vergleich von mehreren Texten

Schritt 1 – Herunterladen weiterer Kafka-Texte

Nun sollen mehrere Texte miteinander verglichen werden. Laden Sie sich hierzu zwei weitere Kafka-Texte herunter:

Originalquelle Projekt Gutenberg-DE:

Download der normalisierten Textdateien:

Der Einfachheit halber können Sie einfach die folgenden Links in das Voyant-Formular kopieren:

https://dl.dropboxusercontent.com/u/4194636/kafka.txt
https://dl.dropboxusercontent.com/u/4194636/kafka2.txt
https://dl.dropboxusercontent.com/u/4194636/kafka3.txt

 Schritt 2 – Vergleichende Analyse der Texte

voyant-textvergleichOnline-Version der obigen Analyse.

Digitale Textsammlungen im Web

Digitale Textanalysewerkzeuge

Natural Language Processing Tools zur „Vorverarbeitung

Literaturhinweise / Weblinks