Kategorie: Lehrveranstaltungen
Ringvorlesung Digital Humanities an der Universität Regensburg
Zum aktuellen Wintersemester 2017 / 2018 wird an der Universität Regensburg die Ringvorlesung „Digital Humanities“ angeboten – Ansprechpartner: Manuel Burghardt, vorname.nachname@ur.de
Digital Humanities: Chancen und Herausforderungen, Spannweiten und Interpretationen – Eine transdisziplinäre Perspektive
1959 konstatiert C. P. Snow in seinem Essay „The Two Cultures“ eine Kluft zwischen den Fachkulturen der Naturwissenschaften und der Geisteswissenschaften. Gleichzeitig bemerkt er, dass – wenn es gelänge, diese Kluft zu überwinden – sich ein enormes, kreatives Potenzial entfalten könnte[1]. Einen Wandel hin zu einer Annäherung der beiden Kulturen kann man aktuell mit der Konjunktur der Digital Humanities beobachten. Weiterhin belegen jüngere Aktivitäten der Forschungsförderung, wie etwa die VW-Ausschreibung zu „Mixed Methods in den Geisteswissenschaften“[2], eine zunehmende Interaktion zwischen quantitativen Verfahren und qualitativen Ansätzen. Mit den Chancen für wissenschaftliche Innovationen, die eine solche Kombination aus unterschiedlichen methodischen Ansätzen mit sich bringt, gehen jedoch auch Herausforderungen und Gefahren einher, die von den Geistes- und Kulturwissenschaften kritisch diskutiert werden. So wurde etwa auf der ersten Jahrestagung des Fachverbands Digital Humanities im deutschsprachigen Raum (DHd 2014, Passau) darüber debattiert, ob mit den Digital Humanities ein „methodischer Brückenschlag“ gelingen könne, oder ob doch eher eine „feindliche Übernahme“ durch die Informatik drohe[3].
In Anbetracht dieser schwierigen Gemengelage wird schnell klar, dass es keine einfache Lösung gibt: Eine strikte Ablehnung von computerbasierten Methoden in den Geistes- und Kulturwissenschaften ist ebenso wenig zielführend wie die naive Annahme, dass Algorithmen künftig selbständig die Analyse beliebiger kultureller Artefakte vornehmen können und damit die Interpretation durch Fachwissenschaftler obsolet machen. Weitere Herausforderungen ergeben sich durch kulturelle Artefakte, die schon digital geboren (born digital) sind und für deren Analyse traditionelle Methoden aus den jeweils zuständigen geistes- und kulturwissenschaftlichen Fachdisziplinen ggf. angepasst werden müssen. Eine kritische Reflexion über den sinnvollen Einsatz computerbasierter Methoden und das Aufzeigen der Grenzen und Gefahren solcher Verfahren sind wichtige Desiderate für eine zeitgemäße Verortung und Orientierung der Geistes- und Kulturwissenschaften.
Mit der Ringvorlesung Digital Humanities sollen einzelne Fachdisziplinen über Chancen und Herausforderungen des Einsatzes digitaler Medien und Methoden in den Geistes- und Kulturwissenschaften berichten. Darüber hinaus flankiert die Veranstaltung inhaltlich den im WS 2017/2018 neu startenden Masterstudiengang „Digital Humanities“ und bietet damit eine fachübergreifende Möglichkeit des Austauschs zwischen Studierenden und Forschenden, die sich an der Universität Regensburg mit dem Thema Digital Humanities beschäftigen.
[1] Vgl. Rehbein, M. (2016). Was sind Digital Humanities? Akademie Aktuell, 56(1), 12–17.
[2] Vgl. die Ausschreibung „Interaktion qualitativ-hermeneutischer Verfahren und Digital Humanities: ‚Mixed Methods‘ in den Geisteswissenschaften?“, https://www.volkswagenstiftung.de/foerderung/herausforderung/
ausschreibung-mixed-methods-in-den-geisteswissenschaften.html (letzter Zugriff am 16.5.2016)
[3] Vgl. Motto der ersten Jahrestagung „Digital Humanities im deutschsprachigen Raum“, http://www.dhd2014.uni-passau.de/ (letzter Zugriff am 16.5.2016)
Programm der Ringvorlesung
Download Plakat als (PDF)
18.10.17
Digitalisierung der Forschung – Forschung zur Digitalisierung: Herausforderungen für die Geistes- und Kulturwissenschaften
Prof. Dr. Christian Wolff
Medieninformatik, UR
25.10.17
Digital Humanities – „Das Ende der Theorie“ in den Geisteswissenschaften?
Dr. Manuel Burghardt
Medieninformatik, UR
8.11.17
Computational Social Science meets Information Behaviour – Der Wahlkampf zur Bundestagswahl 2017 auf Twitter
Florian Meier, M.A.
Informationswissenschaft, UR
15.11.17*
Textanalyse mit Topic Models – Wirtschaftsgeschichte 3.0?
Lino Wehrheim, M.Sc.
Wirtschafts- und Sozialgeschichte, UR
22.11.17
Digital Humanities in Regensburg: Geschichte – Projekte – Studiengang. Mit feierlicher Eröffnung des Masterstudiengangs Digital Humanities.
Dr. Manuel Burghardt, Prof. Dr. Daniel Isemann, Dr. Markus Kattenbeck, Prof. Dr. Bernd Ludwig, Prof. Dr. Christian Wolff
Arbeitsgruppe Digital Humanities, UR
29.11.17
Aus verschiedenen Richtungen betrachtet – aber es ist immer dieselbe Landmarke
Prof. Dr. Bernd Ludwig
Informationswissenschaft, UR
6.12.17
Digitale Traditionen, Herausforderungen und Chancen in der osteuropäischen Geschichte
Hans Bauer, M.A., Prof. Dr. Ulf Brunnbauer, Ingo Frank, M.A., Tillmann Tegeler, M.A.
Leibniz-Institut für Ost- und Südosteuropaforschung, Regensburg
13.12.17
Gibt es „Digitale Geisteswissenschaften“? Überlegungen zur Digital Humanities-Diskussion aus medienwissenschaftlicher Sicht
Prof. Dr. Christiane Heibach
Medienästhetik, UR
20.12.17*
Konvergenz, Divergenz? Rechnungsbücher seit dem Spätmittelalter und warum das auch für die Digital Humanities interessant ist
Kathrin Pindl, M.A., Sebastian Pößniker, B.A., Prof. Dr. Mark Spoerer
Wirtschafts- und Sozialgeschichte, UR
10.1.18
Das Allgemeine und das Individuelle: Distant Reading und literarische Stilanalyse
PD Dr. Heribert Tommek
Neuere deutsche Literaturwissenschaft, UR
17.1.18
Digital Turn – Zum Korpus-, Methoden- und Arbeitswandel in der deutschen Sprachwissenschaft
Prof. Dr. Paul Rössler
Deutsche Sprachwissenschaft, UR
24.1.18
Chancen und Risiken der Digital Humanities aus Perspektive der Bibliotheken
Dr. André Schüller-Zwierlein
Universitätsbibliothek Regensburg
31.1.18
State of the Art: Perspektiven und Aufgaben der Digitalen Kunstgeschichte
Gerald Dagit, M.A., Prof. Dr. Christoph Wagner
Kunstgeschichte, UR
7.2.18
Digitale Methoden in der Englischen Sprachwissenschaft: Einblicke in die Korpuslinguistik und die Dialektgeographie
Dr. Lucia Siebers
English Linguistics, UR
*Gemeinsam mit dem Forschungsseminar Wirtschafts- und Sozialgeschichte
Masterstudiengang Digital Humanities in Regensburg
Ab sofort ist die Webseite zum im WS 2017/18 beginnenden Masterstudiengang Digital Humanities online. Interessierte Studierende können sich bis spätestens 1. Juli 2017 bewerben.
Für wen ist der Masterstudiengang interessant?
Ziel des Masterstudiengangs ist es, Studierende, die bereits einen geistes- oder kulturwissenschaftlichen Abschluss haben, methodisch weiter zu bilden. Hierzu gehört die Vermittlung anwendungsorientierter Kenntnisse in Programmierung, Datenerhebung und -auswertung sowie Sprach- und Texttechnologie. Als weiterführender Studiengang werden Studierende aufbauend auf diesen Kenntnissen dazu befähigt, selbstständig Projekte durchzuführen. Ein Schwerpunkt ist dabei die Fähigkeit, mit geeigneten digitalen Werkzeugen Textkorpora (z. B. digital vorliegende historische Quellen, Sprachkorpora oder Texte aus den sozialen Medien) zu analysieren und die Ergebnisse der Analysen in geeigneter Form zu interpretieren, aufzubereiten und diese zu kommunizieren.
Syllabus – Introduction to DH and Text Analysis
I have recently adjusted the syllabus of my course on digital humanities and text analysis and wanted to share some of the methods, tools and resources that I currently use. For some great tutorials and exercises on computer-based text analysis, you might want to check out the following:
- Hermeneutica – Computer-Assisted Interpretation in the Humanities
- The Programming Historian
- Introduction to Text Analysis: A Coursebook
Preliminary remarks
The target audience for the course are students in the media informatics Master’s program, i.e. students have a background in programming and data modelling. The course is divided in 3 phases: During phases 1+2, students spend 2×2 hours per week in class and learn the fundamentals of digital humanities and text analysis. Phase 3 is a free project phase, where groups of students work on their individual digital humanities projects and regularly meet with the lecturer to discuss the progress of their project.
Phase 1: Introduction to Digital Humanities
Week 1a
- General introduction to the course
- Introducing the DSH reading challenge: throughout the course, each student will present a preselected paper from the Digital Scholarship in the Humanities journal by summarizing its basic research goals, methods and results in 5 minutes (+5 minutes of general discussion)
Reading assignment: Prensky, M. (2001). Digital Natives, Digital Immigrants Part I. On the Horizon, 9(6), 1–6.
Week 1b
- Discussing the „digital“ and its implications, as in digital revolution, digital society, digital culture, digital natives, …
Reading assignment: Snow, C. P. (1959). The Two Cultures. London: Cambridge University Press.
Week 2a
- Discussing „humanities“
- What is special / challenging about digital humanities? Can you adopt the idea of digital natives and digital immigrants to scholarly disciplines?
Reading assignment: Michel, J.-B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., … Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–82.
Week2b
- From Busa to Culturomics – A short history of the digital humanities
- Exercise: Building your own Index Thomisticus in 5 minutes (using Open Library and Voyant Tools)
- Exercise: Discussion of the Google Ngram Viewer (representativeness, OCR errors, etc.)
Reading assignment: Svensson, P. (2010). The Landscape of Digital Humanities. Digital Humanities Quarterly, 4(1), 1–31.
Week3a
- Defining the digital humanities: Overview and discussion of existing definitions
- Working definition for the course:
(1) DH as use of digital tools / methods / resources in the humanities, and
(2) DH as humanities, investigating digital culture.
Week3b
- Basic introduction to literary studies
- Overview of literary theories and typical research questions in that field
- Exercise: Analyzing “Every breath you take” in class
Reading assignment: Moretti, F. (2000). Conjectures on world literature. New Left Review, (Jan / Feb), 54–68.
Phase 2: How to do digital humanities? A hands-on introduction to computer-based text analysis.
Week4a
- Introduction to (close and) distant reading
- Examples for the application of distant reading approaches
- Tools for distant reading (Voyant, To See or Not to See)
Week4b
- Data acquisition – How to get digital texts?
- Overview of text repositories: Open Library, Project Gutenberg, Deutsches Textarchiv, TextGrid Repository, Folger Digital Texts, opensubtitles.com
- Tools: wget, beautiful soup
Week5a
- Introduction to data cleaning with the bash command line and regular expressions
- Tools: UnixShell, CygWin
Week5b
- Beyond raw text – annotating with XML / TEI
- Utilizing document markup with XSLT
Week6a
- Introduction to natural language processing and automatic tagging
- Tools: WebLicht, TreeTagger, NLTK
Week6b
Week7a
- How to interpret frequencies – Introduction to statistics
- Tool: R studio
Week7b
- Introducion to stylometry
- Tool: R Stylo
Week8a
- Introduction to topic modeling
- Tool: MALLET
Week8b
- Distant reading the DSH: throughout the course, students have “close read” and discussed typical articles from the DSH journal – at the end of the course, we apply frequency lists and topic modeling to a larger corpus of DSH articles.
Phase 3: DH projects
Students work on their own research projects and apply text analysis techniques
Example topics:
- Stylistic change in the different editions of the fairytales by brothers Grimm’s
- Intertextuality: Shakespeare in literature / film / lyrics
- Quantitative analysis of drama according to speakers, structure, speech, etc.
- etc.
Masterstudiengang „Digital Humanities“ an der Universität Regensburg
Im Rahmen des Förderprogramms „Digitaler Campus Bayern“ fördert das Bayerische Ministerium für Bildung und Kultus, Wissenschaft und Kunst ein kooperatives Studienprogramm der Universitäten Regensburg, Erlangen-Nürnberg und München im Bereich „Digital Humanities“. In Regensburg wird dabei ein Masterstudiengang „Digital Humanities“ entstehen, der zum WS 2017/2018 startet.
Ausführliche Informationen finden sich in der offiziellen Pressemitteilung (Originalquelle).
Pressemitteilung vom 10. Oktober 2016
Für die Jahre 2016 bis 2020 hat das Bayerische Ministerium für Bildung und Kultus, Wissenschaft und Kunst für ein von den Universitäten Regensburg, Erlangen-Nürnberg und München geplantes, kooperatives Studienangebot im Bereich Digital Humanities eine Anschubfinanzierung von bis zu 3,6 Millionen Euro genehmigt. Finanziert wird diese Förderung aus dem Innovationsprogramm „Digitaler Campus Bayern“ der Bayerischen Staatsregierung; dessen Ziel ist es, die bayerischen Hochschulen beim Aufbau von informationstechnischer Infrastruktur oder der Einrichtung von neuen Studienangeboten in den digitalen Technologien zu unterstützen.
Das kooperative Studienangebot bezieht den Forschungsbereich der Digital Humanities unter Beteiligung der Social Sciences in die Lehre ein. Digital Humanities umschreibt das Vorgehen, in den Geistes- und Kulturwissenschaften moderne Informationstechnologien und digitale Ressourcen für die wissenschaftliche Arbeit zu verwenden. Die Kooperation der drei Universitäten sieht dabei die Einrichtung bzw. den Ausbau von Studiengängen an den drei Standorten vor. Dabei profitieren die Studierenden in besonderer Weise von standortübergreifenden Veranstaltungen wie z.B. jährlichen Summer Schools, und der Öffnung von Lehrangeboten über die Standorte und Studiengänge hinweg.
Im Einzelnen entwickeln die Studiengänge unterschiedliche inhaltliche Schwerpunkte und richten sich an je spezifische Zielgruppen:In Regensburg werden Prof. Dr. Christian Wolff, Inhaber des Lehrstuhls für Medieninformatik, und Prof. Dr. Bernd Ludwig vom Lehrstuhl für Informationswissenschaft den Master-Studiengang „Digitale Medien in den Geistes- und Kulturwissenschaften“ einrichten. Der Studiengang startet voraussichtlich im Wintersemester 2017/18 und richtet sich insbesondere an Lehramtsstudierende in den geistes- und kulturwissenschaftlichen Fächern. Absolventen des Fachs sollen in der Lage sein, Tätigkeiten mit IT-Bezug und fachlicher Nähe zu den B.A.-Studienfächern außerhalb des Lehramts zu übernehmen. Innerhalb des Lehramts sollen sie digitale Arbeitstechniken über das bisherige Maß hinaus in die jeweiligen Fächer einbringen können.
Die Gesamtkoordination des kooperativen Studienangebots liegt bei Prof. Dr. Heidrun Stein-Kecks vom Institut für Kunstgeschichte an der Friedrich-Alexander Universität Erlangen-Nürnberg. Sie ist zugleich Sprecherin des Interdisziplinären Zentrums Digitale Geistes- und Sozialwissenschaften, das für Konzept und Durchführung des Studiengangs verantwortlich zeichnet.
In Erlangen wird der grundständige Bachelor-Studiengang „Digitale Geistes- und Sozialwissenschaften“, der bisher nur im Zweitfach studierbar war, ausgebaut. Der Studiengang ist breit gefächert angelegt und führt in interdisziplinärer Vernetzung in das neue Forschungsfeld ein. Durch die Kooperation mit der Technischen Fakultät gewinnt der Studiengang ein ausgeprägtes informationstechnologisches Profil. Besondere thematische Schwerpunkte liegen in den Bereichen Bild und Medien, Sprache und Text sowie Raum und Gesellschaft. Praxis- und projektorientierte Module zielen auf eine anwendungsorientierte Verzahnung der Informatik und der Digitalen Geistes- und Sozialwissenschaften, wobei ein besonderes Augenmerk auch auf die Reflexion der Auswirkungen der Digitalisierung auf Gesellschaft und Wissenschaft gelegt wird. Individuelle Schwerpunktsetzungen in einem freien Wahlbereich führen zu spezifischen Vertiefungen, auch im Hinblick auf die Kombination mit einem weiteren Fach aus dem Studienangebot der großen Philosophischen Fakultät und Fachbereich Theologie. Die fundierten fachlichen und methodischen Kompetenzen im Umgang mit digitalen Technologien in Wissenschaft und Gesellschaft eröffnen den Studierenden attraktive Perspektiven in dynamisch wachsenden Forschungs- und Arbeitsfeldern an den Schnittstellen von Technologie, Gesellschaft und Kultur.In München ist Dr. Christian Riepl, Leiter der IT-Gruppe Geisteswissenschaften, Ansprechpartner für das Projekt. Zusammen mit den sprachwissenschaftlichen Disziplinen koordiniert er die Einrichtung des optionalen BA-Nebenfaches „Digital Humanities – Sprachwissenschaften“ an der Fakultät für Sprach- und Literaturwissenschaften der LMU: die Förderung im Rahmen des„Digitalen Campus Bayern“ bietet hier die Möglichkeit, das seit vielen Jahren in der Forschung und forschungsnahen Lehre unter anderem in den Bereichen Korpuslinguistik, Geolinguistik, perzeptive Linguistik und Sprachgeschichte gewonnene IT-Wissen grundlegend und systematisch zu sammeln, im Rahmen eines optionalen Nebenfaches „Digital Humanities – Sprachwissenschaften“ in bestehende BA-Studiengänge der großen sprachwissenschaftlichen Disziplinen (Anglistik, Germanistik, Romanistik,) zu integrieren und fachnah in der sprachwissenschaftlichen Praxis zu vermitteln. Das Vorhaben kann in München an ein bereits in der ersten Antragsrunde des „Digitalen Campus Bayern“ bewilligtes Projekt „IT-for-all: Digitale Datenanalyse in den Geschichts- und Kunstwissenschaften“ anknüpfen und die dort entstandene digitale Lehr- und Forschungsinfrastruktur DH-VLab technisch weiterentwickeln und fachlich ausbauen.
DH-Blockseminar für angehende Bibliothekare
Am 18.4.2016 wurde von Manuel Burghardt und Christian Wolff ein 6-stündiger Digital Humanities-Blockkurs an der Fachhochschule für öffentliche Verwaltung und Rechtspflege (FHVR) im Fachbereich Archiv- und Bibliothekswesen (München) abgehalten. Dabei wurden zum einen Geschichte und Entwicklung sowie zentrale Konzepte und Herausforderungen der Digital Humanities vorgestellt, und zum anderen in einer praktischen Übung computer-basierte Textanalysen mit dem Online-Tool Voyant mit den Seminarteilnehmern erprobt.
Aus dem offiziellen Kurskommentar:
Die Durchdringung aller Wissenschaftsbereiche durch Informationstechnologie prägt auch die geistes- und kulturwissenschaftlichen Fächer. Neben der Unterstützung der wissenschaftlichen Arbeit durch geeignete Werkzeuge verändern sich auch die Methoden und Fragestellungen. Unter dem Schlagwort „Digital Humanities“ werden diese Entwicklungen gemeinhin zusammengefasst.
Der Blockkurs zeigt in zwei Vorlesungsblöcken kurz die Geschichte und die rasante Entwicklung der Digital Humanities auf und macht dabei deutlich, warum der Einsatz computergestützter Methoden in den Geisteswissenschaften – anders als etwa in den Naturwissenschaften – besondere Herausforderungen mit sich bringt. Durch zahlreiche praktische Beispiele wird das breite Spektrum der aktuellen Digital Humanities-Landschaft anschaulich gemacht und ein kurzer Überblick zu bestehenden Tools und Methoden in den Digital Humanities gegeben.
In einer gemeinsamen Übung wird schließlich ein exemplarisches Tool zur computergestützten Textanalyse vorgestellt und zusammen mit den Kursteilnehmern erprobt.
Für alle Interessierten finden sich hier die entsprechenden Kursmaterialien:
- Vorlesung Teil 1: „Was sind Digital Humanities, und warum wird so viel darüber geredet?„
- Vorlesung Teil 2: „Von Busa zu Culturomics – Überblick zu Tools in den Digital Humanities„
- Praktische Übung mit Voyant: https://dhregensburg.wordpress.com/2015/07/29/textanalysewerkzeuge-und-ihr-einsatz-in-den-digitalen-geisteswissenschaften/
- Vollständige Bibliographie: https://www.mendeley.com/groups/2594131/digital-humanities-regensburg/papers/
Online-Ressourcen:
- Index Thomisticus: http://www.corpusthomisticum.org/it/index.age
- Open Library: http://openlibrary.org/
- Voyant Tools: http://voyant-tools.org/
- Culturomics: http://www.culturomics.org/
- Google Books / Ngram Viewer: http://books.google.com/ngrams
- Project Bamboo: http://www.projectbamboo.org/
- Bamboo Wiki on Digital Research Tools (DiRT): http://dirt.projectbamboo.org/
Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften
Manuel Burghardt und Christian Wolff sprechen im Rahmen der DH-Summerschool in München, am 29.7.2015 zum Thema „Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften“. Dieser Blogpost soll einerseits den Teilnehmenden der Summerschool als Plattform zum Download bzw. zur Verlinkung relevanter Ressourcen dienen, und mag andererseits auch für all diejenigen interessant sein, die sich erstmals mit dem Thema automatische Textanalyse beschäftigen.
Foliensatz
Voyant-Übung
Im Rahmen dieser Übung wird ein digitalisierter Text mit dem frei verfügbaren Web-Tool Voyant automatisch analysiert. Dabei sollen die folgenden Fragen Schritt für Schritt beantwortet werden:
- Aus wie vielen types und tokens besteht der Text?
- Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
- Welche Wortarten kommen am häufigsten vor?
- Welche Adjektive (Lemmata) kommen am häufigsten vor?
- Welche Kollokationen kommen im Text vor?
Zuletzt soll schließlich noch gezeigt werden, wie mit Voyant mehrere Texte anhand der oben genannten Parameter verglichen werden können
Download des Übungstexts
Als Übungstext wird das erste Kapitel von Franz Kafkas „Der Prozess“ verwendet, welcher über Projekt Gutenberg-DE frei verfügbar ist.
- Eine grundlegend normalisierte Version des Texts finden Sie hier: kafka.txt
1. Aus wie vielen types und tokens besteht der Text?
Schritt 1 – Aufruf des Tools
Navigieren Sie nun zum Web-Tool Voyant: http://voyant-tools.org/
Hinweis: Für die weitere Vertiefung finden Sie ein Tutorial zum Tool unter „Voyant Getting started„
Schritt 2 – Importieren des Übungstexts
Importieren Sie den Kafka-Text in Voyant indem Sie …
- die heruntergeladene Datei „kafka.txt“ über den Upload-Dialog hochladen,
- oder die heruntergeladene Datei „kafka.txt“ öffnen, und den Text über copy-paste in das Formularfeld einfügen,
- oder den Link zur TXT-Datei „kafka.txt“ in das Formularfeld kopieren.
Schritt 3 – Analyse des Texts auf Types und Tokens
Betrachten Sie die Standard-Analyse von Voyant:
- Was ist grundlegend zu sehen?
- Aus wie vielen tokens besteht der Text?
- Aus wie vielen types besteht der Text, und was hat es in Voyant mit sog. „unique words“ auf sich?
Beobachtung
Um types auszählen lassen zu können, müssen die Wörter zunächst auf ihre Grundformen (Lemmata) reduziert werden.
Zwischenschritt (wurde bereits vorbereitet)
Für die Beantwortung der weiteren Fragen ist eine grundlegende Wortartenannotation und Grundformenreduktion nötig. Der Übungstext wurde mit dem TreeTagger automatisch lemmatisiert und nach Wortarten annotiert (Tagset: STTS). Das Ergebnis der Annotation wurde als XML-Datei gespeichert.
Ein vollständiges Tutorial zur Erstellung eigener annotierter Ressourcen mit dem Onlinedienst WebLicht finden Sie hier: WebLicht-Tutorial
- Download: Den Kafka-Text mit grundlegender POS-Annotation und Lemmatisierung finden Sie hier: kafka.xml
2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
Schritt 1 – Betrachten der XML-Datei „kafka.xml“
Öffnen Sie die XML-Datei „kafka.xml“ in einem beliebigen Editor, und betrachten Sie deren grundlegende Struktur.
- Welche Informationen sind als Annotationen im Dokument hinzugefügt worden?
Exkurs – Selektion spezifischer Dokumentteile mit XPath
XPath ist ein einfacher Selektionsmechanismus, mit dem Sie spezifische Dokumentteile in einem XML-Dokument auswählen können.
Schritt 2 – Hochladen der XML-Datei auf Voyant und Definition eines XPath-Ausdrucks
Navigieren Sie abermals zur Startseite von Voyant. Nun soll allerdings nicht der gesamte Text eingelesen werden, sondern nur die Wörter, die innerhalb eines <lemma>-Tags stehen. Klicken Sie hierzu auf das kleine Zahnrad und definieren Sie im Feld „XPath to content“ den folgenden XPath-Ausdruck:
/DocumentElement/Table1/lemma
Laden Sie nun über den Upload-Dialog die Datei „kafka.xml“ hoch. Das Ergebnis ist eine Voyant-Analyse über der Lemma-Teilmenge des Dokuments, also ausschließlich der Grundformen.
Beobachtung
Nicht ganz unerwartet sind in unserem Übungstext bestimmte und unbestimmte Artikel, Konjunktionen, Personalpronomen, etc. besonders hochfrequent. Da solche Wörter typischerweise keine oder nur geringe semantische Aussagekraft haben – man spricht auch von sogenannten Synsemantika – werden sie meist mithilfe von Stoppwortlisten von der Korpusanalyse ausgenommen. Auch Voyant stellt solche Stoppwortlisten bereit, die bei Bedarf an spezifische Anwendungszwecke angepasst werden können.
Schritt 3 – Anwendung der deutschen Stoppwortliste
Wenden Sie die deutsche Stoppwortliste in Voyant (Wordcloud-Fenster > „Zahnrad-Icon“ > „Stop Word Lists“ > „German“) auf das Lemma-Teilkorpus an. Markieren Sie außerdem die Checkbox „Apply Stop Words Globally“, damit die Stoppwortliste auch für andere Analysedarstellungen in Voyant angewendet wird, und Sie eine konsistente Analyse bekommen.
Nach Anwendung der Stoppwortliste zeigt sich, dass relativ viele „unknowns“ im Text sind.
Zur Erläuterung: Wo sich der TreeTagger nicht sicher ist, wie das Lemma oder die Wortart eines Wortes lautet, trägt das Programm den Wert „unknown“ ein.
Schritt 4 – XPath-Ausdruck zur Analyse der unknowns
Formulieren Sie nun in Voyant einen XPath-Ausdruck, der den Inhalt aller Wort-Elemente selektiert, welche im Lemma-Tag den Wert „unknown“ haben:
/DocumentElement/Table1[lemma='unknown']/word
- Ist plausibel warum der TreeTagger gerade diese Wörter nicht erkannt hat?
3. Welche Wortarten kommen am häufigsten vor?
Nachdem bereits XPath-Abfragen zur Lemma-Information einzelner Wörter erstellt wurden, soll nun die Wortarten-Information abgefragt werden. Definieren Sie in Voyant einen XPath-Ausdruck der alle Wortarten-Werte selektiert:
/DocumentElement/Table1/pos
Die Wortarten sind mithilfe der Kürzel aus dem STTS getaggt worden. Es zeigt sich, dass „normale Nomen“ (NN), „Personalpronomen“ (PPER), und „Adverbien“ (ADV) zu den drei häufigsten Wortarten gehören.
4. Welche Adjektive (Lemmata) kommen am häufigsten vor?
Definieren Sie nun in Voyant einen XPath-Ausdruck, der alle Lemmata selektiert die Adjektive sind:
/DocumentElement/Table1[pos='ADJD']/lemma
5. Welche Kollokationen kommen im Text vor?
Voyant hält eine Vielzahl unterschiedlicher Analysetools und Visualisierungen bereit.
Eine ausführliche Erklärung all dieser Tools finden Sie hier: http://docs.voyant-tools.org/tools/
Schritt 1
Laden Sie wiederum den Kafka-Text (kafka.xml) hoch und selektieren Sie alle Lemmata (siehe Aufgabe 2).
/DocumentElement/Table1/lemma
Schritt 2
Wenden Sie die deutsche Stoppwortliste an, und ergänzen Sie das Wort „unknown“, um alle unbekannten Lemmata aus der Analyse auszunehmen.
Schritt 3
Öffnen Sie nun das Tool „Collocate Clusters“ im Fenster links, Mitte („Summary“) über das Diskettensymbol > „URL for a different tool / skin and current data“ > „Collocate Cluster“ > „Open this URL in a new window“.
Schritt 4
6. Vergleich von mehreren Texten
Schritt 1 – Herunterladen weiterer Kafka-Texte
Nun sollen mehrere Texte miteinander verglichen werden. Laden Sie sich hierzu zwei weitere Kafka-Texte herunter:
Originalquelle Projekt Gutenberg-DE:
- Franz Kafka, Das Schloss, Kap. 1: http://gutenberg.spiegel.de/buch/das-schloss-7656/1
- Franz Kafka, Amerika, Kap. 1: http://gutenberg.spiegel.de/buch/amerika-168/2
Download der normalisierten Textdateien:
Der Einfachheit halber können Sie einfach die folgenden Links in das Voyant-Formular kopieren:
https://dl.dropboxusercontent.com/u/4194636/kafka.txt https://dl.dropboxusercontent.com/u/4194636/kafka2.txt https://dl.dropboxusercontent.com/u/4194636/kafka3.txt
Schritt 2 – Vergleichende Analyse der Texte
Online-Version der obigen Analyse.
Digitale Textsammlungen im Web
- Projekt Gutenberg (http://gutenberg.spiegel.de)
- Open Library (https://openlibrary.org/)
- TextGrid Repository (http://www.textgridrep.de/)
- Deutsches Textarchiv (http://www.deutschestextarchiv.de/)
- Folger Digital Text (http://www.folgerdigitaltexts.org/)
- Shakespeare His Contemporaries Corpus (https://github.com/martinmueller39/SHC)
- Tiger Corpus (http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.html)
- Sammlung linguistisch annotierter Online-Korpora (http://corpus.byu.edu/)
- Monumenta Germaniae Historica (http://www.dmgh.de)
Digitale Textanalysewerkzeuge
- Voyant als Web-Tool (http://voyant-tools.org/)
- Voyant als lokale Installation (http://docs.voyant-tools.org/workshops/dh14/)
- TAPoR Tools (http://taporware.ualberta.ca/)
- AntConc (http://www.laurenceanthony.net/software.html)
- WordHoard (http://wordhoard.northwestern.edu/userman/index.html)
- WordSeer (http://wordseer.berkeley.edu/)
- WordHoard (http://wordhoard.northwestern.edu/userman/index.html)
- DocuScope (http://www.cmu.edu/hss/english/research/docuscope.html)
- MONK (http://monkpublic.library.illinois.edu/9)
- SEASR (http://www.seasr.org/)
- Überblick zu Textanalysetools auf TAPoR (http://www.tapor.ca/)
- Überblick zu Textanalysetools (und anderen DH-Tools) auf Bamboo (http://dirtdirectory.org/)
Natural Language Processing Tools zur „Vorverarbeitung
- WebLicht (http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page)
- TreeTagger (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)
- Stanford POS-Tagger (http://nlp.stanford.edu/software/tagger.shtml)
- Python NLTK (http://www.nltk.org/)
Literaturhinweise / Weblinks
- Blei, D. M. (2012) Probabilistic Topic Models. In Communications of the ACM 55(4), S. 77-84.
- Brett M. R. (2012). Topic Modeling: A Basic Introduction. In Journal of Digital Humanities 2(1).
- Busa, R. (1980). The annals of humanities computing: The index thomisticus. Computers and the Humanities, 14, 83–90. Retrieved from http://www.springerlink.com/index/C0LU521102H10283.pdf
- Eder, M., Kestemont, M., & Rybicki, J.: Stylometrie with R: a Suite of Tools.
- Jannidis, F. (2010). Methoden der computergestützen Textanalyse. In Nünning, V. & Nünning, A. (Hrsg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, S. 109-132. Stuttgart/Weimar: Metzler.
- Jockers, M. L. (2013). Macroanalysis: Digital Methods and Literary History (Topics in the Digital Humanities). University of Illinois Press. Retrieved from http://www.amazon.com/Macroanalysis-Digital-Methods-Literary-Humanities/dp/0252079078
- Lauer, G. (2013). Die digitale Vermessung der Kultur. In H. Geiselberger & T. Moorstedt (Eds.), Big Data: Das neue Versprechen der Allwissenheit. Berlin: Suhrkamp.
- Michel, J.-B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., … Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–82. http://doi.org/10.1126/science.1199644
- Moretti, F. (2000). Conjectures on world literature. New Left Review, (Jan / Feb), 54–68.
- Moretti, F. (2007). Graphs, Maps, Trees: Abstract Models for Literary History. Verso. Retrieved from http://www.amazon.com/Graphs-Maps-Trees-Abstract-Literary/dp/1844671852
- Nünning, V. & Nünning, A. (2010), Methoden der literatur- und kulturwissenschaftlichen Textanalyse. Stuttgart/Weimar: Metzler.
- Ransom, J. C. (1937). Criticism, Inc. The Virginia Quarterly Review, (Autumn). Retrieved from http://www.vqronline.org/essay/criticism-inc-0
- Rockwell, G. (2005). What is text analysis?Underwood, T. (June 4, 2015). Seven ways humanists are using computers to understand text. Available at <http://tedunderwood.com/2015/06/04/seven-ways-humanists-are-using-computers-to-understand-text/>
- Smith, L. I. (2002). A Tutorial on Principal Components Analysis.
- Wilhelm, T., Burghardt, M. & Wolff, C. (2013). „To See or Not to See“ – An Interactive Tool for the Visualization and Analysis of Shakespeare Plays. In Franken-Wendelstorf, R., Lindinger, E. & Sieck J. (eds): Kultur und Informatik – Visual Worlds & Interactive Spaces, Berlin (pp. 175-185). Glückstadt: Verlag Werner Hülsbusch.