Masterstudiengang Digital Humanities in Regensburg

Ab sofort ist die Webseite zum im WS 2017/18 beginnenden Masterstudiengang Digital Humanities online. Interessierte Studierende können sich bis spätestens 1. Juli 2017 bewerben.

Master Digital Humanities Regensburg

Für wen ist der Masterstudiengang interessant?

Ziel des Masterstudiengangs ist es, Studierende, die bereits einen geistes- oder kulturwissenschaftlichen Abschluss haben, methodisch weiter zu bilden. Hierzu gehört die Vermittlung anwendungsorientierter Kenntnisse in Programmierung, Datenerhebung und -auswertung sowie Sprach- und Texttechnologie. Als weiterführender Studiengang werden Studierende aufbauend auf diesen Kenntnissen dazu befähigt, selbstständig Projekte durchzuführen. Ein Schwerpunkt ist dabei die Fähigkeit, mit geeigneten digitalen Werkzeugen Textkorpora (z. B. digital vorliegende historische Quellen, Sprachkorpora oder Texte aus den sozialen Medien) zu analysieren und die Ergebnisse der Analysen in geeigneter Form zu interpretieren, aufzubereiten und diese zu kommunizieren.


Information Science and the Digital Humanities

ISI 2017 Workshop on the Relationship of Information Science and the Digital Humanities

Photo credits: The header image is kindly provided by Grégoire Jeanneau via

Date: March 15, 2017, 2 – 6 pm
Venue: Berlin School of Library and Information Science
Deadline for position papers: February 16, 2017
Workshop website:

Workshop organizers:

  • Manuel Burghardt (University of Regensburg, Media Informatics Group)
  • Markus Kattenbeck (University of Regensburg, Information Science Group)
  • Vivien Petras (Humboldt-Universität zu Berlin, Berlin School of Library and Information Science)


Digital technology is fundamentally changing the way how we do research (Berry, 2011). For the humanities, digital tools and resources are particularly challenging, as they study complex, highly ambiguous cultural artifacts (e.g. poems, paintings, symphonies) and therefore have a long tradition of using hermeneutic, qualitative methods. However, we are at a tipping point, where many of these cultural artifacts are available in digital form, and thus force the humanities to ask new questions and to apply new, quantitative methods (Jockers, 2013, p. 4). This development has been coined the digital humanities, and has been thriving over the last couple of years. While the digital humanities themselves are discussing about how to define and demarcate this new, interdisciplinary field of study (Berry, 2012; Gold, 2012; Terras, Nyhan, & Vanhoutte, 2013), information science is currently also discussing its relationship to the digital humanities (Balck et al., 2015; Balck, 2016; Burghardt, et al., 2015; Frank, 2016; Gladney, 2012; Hobohm, 2015; Robinson et al., 2015; Sula, 2013; White & Gilbert, 2016).

The goal of the ISI 2017 satellite workshop is to contribute to this ongoing discussion and to negotiate the relation of information science and the digital humanities by bringing together people from both fields. Workshop participants are asked to present concrete examples that highlight similarities and differences, synergies and rivalries between the two fields. On the basis of these examples, which may include personal experiences from research projects, curricula in academia, funding strategies, etc., we will systematically investigate the relation of information science and the digital humanities.


The satellite workshop will be held at the Berlin School of Library and Information Science and will begin after the official closing ceremony of the International Symposium of Information Science (ISI, 2017, on March 15, from 2 – 6 pm.

The workshop may be attended by (1) participants who want to present a specific example for the relation of information science and the digital humanities, and by (2) general participants, who want to join the discussion. This workshop is free of charge (workshop registration via email is required). If you are planning to participate in the workshop, please send an email to Manuel Burghardt ( or Markus Kattenbeck ( until February 16, 2017. The goal of the workshop presentations is to share different examples of projects / case studies / curricula / etc. that are stimulating discussions about the relation of the two fields. Potential topics for short workshop presentations include the following:

  • Relationship of curricula in DH and IS
  • Teaching information literacy for the humanities
  • Digital libraries and research data management for the humanities
  • Information infrastructures and virtual research environments for the humanities
  • Information behavior in the humanities
  • Humanist-computer interaction: Tool science and user interface design

If you are going to present an example in the workshop, please attach a short position paper that summarizes your personal opinion on the relation of information science and the digital humanities (1-2 pages) based on any of the these topics. Participants who have had their position paper accepted by the workshop organizers will have approx. 15 minutes of time to present their topic and position to the other participants. All presentations will be discussed in the workshop to investigate the relationship of information science and the digital humanities. There will also be final discussion to wrap up the overall workshop topic.


  • Balck, S., Büttner, S., Ducks, D., Lehfeld, A.-S., Schneider, E., & Vietze, E. (2015). Mit den Informationswissenschaften von Daten zu Erkenntnissen. In DHd 2015, Graz.
  • Balck, S. (2016). (X)Disziplinarität der Informationswissenschaft. LIBREAS. Library Ideas, 30.
  • Berry, D. M. (2011). The Computational Turn. Thinking About the Digital Humanities.
  • Berry, D. M. (2012). Understanding Digital Humanities. Palgrave Macmillan.
  • Burghardt, M., Wolff, C., & Womser-Hacker, C. (2015). Informationswissenschaft und Digital Humanities. Information – Wissenschaft & Praxis, 66(5–6), 287–294.
  • Frank, I. (2016). Fortschritt durch Rückschritt — vom Bibliothekskatalog zum Denkwerkzeug. Eine Idee. LIBREAS. Library Ideas, 30.
  • Gladney, H. M. (2012). Long-term digital preservation: A digital humanities topic? Historical Social Research, 37(3), 201–217.
  • Gold, M. K. (2012). Debates in the Digital Humanities. Minneapolis: University of Minnesota Press.
  • Jockers, M. L. (2013). Macroanalysis. Digital Methods & Literary History. University of Illinois Press.
  • Hobohm, H.-C. (2015). Transdisziplinäre Aspekte der Informationswissenschaften als Kernaufgaben der Informationsberufe. In Informationswissenschaft: Theorie, Methode und Praxis / Sciences de l’information: théorie, méthode et pratique, 4(1).
  • Robinson, L., Priego, E., & Bawden, D. (2015). Library and Information Science and Digital Humanities: Two Disciplines , Joint Future? In C. Pehar, F.; Schlögl, C. & Wolff (Ed.), Re:inventing Information Science in the Networked Society. Proceedings of the 14th International Symposium on Information Science, ISI 2015 (pp. 44–54). Glückstadt: Verlag Werner Hülsbusch.
  • Sula, C. A. (2013). Digital Humanities and Libraries: A Conceptual Model. Journal of Library Administration, 53(1), 10–26.
  • Terras, M., Nyhan, J., & Vanhoutte, E. (2013). Defining Digital Humanities – A Reader. Farnham (UK): Ashgate Publishing.
  • White, J. W. & Gilbert, H. (2016). Laying the Foundation. Digital Humanities in Academic Libraries. Purdue University Press.

*Photo credits: The header image is kindly provided by Grégoire Jeanneau via

Syllabus – Introduction to DH and Text Analysis

I have recently adjusted the syllabus of my course on digital humanities and text analysis and wanted to share some of the methods, tools and resources that I currently use. For some great tutorials and exercises on computer-based text analysis, you might want to check out the following:

Preliminary remarks

The target audience for the course are students in the media informatics Master’s program, i.e. students have a background in programming and data modelling. The course is divided in 3 phases: During phases 1+2, students spend 2×2 hours per week in class and learn the fundamentals of digital humanities and text analysis. Phase 3 is a free project phase, where groups of students work on their individual digital humanities projects and regularly meet with the lecturer to discuss the progress of their project.

Phase 1: Introduction to Digital Humanities

Week 1a

  • General introduction to the course
  • Introducing the DSH reading challenge: throughout the course, each student will present a preselected paper from the Digital Scholarship in the Humanities journal by summarizing its basic research goals, methods and results in 5 minutes (+5 minutes of general discussion)

Reading assignment: Prensky, M. (2001). Digital Natives, Digital Immigrants Part I. On the Horizon, 9(6), 1–6.

Week 1b

  • Discussing the „digital“ and its implications, as in digital revolution, digital society, digital culture, digital natives,

Reading assignment: Snow, C. P. (1959). The Two Cultures. London: Cambridge University Press.

Week 2a

  • Discussing „humanities“
  • What is special / challenging about digital humanities? Can you adopt the idea of digital natives and digital immigrants to scholarly disciplines?

Reading assignment: Michel, J.-B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., … Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–82.


Reading assignment: Svensson, P. (2010). The Landscape of Digital Humanities. Digital Humanities Quarterly, 4(1), 1–31.


  • Defining the digital humanities: Overview and discussion of existing definitions
  • Working definition for the course:
    (1) DH as use of digital tools / methods / resources in the humanities, and
    (2) DH as humanities, investigating digital culture.


  • Basic introduction to literary studies
  • Overview of literary theories and typical research questions in that field
  • Exercise: Analyzing “Every breath you take” in class

Reading assignment: Moretti, F. (2000). Conjectures on world literature. New Left Review, (Jan / Feb), 54–68.

Phase 2: How to do digital humanities? A hands-on introduction to computer-based text analysis.


  • Introduction to (close and) distant reading
  • Examples for the application of distant reading approaches
  • Tools for distant reading (Voyant, To See or Not to See)



  • Introduction to data cleaning with the bash command line and regular expressions
  • Tools: UnixShell, CygWin


  • Beyond raw text – annotating with XML / TEI
  • Utilizing document markup with XSLT



  • Analyzing text: frequencies, concordances and collocations
  • Tools: Voyant, AntConc


  • How to interpret frequencies ­– Introduction to statistics
  • Tool: R studio


  • Introducion to stylometry
  • Tool: R Stylo


  • Introduction to topic modeling
  • Tool: MALLET


  • Distant reading the DSH: throughout the course, students have “close read” and discussed typical articles from the DSH journal – at the end of the course, we apply frequency lists and topic modeling to a larger corpus of DSH articles.

Phase 3: DH projects

Students work on their own research projects and apply text analysis techniques

Example topics:

  • Stylistic change in the different editions of the fairytales by brothers Grimm’s
  • Intertextuality: Shakespeare in literature / film / lyrics
  • Quantitative analysis of drama according to speakers, structure, speech, etc.
  • etc.


Masterstudiengang „Digital Humanities“ an der Universität Regensburg

Im Rahmen des Förderprogramms „Digitaler Campus Bayern“ fördert das Bayerische Ministerium für Bildung und Kultus, Wissenschaft und Kunst ein kooperatives Studienprogramm der Universitäten Regensburg, Erlangen-Nürnberg und München im Bereich „Digital Humanities“. In Regensburg wird dabei ein Masterstudiengang „Digital Humanities“ entstehen, der zum WS 2017/2018 startet.

Ausführliche Informationen finden sich in der offiziellen Pressemitteilung (Originalquelle).

Pressemitteilung vom 10. Oktober 2016

Für die Jahre 2016 bis 2020 hat das Bayerische Ministerium für Bildung und Kultus, Wissenschaft und Kunst für ein von den Universitäten Regensburg, Erlangen-Nürnberg und München geplantes, kooperatives Studienangebot im Bereich Digital Humanities eine Anschubfinanzierung von bis zu 3,6 Millionen Euro genehmigt. Finanziert wird diese Förderung aus dem Innovationsprogramm „Digitaler Campus Bayern“ der Bayerischen Staatsregierung; dessen Ziel ist es, die bayerischen Hochschulen beim Aufbau von informationstechnischer Infrastruktur oder der Einrichtung von neuen Studienangeboten in den digitalen Technologien zu unterstützen.

Das kooperative Studienangebot bezieht den Forschungsbereich der Digital Humanities unter Beteiligung der Social Sciences in die Lehre ein. Digital Humanities umschreibt das Vorgehen, in den Geistes- und Kulturwissenschaften moderne Informationstechnologien und digitale Ressourcen für die wissenschaftliche Arbeit zu verwenden. Die Kooperation der drei Universitäten sieht dabei die Einrichtung bzw. den Ausbau von Studiengängen an den drei Standorten vor. Dabei profitieren die Studierenden in besonderer Weise von standortübergreifenden Veranstaltungen wie z.B. jährlichen Summer Schools, und der Öffnung von Lehrangeboten über die Standorte und Studiengänge hinweg.
Im Einzelnen entwickeln die Studiengänge unterschiedliche inhaltliche Schwerpunkte und richten sich an je spezifische Zielgruppen:

In Regensburg werden Prof. Dr. Christian Wolff, Inhaber des Lehrstuhls für Medieninformatik, und Prof. Dr. Bernd Ludwig vom Lehrstuhl für Informationswissenschaft den Master-Studiengang „Digitale Medien in den Geistes- und Kulturwissenschaften“ einrichten. Der Studiengang startet voraussichtlich im Wintersemester 2017/18 und richtet sich insbesondere an Lehramtsstudierende in den geistes- und kulturwissenschaftlichen Fächern. Absolventen des Fachs sollen in der Lage sein, Tätigkeiten mit IT-Bezug und fachlicher Nähe zu den B.A.-Studienfächern außerhalb des Lehramts zu übernehmen. Innerhalb des Lehramts sollen sie digitale Arbeitstechniken über das bisherige Maß hinaus in die jeweiligen Fächer einbringen können.

Die Gesamtkoordination des kooperativen Studienangebots liegt bei Prof. Dr. Heidrun Stein-Kecks vom Institut für Kunstgeschichte an der Friedrich-Alexander Universität Erlangen-Nürnberg. Sie ist zugleich Sprecherin des Interdisziplinären Zentrums Digitale Geistes- und Sozialwissenschaften, das für Konzept und Durchführung des Studiengangs verantwortlich zeichnet.
In Erlangen wird der grundständige Bachelor-Studiengang „Digitale Geistes- und Sozialwissenschaften“, der bisher nur im Zweitfach studierbar war, ausgebaut. Der Studiengang ist breit gefächert angelegt und führt in interdisziplinärer Vernetzung in das neue Forschungsfeld ein. Durch die Kooperation mit der Technischen Fakultät gewinnt der Studiengang ein ausgeprägtes informationstechnologisches Profil. Besondere thematische Schwerpunkte liegen in den Bereichen Bild und Medien, Sprache und Text sowie Raum und Gesellschaft. Praxis- und projektorientierte Module zielen auf eine anwendungsorientierte Verzahnung der Informatik und der Digitalen Geistes- und Sozialwissenschaften, wobei ein besonderes Augenmerk auch auf die Reflexion der Auswirkungen der Digitalisierung auf Gesellschaft und Wissenschaft gelegt wird. Individuelle Schwerpunktsetzungen in einem freien Wahlbereich führen zu spezifischen Vertiefungen, auch im Hinblick auf die Kombination mit einem weiteren Fach aus dem Studienangebot der großen Philosophischen Fakultät und Fachbereich Theologie. Die fundierten fachlichen und methodischen Kompetenzen im Umgang mit digitalen Technologien in Wissenschaft und Gesellschaft eröffnen den Studierenden attraktive Perspektiven in dynamisch wachsenden Forschungs- und Arbeitsfeldern an den Schnittstellen von Technologie, Gesellschaft und Kultur.

In München ist Dr. Christian Riepl, Leiter der IT-Gruppe Geisteswissenschaften, Ansprechpartner für das Projekt. Zusammen mit den sprachwissenschaftlichen Disziplinen koordiniert er die Einrichtung des optionalen BA-Nebenfaches „Digital Humanities – Sprachwissenschaften“ an der Fakultät für Sprach- und Literaturwissenschaften der LMU: die Förderung im Rahmen des„Digitalen Campus Bayern“ bietet hier die Möglichkeit, das seit vielen Jahren in der Forschung und forschungsnahen Lehre unter anderem in den Bereichen Korpuslinguistik, Geolinguistik, perzeptive Linguistik und Sprachgeschichte gewonnene IT-Wissen grundlegend und systematisch zu sammeln, im Rahmen eines optionalen Nebenfaches „Digital Humanities – Sprachwissenschaften“ in bestehende BA-Studiengänge der großen sprachwissenschaftlichen Disziplinen (Anglistik, Germanistik, Romanistik,) zu integrieren und fachnah in der sprachwissenschaftlichen Praxis zu vermitteln. Das Vorhaben kann in München an ein bereits in der ersten Antragsrunde des „Digitalen Campus Bayern“ bewilligtes Projekt „IT-for-all: Digitale Datenanalyse in den Geschichts- und Kunstwissenschaften“ anknüpfen und die dort entstandene digitale Lehr- und Forschungsinfrastruktur DH-VLab technisch weiterentwickeln und fachlich ausbauen.

DH Conference 2016: Music and Movie Analysis


Photo credit: Christian Wolff

This year, Kraków is the venue of the international Digital Humanities conference. The Media Informatics Group from Regensburg will present two projects on the computer-based analysis of music and movies.

The complete conference proceedings are available here:

1. Computer-based Analysis of Movies

Beyond Shot Lengths – Using Language Data and Color Information as Additional Parameters for Quantitative Movie Analysis

Film studies make use of both, qualitative as well as quantitative methods. While there is a large variety of qualitative approaches to analyze movies, most quantitative attempts seem to be focused on the analysis of the length and frequency of a film’s shots. Cinemetrics been suggested as a term to describe these quantitative, shot-based approaches for analyzing movies. For a comprehensive overview of Cinemetrics-related research cf. the bibliography compiled by Mike Baxter. Cinemetrics is also the name of a large online database that contains information about shot lengths and frequencies for several thousand films.

In our  project we suggest to go „beyond shot lengths“, which means to enhance the existing, shot-focused approaches to quantitative movie analysis by considering additional parameters, such as language and color use.

color-subtitlesWe present a prototype that can be used to automatically extract and analyze these parameters from movies and that makes the results accessible in an interactive visualization.


2. Computer-based Analysis of Music

Tool-based Identification of Melodic Patterns in MusicXML Documents

Computer-based methods in musicology have been around at least since the 1980s. Typically, quantitative analyses of music rely on music information retrieval (MIR) systems, which can be used to search collections of songs according to different musicological parameters. There are many examples for existing MIR systems, all with specific strengths and weaknesses. Among the main downsides of such systems are:

  • Usability problems, i.e. tools are cumbersome to use, as they oftentimes only provide a command-line interface and also require some basic programming skills to utilize them; example: Humdrum
  • Restricted scope of querying, i.e. tools can only be used to search for musical incipits; examples: RISM, HymnQuest
  • Restricted song collection, i.e. tools can only be used for specific collections of music files; various examples of MIR tools for specific collections are described in Typke et al. (2005)

To make up for these existing downsides, we designed MusicXML Analyzer, a generic MIR system that allows for the analysis of arbitrary documents encoded in MusicXML format.

Frameworks used for MusiXML Analyzer

  • Laravel: PHP framework
  • jQuery: JavaScript framework
  • Bootstrap: CSS framework
  • D3.js: JavaScript library for visualization / diagrams
  • Typed.js: JavaScript library for status messages
  • Dropzone.js: JavaScript library for file upload
  • jsPDF: JavaScript library for PDF export
  • Vexflow: JavaScript library for the creation of virtual scores
  • Midi.js: JavaScript library for the creation of midi files


Typke, R., Wiering, F. and Veltkamp, R. C. (2005). A survey of music information retrieval systems. Proceedings of the 6th International Conference on Music Information Retrieval (ISMIR) 2005, pp. 153–160.


Kooperationsvereinbarung mit dem Haus der Bayerischen Geschichte

Das Haus der Bayerischen Geschichte arbeitet mit den Medieninformatik-Lehrstühlen der Universität Regensburg und der Ostbayerischen Technischen Hochschule (OTH) Amberg-Weiden zusammen, um Geschichte innovativ und digital zu erzählen.

Am 15. Juni 2016 wurde nun durch Dr. Ludwig Spaenle, bayerischer Staatsminister für Bildung und Kultus, Wissenschaft und Kunst, Prof. Dr. Udo Hebel, Präsident der Universität Regensburg und Prof. Dr. Andrea Klug, Präsidentin der OTH Amberg- Weiden, feierlich eine Kooperationsvereinbarung unterzeichnet.


Unterzeichnung der Kooperationsvereinbarung mit dem Haus der Bayerischen Geschichte.

Unsere Digital Humanities-Arbeitsgruppe wird in dieser Kooperation das Haus der Bayerischen Geschichte mit innovativen Ideen und Konzepten im Bereich „digitales Museum“ unterstützten. Erste Prototypen, etwa ein interaktives Dialektquiz, liegen bereits vor, weitere Projekte werden im laufenden Medieninformatik-Forschungsseminar (SS 2016) „Kulturinformatik: Museum digital, Kulturportale“ entwickelt.

Katharsis – Ein Werkzeug für die quantitative Dramenanalyse

Von 7. – 8. Juni findet an der Universität Hamburg das Forum CA3 2016 statt, bei dem CLARIN-D seine „Angebote zum Auffinden, Auswerten und Aufbewahren von Sprachressourcen für die Forschung und Lehre in den Geistes- und Sozialwissenschaften vorstellt“. Neben einem spannenden Vortragsprogramm mit mehreren Keynotes wird es auch eine Hands-On Session zur Präsentation von digitalen Werkzeugen und Nutzerszenarien geben.

Wir stellen im Zuge dessen unseren Prototypen Katharsis vor, ein webbasiertes Tool zu quantitativen Analyse von Dramen.


Abstract (PDF):

Bibliographische Angaben: Manuel Burghardt, Katrin Dennerlein, Thomas Schmidt, Johanna Mühlenfeld & Christian Wolff (2016). Katharsis – Ein Werkzeug für die quantitative Dramenanalyse. CLARIN-D Forum CA3, 7.-8. Juni 2016, Hamburg.

Mit dem Begriff des „Distant Reading“ führt Moretti (2000) einen zentralen Begriff in den Digital Humanities ein, der zu einer anhaltenden Diskussion um quantitative Methoden in der Literatur- und Kulturwissenschaft führte. Vor diesem Hintergrund sind Dramen eine besonders interessante literarische Gattung, da sie neben dem eigentlichen Text weitere gut quantifizierbare Elemente, wie etwa ein abgeschlossenes Figureninventar sowie eine Akt-/Szenenstruktur, beinhalten. Dementsprechend finden sich frühe Belege für eine „mathematische Poetik“ (Marcus, 1970), welche interessante Ansätze für die quantitative Dramenanalyse beinhaltet. Ein zentraler Begriff ist hier die „Konfiguration“, welche im Wesentlichen die Menge aller Figurenkonstellationen innerhalb eines Stücks beschreibt. Eine typische Form der Visualisierung dafür ist die sogenannte Konfigurationsmatrix, welche das Auftreten aller Figuren in allen Szenen zusammenfassend darstellt und darüber hinaus die Berechnung einer Konfigurationsdichte als Indiz für die Populationsdichte innerhalb eines Dramas erlaubt. Auch viele Jahre nach Marcus sind quantitative Dramenanalyseansätze weiterhin populär, was u.a. durch aktuelle Digital Humanities-Projekte in diesem Bereich belegt wird (vgl. Ilsemann, 2013; Trilcke et al., 2015; Wilhelm et al. 2013).

Mit Katharsis präsentieren wir einen Prototypen, mit dem es möglich ist ein Korpus aus ca. 100 deutschen Dramen (verfügbar über das TextGrid-Repository: automatisch anhand ihrer Konfigurationen zu analysieren und die Ergebnisse in einer interaktiven Webschnittstelle darzustellen. Im Ergebnis können so beliebige Dramen ausgegeben und anhand quantitativer Parameter, wie etwa der Anzahl der Akte, der Figuren, der Konfigurationsdichte, der Replikenzahl und der Replikenlänge, verglichen werden (vgl. Abb. 1 und Abb. 2). Zusätzlich kann jedes Drama mit entsprechenden Detailanalysen in Form einer interaktiven Konfigurationsmatrix dargestellt werden (vgl. Abb. 3). Erste Fallstudien mit dem Katharsis-Prototypen wurden bereits erfolgreich durchgeführt (Dennerlein, 2015).

katharsis-1Abb. 1: Quantitative Informationen für alle Dramen Friedrich Schillers (innerhalb des Katharsis-Korpus).

katharsis-2Abb. 2: Vergleichende Analyse für alle Dramen im Katharsis-Korpus.

katharsis-3Abb. 3: Ausschnitt aus der interaktiven Konfigurationsmatrix für Schillers Stück “Maria Stuart”.


LREC 2016

Die 10. internationale Konferenz „Language Resources and Evaluation“ (LREC) findet in diesem Jahr von 23. – 28. Mai in Portorož (Slowenien) statt. Wie Nicoletta Calzolari (Conference Chair) in ihrer Eröffnung anmerkte, ist die LREC laut Google Scholar-Ranking nach ACL, EMNLP und NAACL die wichtigste Konferenz im Bereich Computational Linguistics. Weiterhin wurden einigen interessante Auswertungen zu den LREC 2016-Einreichungen gezeigt: So sind die in den Beiträgen mit Abstand am häufigsten beschriebenen linguistischen Resourcen Korpora und Lexika sowie auch Tagger/Parser, Treebanks, Evaluationsdatensätze, generische Software Toolkits, Annotationstools, Korpustools, Ontologien u.v.m. Über 3/4 der Ressourcen beschäftigt sich mit geschriebener Sprache, der Rest mit gesprochener Sprache, Zeichensprache oder mit multimodalen Sprachdaten.

Aus Regensburg wurde auf der LREC 2016 ein Beitrag zur Erstellung eines Dialektlexikons des Bayerischen mithilfe von Facebookgruppen präsentiert. Dabei werden die Daten automatisiert aus einer offenen Facebookgruppe, die hauptsächlich in Dialekt schreibt, extrahiert. Im nächsten Schritt übersetzen die Mitglieder dieser Gruppe mithilfe eines selbst entwickelten Crowdsourcingtools die häufigsten Dialektwörter. Der Foliensatz zum Vortrag findet sich hier:


Der entsprechende Artikel ist über die LREC-Proceedings frei verfügbar:

Abstract: Data acquisition in dialectology is typically a tedious task, as dialect samples of spoken language have to be collected via questionnaires or interviews. In this article, we suggest to use the “web as a corpus” approach for dialectology. We present a case study that demonstrates how authentic language data for the Bavarian dialect (ISO 639-3:bar) can be collected automatically from the social network Facebook. We also show that Facebook can be used effectively as a crowdsourcing platform, where users are willing to translate dialect words collaboratively in order to create a common lexicon of their Bavarian dialect. Key insights from the case study are summarized as “lessons learned”, together with suggestions for future enhancements of the lexicon creation approach.

Auch das Thema „Digital Humanities“ scheint auf der LREC zunehmend an Bedeutung zu gewinnen, was sich u.a. an einer eigenen DH-Session mit den folgenden Themen zeigt:

Weitere Dialekt-Ressourcen im Web:

DH-Blockseminar für angehende Bibliothekare

Am 18.4.2016 wurde von Manuel Burghardt und Christian Wolff ein 6-stündiger Digital Humanities-Blockkurs an der Fachhochschule für öffentliche Verwaltung und Rechtspflege (FHVR) im Fachbereich Archiv- und Bibliothekswesen (München) abgehalten. Dabei wurden zum einen Geschichte und Entwicklung sowie zentrale Konzepte und Herausforderungen der Digital Humanities vorgestellt, und zum anderen in einer praktischen Übung computer-basierte Textanalysen mit dem Online-Tool Voyant mit den Seminarteilnehmern erprobt.

Aus dem offiziellen Kurskommentar:

Die Durchdringung aller Wissenschaftsbereiche durch Informationstechnologie prägt auch die geistes- und kulturwissenschaftlichen Fächer. Neben der Unterstützung der wissenschaftlichen Arbeit durch geeignete Werkzeuge verändern sich auch die Methoden und Fragestellungen. Unter dem Schlagwort „Digital Humanities“ werden diese Entwicklungen gemeinhin zusammengefasst.

Der Blockkurs zeigt in zwei Vorlesungsblöcken kurz die Geschichte und die rasante Entwicklung der Digital Humanities auf und macht dabei deutlich, warum der Einsatz computergestützter Methoden in den Geisteswissenschaften – anders als etwa in den Naturwissenschaften – besondere Herausforderungen mit sich bringt. Durch zahlreiche praktische Beispiele wird das breite Spektrum der aktuellen Digital Humanities-Landschaft anschaulich gemacht und ein kurzer Überblick zu bestehenden Tools und Methoden in den Digital Humanities gegeben.

In einer gemeinsamen Übung wird schließlich ein exemplarisches Tool zur computergestützten Textanalyse vorgestellt und zusammen mit den Kursteilnehmern erprobt.

Für alle Interessierten finden sich hier die entsprechenden Kursmaterialien:


Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften

Manuel Burghardt und Christian Wolff sprechen im Rahmen der DH-Summerschool in München, am 29.7.2015 zum Thema „Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften“. Dieser Blogpost soll einerseits den Teilnehmenden der Summerschool als Plattform zum Download bzw. zur Verlinkung relevanter Ressourcen dienen, und mag andererseits auch für all diejenigen interessant sein, die sich erstmals mit dem Thema automatische Textanalyse beschäftigen.




Im Rahmen dieser Übung wird ein digitalisierter Text mit dem frei verfügbaren Web-Tool Voyant automatisch analysiert. Dabei sollen die folgenden Fragen Schritt für Schritt beantwortet werden:

  1. Aus wie vielen types und tokens besteht der Text?
  2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
  3. Welche Wortarten kommen am häufigsten vor?
  4. Welche Adjektive (Lemmata) kommen am häufigsten vor?
  5. Welche Kollokationen kommen im Text vor?

Zuletzt soll schließlich noch gezeigt werden, wie mit Voyant mehrere Texte anhand der oben genannten Parameter verglichen werden können

Download des Übungstexts

Als Übungstext wird das erste Kapitel von Franz Kafkas „Der Prozess“ verwendet, welcher über Projekt Gutenberg-DE frei verfügbar ist.

  • Eine grundlegend normalisierte Version des Texts finden Sie hier: kafka.txt

Foto 2

1. Aus wie vielen types und tokens besteht der Text?

Schritt 1 – Aufruf des Tools

Navigieren Sie nun zum Web-Tool Voyant:

Hinweis: Für die weitere Vertiefung finden Sie ein Tutorial zum Tool unter „Voyant Getting started

Schritt 2 – Importieren des Übungstexts

Importieren Sie den Kafka-Text in Voyant indem Sie …

  • die heruntergeladene Datei „kafka.txt“ über den Upload-Dialog hochladen,
  • oder die heruntergeladene Datei „kafka.txt“ öffnen, und den Text über copy-paste in das Formularfeld einfügen,
  • oder den Link zur TXT-Datei „kafka.txt“ in das Formularfeld kopieren.

Schritt 3 – Analyse des Texts auf Types und Tokens

Betrachten Sie die Standard-Analyse von Voyant:

  • Was ist grundlegend zu sehen?
  • Aus wie vielen tokens besteht der Text?
  • Aus wie vielen types besteht der Text, und was hat es in Voyant mit sog. „unique words“ auf sich?


Um types auszählen lassen zu können, müssen die Wörter zunächst auf ihre Grundformen (Lemmata) reduziert werden.

Zwischenschritt (wurde bereits vorbereitet)

Für die Beantwortung der weiteren Fragen ist eine grundlegende Wortartenannotation und Grundformenreduktion nötig. Der Übungstext wurde mit dem TreeTagger automatisch lemmatisiert und nach Wortarten annotiert (Tagset: STTS). Das Ergebnis der Annotation wurde als XML-Datei gespeichert.

Ein vollständiges Tutorial zur Erstellung eigener annotierter Ressourcen mit dem Onlinedienst WebLicht finden Sie hier: WebLicht-Tutorial

  • Download: Den Kafka-Text mit grundlegender POS-Annotation und Lemmatisierung finden Sie hier: kafka.xml

2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?

Schritt 1 – Betrachten der XML-Datei „kafka.xml“

Öffnen Sie die XML-Datei „kafka.xml“ in einem beliebigen Editor, und betrachten Sie deren grundlegende Struktur.

  • Welche Informationen sind als Annotationen im Dokument hinzugefügt worden?

Exkurs – Selektion spezifischer Dokumentteile mit XPath

XPath ist ein einfacher Selektionsmechanismus, mit dem Sie spezifische Dokumentteile in einem XML-Dokument auswählen können.


Schritt 2 – Hochladen der XML-Datei auf Voyant und Definition eines XPath-Ausdrucks

Navigieren Sie abermals zur Startseite von Voyant. Nun soll allerdings nicht der gesamte Text eingelesen werden, sondern nur die Wörter, die innerhalb eines <lemma>-Tags stehen. Klicken Sie hierzu auf das kleine Zahnrad und definieren Sie im Feld „XPath to content“ den folgenden XPath-Ausdruck:


XPath-Voyant-01Laden Sie nun über den Upload-Dialog die Datei „kafka.xml“ hoch. Das Ergebnis ist eine Voyant-Analyse über der Lemma-Teilmenge des Dokuments, also ausschließlich der Grundformen.


Nicht ganz unerwartet sind in unserem Übungstext bestimmte und unbestimmte Artikel, Konjunktionen, Personalpronomen, etc. besonders hochfrequent. Da solche Wörter typischerweise keine oder nur geringe semantische Aussagekraft haben – man spricht auch von sogenannten Synsemantika – werden sie meist mithilfe von Stoppwortlisten von der Korpusanalyse ausgenommen. Auch Voyant stellt solche Stoppwortlisten bereit, die bei Bedarf an spezifische Anwendungszwecke angepasst werden können.

Schritt 3 – Anwendung der deutschen Stoppwortliste

Wenden Sie die deutsche Stoppwortliste in Voyant (Wordcloud-Fenster > „Zahnrad-Icon“ > „Stop Word Lists“ > „German“) auf das Lemma-Teilkorpus an. Markieren Sie außerdem die Checkbox „Apply Stop Words Globally“, damit die Stoppwortliste auch für andere Analysedarstellungen in Voyant angewendet wird, und Sie eine konsistente Analyse bekommen.


Nach Anwendung der Stoppwortliste zeigt sich, dass relativ viele „unknowns“ im Text sind.

Zur Erläuterung: Wo sich der TreeTagger nicht sicher ist, wie das Lemma oder die Wortart eines Wortes lautet, trägt das Programm den Wert „unknown“ ein.

Schritt 4 – XPath-Ausdruck zur Analyse der unknowns

Formulieren Sie nun in Voyant einen XPath-Ausdruck, der den Inhalt aller Wort-Elemente selektiert, welche im Lemma-Tag den Wert „unknown“ haben:

  • Ist plausibel warum der TreeTagger gerade diese Wörter nicht erkannt hat?

3. Welche Wortarten kommen am häufigsten vor?

Nachdem bereits XPath-Abfragen zur Lemma-Information einzelner Wörter erstellt wurden, soll nun die Wortarten-Information abgefragt werden. Definieren Sie in Voyant einen XPath-Ausdruck der alle Wortarten-Werte selektiert:


Die Wortarten sind mithilfe der Kürzel aus dem STTS getaggt worden. Es zeigt sich, dass „normale Nomen“ (NN), „Personalpronomen“ (PPER), und „Adverbien“ (ADV) zu den drei häufigsten Wortarten gehören.

4. Welche Adjektive (Lemmata) kommen am häufigsten vor?

Definieren Sie nun in Voyant einen XPath-Ausdruck, der alle Lemmata selektiert die Adjektive sind:


5. Welche Kollokationen kommen im Text vor?

Voyant hält eine Vielzahl unterschiedlicher Analysetools und Visualisierungen bereit.

Eine ausführliche Erklärung all dieser Tools finden Sie hier:

Schritt 1

Laden Sie wiederum den Kafka-Text (kafka.xml) hoch und selektieren Sie alle Lemmata (siehe Aufgabe 2).


Schritt 2

Wenden Sie die deutsche Stoppwortliste an, und ergänzen Sie das Wort „unknown“, um alle unbekannten Lemmata aus der Analyse auszunehmen.

Schritt 3

Öffnen Sie nun das Tool „Collocate Clusters“ im Fenster links, Mitte  („Summary“) über das Diskettensymbol > „URL for a different tool / skin and current data“ > „Collocate Cluster“ > „Open this URL in a new window“.

collocate-clustersSchritt 4

Analyse der Kollokationen

 6. Vergleich von mehreren Texten

Schritt 1 – Herunterladen weiterer Kafka-Texte

Nun sollen mehrere Texte miteinander verglichen werden. Laden Sie sich hierzu zwei weitere Kafka-Texte herunter:

Originalquelle Projekt Gutenberg-DE:

Download der normalisierten Textdateien:

Der Einfachheit halber können Sie einfach die folgenden Links in das Voyant-Formular kopieren:

 Schritt 2 – Vergleichende Analyse der Texte

voyant-textvergleichOnline-Version der obigen Analyse.

Digitale Textsammlungen im Web

Digitale Textanalysewerkzeuge

Natural Language Processing Tools zur „Vorverarbeitung

Literaturhinweise / Weblinks