Kategorie: Ressourcen

Vortrag: „More Than Words – Computergestützte Erschließungsstrategien und Analyseansätze für handschriftliche Liedblätter“

Manuel Burghardt

Vortrag im Rahmen des DH-Kolloquiums der Berlin-Brandenburgischen Akademie der Wissenschaften

Abstract

Unter dem Schlagwort Digital Humanities wird gemeinhin der Einsatz digitaler Ressourcen und computergestützter Methoden in den Geisteswissenschaften zusammengefasst. Vor dem Hintergrund bestehender Methoden im Bereich der Korpus- und Computerlinguistik liegt hier bislang ein starker Fokus auf textbasierten Wissenschaften (vgl. etwa das Konzept des Distant Reading). In zunehmendem Maße rücken in den Digital Humanities nun aber auch andere geisteswissenschaftliche Disziplinen in den Fokus computergestützter Modellierungs- und Analyseversuche, etwa im Bereich der Kunstgeschichte (Bild), der Filmwissenschaft (Film) und der Musikwissenschaft (Musik). Entsprechend ist der Vortrag im Schnittfeld von Digital Humanities und Musikwissenschaft zu verorten. Dabei sollen anhand eines konkreten Projekts zur Digitalisierung einer großen Sammlung handschriftlicher Liedblätter grundlegende Möglichkeiten und Methoden zu Erschließung, Repräsentation und Analyse von notierter Musik aufgezeigt werden. Wenngleich an vielen Stellen Parallelen zu Methoden und Verfahren aus den textbasierten Geisteswissenschaften offenkundig werden, so wird doch auch deutlich, dass es sich bei „Notentext“ um mehr als nur Wörter handelt und sich somit einige Besonderheiten und Herausforderungen bei der Digitalisierung ergeben.

Zum Thema Erschließung werden im Rahmen des Vortrags zunächst bestehende Tools aus dem Bereich der optical music recognition (OMR) vorgestellt, die allerdings für handschriftlich notierte Musik nur begrenzt einsetzbar ist (Burghardt et al., 2017). Als Alternative wird ein Crowdsourcing-Ansatz zur Transkription der Melodien vorgestellt (Meier et al., 2015; Burghardt & Spanner, 2017). Weiterhin zeigt der Vortrag unterschiedliche Ebenen der Repräsentation von Melodien auf, bspw. als exakt notierte Melodie, als Abfolge von Intervallen oder als abstrakte Melodiekontur (Parsons Code). Außerdem werden bestehende Speicherformate für die Repräsentation von Musikinformation (bspw. MusicXML und MEI) vorgestellt und diskutiert. Im letzten Teil des Vortrags werden schließlich grundlegende Möglichkeiten der computergestützten Analyse digitalisierter Musikdaten aufgezeigt und dabei grundlegende Konzepte des music information retrieval, insbesondere der melodic similarity, eingeführt (Burghardt et al., 2015; Burghardt et al., 2016; Burghardt & Lamm, 2017). Darüber hinaus soll aufgezeigt werden, welche neuartigen Fragestellungen durch computergestützte Ansätze in der Musikwissenschaft bearbeitet werden können.

Literatur

  • Burghardt, M., & Lamm, L. (2017). Entwicklung eines Music Information Retrieval-Tools zur Melodic Similarity-Analyse deutsch-sprachiger Volkslieder. In M. Eibl & M. Gaedke (Eds.), INFORMATIK 2017, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik – Workshop „Musik trifft Informatik“ (pp. 15–27). Bonn: Springer.
  • Burghardt, M., & Spanner, S. (2017). Allegro: User-centered Design of a Tool for the Crowdsourced Transcription of Handwritten Music Scores. In Proceedings of the DATeCH (Digital Access to Textual Cultural Heritage) conference. ACM.
  • Burghardt, M., Spanner, S., Schmidt, T., Fuchs, F., Buchhop, K., Nickl, M., & Wolff, C. (2017). Digitale Erschließung einer Sammlung von Volksliedern aus dem deutschsprachigen Raum. In Book of Abstracts, DHd 2017.
  • Burghardt, M., Lamm, L., Lechler, D., Schneider, M., & Semmelmann, T. (2016). Tool‑based Identification of Melodic Patterns in MusicXML Documents. In Book of Abstracts of the International Digital Humanities Conference (DH).
  • Burghardt, M., Lamm, L., Lechler, D., Schneider, M., & Semmelman, T. (2015). MusicXML Analyzer – Ein Analysewerkzeug für die computergestützte Identifikation von Melodie-Patterns. In Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop (HiER 2015) (pp. 29–42).
  • Meier, F., Bazo, A., Burghardt, M., & Wolff, C. (2015). A Crowdsourced Encoding Approach for Handwritten Sheet Music. In J. Roland, Perry; Kepper (Ed.), Music Encoding Conference Proceedings 2013 and 2014 (pp. 127–130).

Vortrag und Ressourcen

„More than Words“ – vom Text zur Musik

Franco Morettis Konzept des „Distant Reading“ ist eine zentrale Metapher in den Digital Humanities, die sich mittlerweile auf viele weitere Bereiche ausgedehnt hat, bspw.

Ansätze zu „Distant Hearing„, also computergestützter Analyse von Musikdaten, sind bislang in der Digital Humanities-Community noch relativ selten, dafür aber im Informatikbereich unter dem Schlagwort Music Information Retrieval (MIR) schon seit vielen Jahren etabliert. Eine zentrale Organisation und gleichlautende Konferenz ist dabei die ISMIR (International Society for Music Information Retrieval).

Grundsätzlich unterscheidet man im MIR zwischen Ansätzen im Bereich der Signalverarbeitung (Audio) und der Symbolverarbeitung (Noten).

Der Vortrag fokussiert auf symbolische Musik, also Notenblätter. Konkret werden Herausforderungen und Besonderheiten („notes are more than words“) bei der computergestützten Erschließung, Modellierung und Analyse anhand der Regensburger Liedblattsammlung aufgezeigt.

Fallstudie: Regensburger Liedblattsammlung

Es handelt sich bei diesem Projekt um eine Kooperation mit der Universitätsbibliothek Regensburg, die im Besitz einer – was Umfang und Abdeckung angeht – einzigartigen Liedblattsammlung deutschsprachiger Volkslieder ist.

Die ca. 140.000 Liedblätter enthalten handschriftliche, monophone Melodien, meist mit Schreibmaschine getippte Liedtexte sowie diverse Metadaten wie etwa Archivort, Jahr und Liedblattnummer.

Weiterführende Informationen zur Liedblattsammlung:

  • Krüger, G. (2013). Das „Regensburger Volksmusik-Portal“ der Universitätsbibliothek Regensburg. Bestände – Problematiken – Perspektiven. Zwischenbericht aus einem Erschließungsprojekt. In E. R. Mohrmann (Ed.), Audioarchive – Tondokumente digitalisieren, erschließen und auswerten (p. 119–131). Münster et al.: Waxmann Verlag.

(I) Maschinenlesbare Erschließung / Digitalisierung

Übersicht zu Optical Music Recognition (OMR) Tools: http://homes.soic.indiana.edu/donbyrd/OMRSystemsTable.html

Aktuelle OMR-Tools:

Bestehende Sammlung mit Scans:

Bestehende Sammlungen mit transkribierter Musik:

Leider funktioniert OMR bei handschriftlichen Notenblättern nur sehr schlecht:

OMR for handwritten scores as a major unresolved problem (Müller, 2007)

Diese Einschätzung bestätigte sich auch durch die Evaluation von drei bestehenden OMR-Tools für die Regensburger Liedblattsammlung. Evaluationsdesign angelehnt an Bellini, Bruno & Nesi (2007). Durchschnittliche Erkennungsraten: Photoscore (36%), CapellaScan (8%) und SharpEye (4%).

Nähere Informationen zur Evaluationsstudie:

  • Burghardt, M., Spanner, S., Schmidt, T., Fuchs, F., Buchhop, K., Nickl, M., and Wolff, C. (2017). Digitale Erschließung einer Sammlung von Volksliedern aus dem deutschsprachigen Raum. In Book of Abstracts, DHd 2017.

Da OMR wegen der schlechten Ergebnisse nicht in Frage kommt, wird Crowdsourcing als alternative Erschließungsstrategie gewählt, denn Transkription zählt nach Oomen & Aroyo (2011) zu den typischen Anwendungsgebieten von Crowdsourcing:

  • Contextualization
  • Complementing collections
  • Classification
  • Co-curation
  • Crowdfunding
  • Correction and transcription

Bestehende Tools zur Transkription, die aber allesamt nicht für einen Remote-Crowdsourcing-Ansatz geeignet sind.

Name Type Source
Flat.io Web https://flat.io/
Noteflight Web https://www.noteflight.com
Sibelius Desktop http://www.avid.com/en/sibelius
MuseScore Desktop https://musescore.org/

Allegro

Entwicklung eines eigenen Crowdsourcing-Tools namens Allegro, welches die folgenden Anforderungen erfüllt:

  • webbasiert (HTML / JavaScript) und parallel von mehreren Transkriptoren benutzbar
  • einfach zu bedienen (entwickelt mithilfe eines systematischen UCD-Ansatzes), so intuitiv, dass es auch für Musik-Laien möglich ist Teanskriptionen zu erstellen

Nähere Informationen zu Allegro in:

  • Burghardt, M., & Spanner, S. (2017). Allegro: User-centered Design of a Tool for the Crowdsourced Transcription of Handwritten Music Scores. In Proceedings of the DATeCH (Digital Access to Textual Cultural Heritage) conference. ACM.

OMR-Literatur

  • Bainbridge, D. and Bell, T. (2001). The challenge of optical music recognition. In Computers and the Humanities, 35, p. 95–121.
  • Bellini, P., Bruno, I., and Nesi, P. (2007). Assessing optical music recognition tools. In Computer Music Journal, 31(1), 68–93.
  • Grachten, M., Arcos, J. L., and de Mántaras, R. L. (2002). A comparison of different approaches to melodic similarity. In Proceedings of the 2nd International Conference in Music and Artificial Intelligence (ICMAI).
  • Homenda, W. and Luckner, M. (2006). Automatic Knowledge Acquisition: Recognizing Music Notation with Methods of Centroids and Classifications Trees. In Proceedings of the IEEE International Joint Conference on Neural Network, p. 6414–6420.
  • Raphael, C. and Wang, J. (2011). New Approaches to Optical Music Recognition. In Proceedings of the 12th International Society for Music Information Retrieval Conference (ISMIR), p. 305–310.
  • Rebelo, A., Capela, G., and Cardoso, J. S. (2010). Optical recognition of music symbols. In International Journal on Document Analysis and Recognition, 13, 19–31.
  • Müller, M. (2007). Information Retrieval for Music and Motion. Berlin: Springer.

Crowdsourcing-Literatur

  • Causer, T. and Wallace, V. (2012). Building A Volunteer Community: Results and Findings from Transcribe Bentham. In Digital Humanities Quarterly, 6(2).
  • Dunn, S. and Hedges, M. (2013). Crowd-sourcing as a Component of Humanities Research Infrastructures. In International Journal of Humanities and Arts Computing, 7(1-2), 147-169.
  • Fornés, A., Lladós, J., Mas, J., Pujades, J. M. and Cabré, A. (2014). A Bimodal Crowdsourcing Platform for Demographic Historical Manuscripts. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, p. 103–108.
  • Holley, R. (2010). Crowdsourcing: How and why should libraries do it? D-Lib Magazine, 16(3-4).
  • Howe, J. (2006). The Rise of Crowdsourcing. Wired 14(6). Retrieved from http://archive.wired.com/wired/archive/14.06/crowds.html
  • Ipeirotis, P. G. and Gabrilovich, E. (2014). Quizz: Targeted Crowdsourcing with a Billion (Potential) Users. In Proceedings of the 23rd International Conference on World Wide Web, p.143–154.
  • Lee, T. Y., Dugan, C., Geyer, W., Ratchford, T., Rasmussen, J., Shami, N. S. and Lupushor, S. (2013). Experiments on motivational feedback for crowdsourced workers. In Proceedings of the 7th International Conference on Weblogs and Social Media (ICWSM), p. 341–350.
  • Morschheuser, B., Hamari, J. and Koivisto, J. (2016). Gamification in crowdsourcing: A review. In Proceedings of the 49th Annual Hawaii International Conference on System Sciences, p. 4375–4384.
  • Mühlberger, G., Zelger, J. and Sagmeister, D. (2014). User-Driven Correction of OCR Errors: Combining Crowdsourcing and Information Retrieval Technology. In Proceedings of the First International Conference on
  • Oomen, J. and Aroyo, L. (2011). Crowdsourcing in the Cultural Heritage Domain: Opportunities and Challenges. In Proceedings of the 5th International Conference on Communities and Technologies, p. 138–149.

(II) Modellierung und formale Repräsentation

Encoding-Formate

(III) Computergestützte Analyse

Music Information Retrieval-Definition (Downie, 2004)

Music Information Retrieval (MIR) is a multidisciplinary research endeavor that strives to develop innovative content-based searching schemes, novel interfaces, and evolving networked delivery mechanisms in an effort to make the world’s vast store of music accessible to all.

Überblick zu bestehenden MIR-Systemen im Web:

Neben der Suche nach konkreten Melodien gibt es auch abstraktere Ebenen der Melodiesuche, bspw. die Suche nach Intervallfolgen oder nach Melodiekonturen im Parsons Code.

Für die Regensburger Liedblattsammlung wurde ein erster MIR-Prototyp implementiert, der als Melodic Similarity-Maß den Mongeau-Sankhoff-Algorithmus verwendet. Es handelt sich dabei um ein edit distance-basiertes Verfahren zur Bestimmung der Ähnlichkeit von zwei Melodiesequenzen. Um Verzerrungen bei der Editierdistanz zu vermeiden wird zudem ein Ngram-Ansatz umgesetzt, d.h. die Melodie-Query wird jeweils in bestimmten Teilsequenzen (ngrams) der Liedblätter gesucht (vgl. Burghardt & Lamm, 2017). Eine Demo zur Melodic Similarity-Suche in der Regensburger Liedblattsammlung ist verfügbar unter:

Weitere Informationen:

  • Burghardt, M., & Lamm, L. (2017). Entwicklung eines Music Information Retrieval-Tools zur Melodic Similarity-Analyse deutsch-sprachiger Volkslieder. In M. Eibl & M. Gaedke (Eds.), INFORMATIK 2017, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik – Workshop „Musik trifft Informatik“ (pp. 15–27). Bonn: Springer.

Literatur MIR

  • Casey, M., Veltkamp, R., Goto, M., Leman, M., Rhodes, C., & Slaney, M. (2008). Content-based music information retrieval: Current directions and future challenges. Proceedings of the IEEE, 96(4), 668-696.
  • Downie, J. S. (2004). The Scientific Evaluation of Music Information Retrieval Systems: Foundations and Future. In Computer Music Journal 28(2), 12-23.
  • Selfridge-Field, E. (1998). Conceptual and representational issues in melodic comparison. Computing in Musicology, 11, 3-64.

Literatur Melodic Similarity

  • Berenzweig, A., Logan, B., Ellis, D. P. W., & Whitman, B. (2004). A Large-Scale Evaluation of Acoustic and Subjective Music-Similarity Measures. Computer Music Journal, 28, 63–76. http://doi.org/10.1162/014892604323112257
  • Cahill, M., Cahill, M., Music, C., & Music, C. (2005). Melodic similarity algorithms – using similarity ratings for development and early evaluation. Star, 450–453.
  • Hofmann-Engl, L. (2001). Towards a cognitive model of melodic similarity. Ismir, 44(0), 143–151.
  • Grachten, M., Arcos, J. L., & Mántaras, R. L. De. (2004). Melodic Similarity: Looking for a Good Abstraction Level. Proceedings of the 5th International Society for Music Information Retrieval.
  • Grachten, M., Arcos, J. L., and de Mántaras, R. L. (2002). A comparison of different approaches to melodic similarity. In Proceedings of the 2nd International Conference in Music and Artificial Intelligence (ICMAI).
  • Miura, T., & Shioya, I. (2003). Similarity among melodies for music information retrieval. In Proceedings of the twelfth international conference on Information and knowledge management – CIKM ’03 (p. 61).
  • Mongeau, M. and Sankoff, D. (1990). Comparison of Musical Sequences. In Computers and the Humanities, 24, 161–175.
  • Müllensiefen, D., & Frieler, K. (2004). Optimizing Measures Of Melodic Similarity For The Exploration Of A Large Folk Song Database. 5th International Conference on Music Information Retrieval ISMIR 2004, 274–280.
  • Müllensiefen, D., & Frieler, K. (2004). Melodic Similarity: Approaches and Applications. In Proceedings of the 8th International Conference on Music Perception & Cognition (pp. 283–289).
  • Orio, N., & Rodá, A. (2009). A Measure of Melodic Similarity Based on a Graph Representation of the Music Structure. In Proceedings of the 10th International Society for Music Information Retrieval Conference (ISMIR 2009) (pp. 543–548).
  • Typke, R., Wiering, F., & Veltkamp, R. C. (2005). A survey of music information retrieval systems. Transition, 153–160.
  • Typke, R. (2007). Music Retrieval based on Melodic Similarity. Ph.D Thesis, (april 1973).
Advertisements

INFORMATIK 2017: Music Information Retrieval für deutschsprachige Volkslieder

Die 47. Jahrestagung der Gesellschaft für Informatik (GI) in Chemnitz findet in diesem Jahr unter dem Motto „Digitale Kulturen“ statt. Auch das Thema Digital Humanities wird dabei aufgegriffen, bspw. in einem dedizierten Workshop zum Thema Modellierungsfragen in den Digitalen Geisteswissenschaften. Darüber hinaus wird in weiteren thematischen Workshops der Einsatz von informatischen Methoden in anderen Disziplinen thematisiert, etwa im Workshop Musik trifft Informatik. Im Rahmen der letztgenannten Veranstaltung wurde aus Regensburg ein Beitrag vorgestellt:

  • Lamm, L. & Burghardt, M. (2017). Entwicklung eines Music Information Retrieval-Tools zur Melodic Similarity-Analyse deutschsprachiger Volkslieder. In Eibl, M. & Gaedke, M. (Hrsg.): INFORMATIK 2017, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2017.

Abstract: Wir präsentieren einen Beitrag zum Einsatz computergestützter Methoden für die quantitative Untersuchung einer großen Sammlung symbolisch repräsentierter Melodien deutschsprachiger Volkslieder. Im Zuge dessen wurde ein Music Information Retrieval-Tool (MIR) konzipiert, mit dem gezielt nach Liedblättern anhand bestimmter Metainformationen (z.B. Jahr, Sangesort, etc.), bestimmter Wörter in den Liedtexten oder bestimmter Sequenzen innerhalb der monophonen Melodien gesucht werden kann. Darüber hinaus kann mit dem MIR-Tool untersucht werden, ob es bspw. wiederkehrende Muster oder melodische Universalien in deutschsprachigen Volksliedern gibt. Insgesamt stehen drei Repräsentationsebenen für Suchanfragen zur Verfügung: Die Suche nach konkreten Melodiefragmenten (Tonhöhe / Tondauer), die Suche nach Intervallfolgen und die Suche nach abstrakten Melodiekonturen im Parsons-Code. Eine zentrale Herausforderung für die Umsetzung eines solchen MIR-Tools mit mehreren Repräsentationsebenen ist die Wahl einer geeigneten melodic similarity-Komponente. Wir beschreiben die Implementierung verschiedener edit distance-basierter Ansätze und präsentieren die Ergebnisse einer Evaluationsstudie für die unterschiedlichen Implementierungen. Alle Algorithmen und Converter wurden als generische Toolbox umgesetzt und stehen unter der MIT open source-Lizenz für die Nachnutzung zur freien Verfügung.

Keywords: music information retrieval, melodic similarity, edit distance, ngrams

Live-Demo und Demovideo des Tools zur Regensburger Liedblattanalyse:


Weitere Ressourcen aus dem Projektkontext:

Poster:

Weitere MIR-Systeme:

Presentations at the DCH 2017

The Interdisciplinary Conference on Digital Cultural Heritage (DCH) takes place in the Staatsbibliothek Berlin, from August 30 – September 1, 2017.

We present two recent projects from the field of museum informatics. The first project „Designing a Digital Museum Catalog App for Tailored Exhibition Experiences“ has been developed in cooperation with the „Haus der Bayerischen Geschichte“ (House of Bavarian History). The second project „Using Virtual Reality as a Means for Knowledge Transfer in Museum Exhibitions“ has been created together with the Regensburg Historic Museum.

Designing a Digital Museum Catalog App for Tailored Exhibition Experiences

  • Download Abstract
  • Demo video will be added shortly 😉

Together with the cultural institution Haus der Bayerischen Geschichte (HdBG), we are currently devel-oping digital concepts and ideas for the upcoming Museum of Bavarian History , which will open in 2018 in Regensburg. Within this project context, we designed a Digital Exhibition Catalog App (DECA) that we would like to present at the Interdisciplinary Conference on Digital Cultural Heritage (DCH) 2017.

According to Mihatsch, an exhibition catalog has two main functions: First, it can be used as a guid-ing tool during the actual visit of an exhibition („catalogue-en-acte“), as it provides useful hints about the organization and content of the exhibition. Second, it can be used as a mnemonic device after the visit of the exhibition („catalogue-document“), as it summarizes and archives all the objects shown in an exhibition. Taking a look at the existing, printed catalogs of past exhibitions of the HdBG, we found that they seem to be focused on the second function, but are rather cumbersome to use as a guiding tool during the actual visit of an exhibition because of their extent and size.

Moreover, traditional catalogs are created by an editorial team and are thus generic, pre-compiled lists of exhibition objects. These objects possibly do not reflect the individual exhibition experience of the museum visitors who may take quite different routes through an exhibition and, in the majority of cases, will not actually visit all the objects listed in the catalog. Finally, printed catalogs are obviously restricted to contain only text and images, but no multimodal content such as audio or video.

To address these issues of existing catalogs, we designed a prototype for the “Landesausstellung Bier in Bayern“ that can be used to create a tailored catalog of the visitors personal exhibition experience via a smartphone app. We implemented an iOS app that allows visitors to collect objects during their visit by means of QR codes and that motivates them to discover (and collect) further objects in the exhibition. The objects that can be collected and cataloged via the app are managed via an easy-to-use, web-based content management system. We are currently also experimenting with further gamification elements that increase the motivation of visitors to engage in the exploration and collection of digital artifacts in the museum.

As next steps, we are planning to conduct information behavior and user experience studies in a realistic exhibition environment, to investigate how users respond to such digital museum catalogs and how they like the aspect of a tailored catalog in particular.

References
Mihatsch, K. (2015). Der Ausstellungskatalog 2.0. Bielefeld: transcript.

Using Virtual Reality as a Means for Knowledge Transfer in Museum Exhibitions

  • Download Abstract
  • Demo video will be added shortly 😉

The far-reaching implications of digitization affect politics and society, and to a growing extent they also influence and change cultural heritage institutions, such as museums. Accordingly, museum informatics are concerned with the interrelation of humans, information and technology in the museum context [2]. Digital applications in the museum range from tools that facilitate the curation and management of museum objects, to entirely new types of information systems for the presentation of such objects [3]. The fast-paced technological development in the consumer electronics market provides access to new technologies like augmented reality (AR) and virtual reality (VR). This enables new concepts for the design of multimodal learning platforms in the museum context, e.g. an immersive virtual reality experience that will drag the user into the time of a cultural artifact to convey the usage or the cultural context in an intuitive way.

We present a project in the intersection of museum informatics and VR. The project is a cooperation between researchers from the Media Informatics Group (University of Regensburg) and an expert for the regional history of Bavaria (University of Augsburg). The project is funded by the Regensburg Museum of History, as part of the recent “Meisterwerke in Bewegung” campaign. The main goal of the project is to create a multimodal learning concept that relies on an extensive VR experience [cf. 1]. The VR application will present various historic aspects to the museum visitors, ranging from local history to the history of urban construction and including everyday life stories of the 16th century.

More concretely, museum visitors find themselves in a virtual visualization of the Regensburg Neupfarrplatz in 1540. After a brief VR tutorial, visitors can explore two narratives in the virtual world: The first narrative allows visitors to interactively explore the construction history of the “Neupfarrkirche”, starting from the early pilgrimage church “Zur schönen Maria” to the current architecture of the “Neupfarrkirche”. The second narrative lets them dive into an everyday life scenario that illustrates historical practices of food consumption and cooking culture, also taking place in the setting of the virtual Neupfarrplatz. We use the Unreal 4 Engine as a basic framework for our project. For the exhibition, we will use the HTC Vive VR-System.

At the end of the project, we will investigate the pedagogical benefits of such virtually enhanced experiences and are planning to conduct a series of experiments that measure the learning outcomes when using the VR system. The results will be relevant not only for the usage of VR in museum contexts, but for any application scenario that will use VR for knowledge transfer.

References

  1. Dechant, M., & Burghardt, M. (2015). Virtuelle Rekonstruktion des Regensburger Ballhauses. In Book of Abstracts, DHd 2015.
  2. Marty, P. F. & Burton Jones, K. (2008). Museum Informatics: People, Information, and Technology in Museums. New York et al.: Routledge.
  3. Mieth, K. (2010). Bildungsarbeit im Museum: Grundfragen und Perspektiven der Vermittlung von Sammlung, Forschung und Präsentation; Beiträge der Fachtagung “Bildung – Pädagogik – Vermittlung. Theorie und Praxis im Kontext Musealer Kernaufgaben” der Sächsischen Landesstell. Chemnitz: Sächsische Landesstelle für Museumswesen.

LREC 2016

Die 10. internationale Konferenz „Language Resources and Evaluation“ (LREC) findet in diesem Jahr von 23. – 28. Mai in Portorož (Slowenien) statt. Wie Nicoletta Calzolari (Conference Chair) in ihrer Eröffnung anmerkte, ist die LREC laut Google Scholar-Ranking nach ACL, EMNLP und NAACL die wichtigste Konferenz im Bereich Computational Linguistics. Weiterhin wurden einigen interessante Auswertungen zu den LREC 2016-Einreichungen gezeigt: So sind die in den Beiträgen mit Abstand am häufigsten beschriebenen linguistischen Resourcen Korpora und Lexika sowie auch Tagger/Parser, Treebanks, Evaluationsdatensätze, generische Software Toolkits, Annotationstools, Korpustools, Ontologien u.v.m. Über 3/4 der Ressourcen beschäftigt sich mit geschriebener Sprache, der Rest mit gesprochener Sprache, Zeichensprache oder mit multimodalen Sprachdaten.

Aus Regensburg wurde auf der LREC 2016 ein Beitrag zur Erstellung eines Dialektlexikons des Bayerischen mithilfe von Facebookgruppen präsentiert. Dabei werden die Daten automatisiert aus einer offenen Facebookgruppe, die hauptsächlich in Dialekt schreibt, extrahiert. Im nächsten Schritt übersetzen die Mitglieder dieser Gruppe mithilfe eines selbst entwickelten Crowdsourcingtools die häufigsten Dialektwörter. Der Foliensatz zum Vortrag findet sich hier:

LREC-2016-Slides-Frontpage

Der entsprechende Artikel ist über die LREC-Proceedings frei verfügbar: http://www.lrec-conf.org/proceedings/lrec2016/pdf/820_Paper.pdf

Abstract: Data acquisition in dialectology is typically a tedious task, as dialect samples of spoken language have to be collected via questionnaires or interviews. In this article, we suggest to use the “web as a corpus” approach for dialectology. We present a case study that demonstrates how authentic language data for the Bavarian dialect (ISO 639-3:bar) can be collected automatically from the social network Facebook. We also show that Facebook can be used effectively as a crowdsourcing platform, where users are willing to translate dialect words collaboratively in order to create a common lexicon of their Bavarian dialect. Key insights from the case study are summarized as “lessons learned”, together with suggestions for future enhancements of the lexicon creation approach.

Auch das Thema „Digital Humanities“ scheint auf der LREC zunehmend an Bedeutung zu gewinnen, was sich u.a. an einer eigenen DH-Session mit den folgenden Themen zeigt:

Weitere Dialekt-Ressourcen im Web:

DH-Blockseminar für angehende Bibliothekare

dh-books-header
Am 18.4.2016 wurde von Manuel Burghardt und Christian Wolff ein 6-stündiger Digital Humanities-Blockkurs an der Fachhochschule für öffentliche Verwaltung und Rechtspflege (FHVR) im Fachbereich Archiv- und Bibliothekswesen (München) abgehalten. Dabei wurden zum einen Geschichte und Entwicklung sowie zentrale Konzepte und Herausforderungen der Digital Humanities vorgestellt, und zum anderen in einer praktischen Übung computer-basierte Textanalysen mit dem Online-Tool Voyant mit den Seminarteilnehmern erprobt.

Aus dem offiziellen Kurskommentar:

Die Durchdringung aller Wissenschaftsbereiche durch Informationstechnologie prägt auch die geistes- und kulturwissenschaftlichen Fächer. Neben der Unterstützung der wissenschaftlichen Arbeit durch geeignete Werkzeuge verändern sich auch die Methoden und Fragestellungen. Unter dem Schlagwort „Digital Humanities“ werden diese Entwicklungen gemeinhin zusammengefasst.

Der Blockkurs zeigt in zwei Vorlesungsblöcken kurz die Geschichte und die rasante Entwicklung der Digital Humanities auf und macht dabei deutlich, warum der Einsatz computergestützter Methoden in den Geisteswissenschaften – anders als etwa in den Naturwissenschaften – besondere Herausforderungen mit sich bringt. Durch zahlreiche praktische Beispiele wird das breite Spektrum der aktuellen Digital Humanities-Landschaft anschaulich gemacht und ein kurzer Überblick zu bestehenden Tools und Methoden in den Digital Humanities gegeben.

In einer gemeinsamen Übung wird schließlich ein exemplarisches Tool zur computergestützten Textanalyse vorgestellt und zusammen mit den Kursteilnehmern erprobt.

Für alle Interessierten finden sich hier die entsprechenden Kursmaterialien:

Online-Ressourcen:

Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften

Manuel Burghardt und Christian Wolff sprechen im Rahmen der DH-Summerschool in München, am 29.7.2015 zum Thema „Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften“. Dieser Blogpost soll einerseits den Teilnehmenden der Summerschool als Plattform zum Download bzw. zur Verlinkung relevanter Ressourcen dienen, und mag andererseits auch für all diejenigen interessant sein, die sich erstmals mit dem Thema automatische Textanalyse beschäftigen.

Foliensatz

summerschool-2015-slides

Voyant-Übung

Im Rahmen dieser Übung wird ein digitalisierter Text mit dem frei verfügbaren Web-Tool Voyant automatisch analysiert. Dabei sollen die folgenden Fragen Schritt für Schritt beantwortet werden:

  1. Aus wie vielen types und tokens besteht der Text?
  2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
  3. Welche Wortarten kommen am häufigsten vor?
  4. Welche Adjektive (Lemmata) kommen am häufigsten vor?
  5. Welche Kollokationen kommen im Text vor?

Zuletzt soll schließlich noch gezeigt werden, wie mit Voyant mehrere Texte anhand der oben genannten Parameter verglichen werden können

Download des Übungstexts

Als Übungstext wird das erste Kapitel von Franz Kafkas „Der Prozess“ verwendet, welcher über Projekt Gutenberg-DE frei verfügbar ist.

  • Eine grundlegend normalisierte Version des Texts finden Sie hier: kafka.txt

Foto 2

1. Aus wie vielen types und tokens besteht der Text?

Schritt 1 – Aufruf des Tools

Navigieren Sie nun zum Web-Tool Voyant: http://voyant-tools.org/

Hinweis: Für die weitere Vertiefung finden Sie ein Tutorial zum Tool unter „Voyant Getting started

Schritt 2 – Importieren des Übungstexts

Importieren Sie den Kafka-Text in Voyant indem Sie …

  • die heruntergeladene Datei „kafka.txt“ über den Upload-Dialog hochladen,
  • oder die heruntergeladene Datei „kafka.txt“ öffnen, und den Text über copy-paste in das Formularfeld einfügen,
  • oder den Link zur TXT-Datei „kafka.txt“ in das Formularfeld kopieren.

Schritt 3 – Analyse des Texts auf Types und Tokens

Betrachten Sie die Standard-Analyse von Voyant:

  • Was ist grundlegend zu sehen?
  • Aus wie vielen tokens besteht der Text?
  • Aus wie vielen types besteht der Text, und was hat es in Voyant mit sog. „unique words“ auf sich?

Beobachtung

Um types auszählen lassen zu können, müssen die Wörter zunächst auf ihre Grundformen (Lemmata) reduziert werden.

Zwischenschritt (wurde bereits vorbereitet)

Für die Beantwortung der weiteren Fragen ist eine grundlegende Wortartenannotation und Grundformenreduktion nötig. Der Übungstext wurde mit dem TreeTagger automatisch lemmatisiert und nach Wortarten annotiert (Tagset: STTS). Das Ergebnis der Annotation wurde als XML-Datei gespeichert.

Ein vollständiges Tutorial zur Erstellung eigener annotierter Ressourcen mit dem Onlinedienst WebLicht finden Sie hier: WebLicht-Tutorial

  • Download: Den Kafka-Text mit grundlegender POS-Annotation und Lemmatisierung finden Sie hier: kafka.xml

2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?

Schritt 1 – Betrachten der XML-Datei „kafka.xml“

Öffnen Sie die XML-Datei „kafka.xml“ in einem beliebigen Editor, und betrachten Sie deren grundlegende Struktur.

  • Welche Informationen sind als Annotationen im Dokument hinzugefügt worden?

Exkurs – Selektion spezifischer Dokumentteile mit XPath

XPath ist ein einfacher Selektionsmechanismus, mit dem Sie spezifische Dokumentteile in einem XML-Dokument auswählen können.

XPath-Beispiel-01

Schritt 2 – Hochladen der XML-Datei auf Voyant und Definition eines XPath-Ausdrucks

Navigieren Sie abermals zur Startseite von Voyant. Nun soll allerdings nicht der gesamte Text eingelesen werden, sondern nur die Wörter, die innerhalb eines <lemma>-Tags stehen. Klicken Sie hierzu auf das kleine Zahnrad und definieren Sie im Feld „XPath to content“ den folgenden XPath-Ausdruck:

/DocumentElement/Table1/lemma

XPath-Voyant-01Laden Sie nun über den Upload-Dialog die Datei „kafka.xml“ hoch. Das Ergebnis ist eine Voyant-Analyse über der Lemma-Teilmenge des Dokuments, also ausschließlich der Grundformen.

Beobachtung

Nicht ganz unerwartet sind in unserem Übungstext bestimmte und unbestimmte Artikel, Konjunktionen, Personalpronomen, etc. besonders hochfrequent. Da solche Wörter typischerweise keine oder nur geringe semantische Aussagekraft haben – man spricht auch von sogenannten Synsemantika – werden sie meist mithilfe von Stoppwortlisten von der Korpusanalyse ausgenommen. Auch Voyant stellt solche Stoppwortlisten bereit, die bei Bedarf an spezifische Anwendungszwecke angepasst werden können.

Schritt 3 – Anwendung der deutschen Stoppwortliste

Wenden Sie die deutsche Stoppwortliste in Voyant (Wordcloud-Fenster > „Zahnrad-Icon“ > „Stop Word Lists“ > „German“) auf das Lemma-Teilkorpus an. Markieren Sie außerdem die Checkbox „Apply Stop Words Globally“, damit die Stoppwortliste auch für andere Analysedarstellungen in Voyant angewendet wird, und Sie eine konsistente Analyse bekommen.

Voyant-Stopwords

Nach Anwendung der Stoppwortliste zeigt sich, dass relativ viele „unknowns“ im Text sind.

Zur Erläuterung: Wo sich der TreeTagger nicht sicher ist, wie das Lemma oder die Wortart eines Wortes lautet, trägt das Programm den Wert „unknown“ ein.

Schritt 4 – XPath-Ausdruck zur Analyse der unknowns

Formulieren Sie nun in Voyant einen XPath-Ausdruck, der den Inhalt aller Wort-Elemente selektiert, welche im Lemma-Tag den Wert „unknown“ haben:

/DocumentElement/Table1[lemma='unknown']/word
  • Ist plausibel warum der TreeTagger gerade diese Wörter nicht erkannt hat?

3. Welche Wortarten kommen am häufigsten vor?

Nachdem bereits XPath-Abfragen zur Lemma-Information einzelner Wörter erstellt wurden, soll nun die Wortarten-Information abgefragt werden. Definieren Sie in Voyant einen XPath-Ausdruck der alle Wortarten-Werte selektiert:

/DocumentElement/Table1/pos

Die Wortarten sind mithilfe der Kürzel aus dem STTS getaggt worden. Es zeigt sich, dass „normale Nomen“ (NN), „Personalpronomen“ (PPER), und „Adverbien“ (ADV) zu den drei häufigsten Wortarten gehören.

4. Welche Adjektive (Lemmata) kommen am häufigsten vor?

Definieren Sie nun in Voyant einen XPath-Ausdruck, der alle Lemmata selektiert die Adjektive sind:

/DocumentElement/Table1[pos='ADJD']/lemma

5. Welche Kollokationen kommen im Text vor?

Voyant hält eine Vielzahl unterschiedlicher Analysetools und Visualisierungen bereit.

Eine ausführliche Erklärung all dieser Tools finden Sie hier: http://docs.voyant-tools.org/tools/

Schritt 1

Laden Sie wiederum den Kafka-Text (kafka.xml) hoch und selektieren Sie alle Lemmata (siehe Aufgabe 2).

/DocumentElement/Table1/lemma

Schritt 2

Wenden Sie die deutsche Stoppwortliste an, und ergänzen Sie das Wort „unknown“, um alle unbekannten Lemmata aus der Analyse auszunehmen.

Schritt 3

Öffnen Sie nun das Tool „Collocate Clusters“ im Fenster links, Mitte  („Summary“) über das Diskettensymbol > „URL for a different tool / skin and current data“ > „Collocate Cluster“ > „Open this URL in a new window“.

collocate-clustersSchritt 4

Analyse der Kollokationen

 6. Vergleich von mehreren Texten

Schritt 1 – Herunterladen weiterer Kafka-Texte

Nun sollen mehrere Texte miteinander verglichen werden. Laden Sie sich hierzu zwei weitere Kafka-Texte herunter:

Originalquelle Projekt Gutenberg-DE:

Download der normalisierten Textdateien:

Der Einfachheit halber können Sie einfach die folgenden Links in das Voyant-Formular kopieren:

https://dl.dropboxusercontent.com/u/4194636/kafka.txt
https://dl.dropboxusercontent.com/u/4194636/kafka2.txt
https://dl.dropboxusercontent.com/u/4194636/kafka3.txt

 Schritt 2 – Vergleichende Analyse der Texte

voyant-textvergleichOnline-Version der obigen Analyse.

Digitale Textsammlungen im Web

Digitale Textanalysewerkzeuge

Natural Language Processing Tools zur „Vorverarbeitung

Literaturhinweise / Weblinks

Impressionen vom Symposium „Visual Linguistics“

View all the data – view all the combinations – view all the angles – use all the techniques! Keep looking for any kind of pattern in the data! (Mark Richard Lauersdorf, Keynote speech at „Visual Linguistics Symposium“, November 19, 2014)

Visual Linguistics SymposiumVon 19. – 21.11.2014 fand ein Symposium auf Schloss Herrenhausen in Hannover statt, dass sich ganz dem Thema  „Visualisierung im sprachwissenschaftlichen Kontext“ widmete. Dabei wurden auch zwei Beiträge aus der Regensburger Medieninformatik vorgestellt: Thomas Wilhelm berichtete über eine Weiterentwicklung seines interaktiven Tools zu Visualisierung von Shakespeare-Dramen (mehr Informationen). Manuel Burghardt präsentierte Ergebnisse aus einer umfangreichen Evaluationsstudie zur Usability von linguistischen Annotationswerkzeugen, und ging dabei vor allem auf die Rolle von unterschiedlichen Visualisierungsmöglichkeiten ein.

Neben vielen spannenden Beiträgen von Teilnehmern aus Mannheim, Dresden, München, Moskau, Athen, und anderen Standorten, war ein besonderes Highlight die Keynote von Maximilian Schich (UT Dallas), der seinen Science-Artikel (August 2014, Vol. 345 no. 6196, pp. 558-562) „A network framework of cultural history“ vorstellte. Im Kern geht es dabei um die diachrone Visualisierung von Geburts- und Sterbeorten bekannter Persönlichkeiten.

Das vollständige Programm zu „Visual Linguistics“ finden Sie hier. Es folgt ein Überblick über einige interessante Tools und Projekte, die im Rahmen des Symposiums vorgestellt wurden:

Tools

Ressourcen

Videos / Blogs