Kategorie: Crowdsourcing

DATeCH 2017: Crowdsourced Transcription of Handwritten Music Scores

Author: Manuel Burghardt

I am currently attending the DATeCH 2017 conference in Göttingen, which is fully packed with interesting talks on „Digital Access to Textual Cultural Heritage“. The venue is right in the heart of the „Niedersächsische Staats- und Universitätsbibliothek Göttingen“, which is quite a decent place for a conference 🙂

Talk: Crowdsourced Transcription of Handwritten Music Scores

I will be presenting a research project that was created together with Sebastian Spanner.

Allegro: User-centered Design of a Tool for the Crowdsourced Transcription of Handwritten Music Scores

In this paper, we describe the challenge of transcribing a large corpus of handwritten music scores. We conducted an evaluation study of three existing optical music recognition (OMR) tools. The evaluation results indicate that OMR approaches do not work well for our corpus of highly heterogeneous, handwritten music scores. For this reason, we designed Allegro, a web-based crowdsourcing tool that can be used to transcribe scores. We relied on a user-centered design process throughout the development cycle of the application, to ensure a high level of usability. The interface was designed in a way it can be used intuitively, even by novices of musical notation. We describe the core features of Allegro and the basic transcription workflow. A first public beta test with 18 users shows that a crowdsourced transcription approach via the Allegro tool is a viable option for the encoding of our corpus of folk songs.

Related research from our group

Interesting tools mentioned in other DATeCH talks

*Gotta love those names 🙂

DHd 2017 in Bern

Auch in diesem Jahr ist die Regensburger Arbeitsgruppe Digital Humanities mit zwei Beiträgen auf der DHd vertreten, die erstmalig in der Schweiz stattfindet. Die DHd ist die größte Digital Humanities-Konferenz im deutschsprachigen Raum (ca. 300 Teilnehmer), und wird seit 2014 jährlich an unterschiedlichen Standorten abgehalten (2014: Passau, 2015: Graz, 2016: Leipzig, 2017: Bern).

Wir präsentieren zwei Posterbeiträge zu laufenden Digital Humanities-Projekten an der Universität Regensburg.

Den vollständigen Abstractband der Konferenz finden Sie hier als PDF-Download (33 MB).

1. Digitale Erschließung einer Sammlung von Volksliedern aus dem deutschsprachigen Raum

Dieser Beitrag beschreibt ein laufendes Projekt zur digitalen Erschließung einer großen Sammlung von Volksliedern aus dem deutschsprachigen Raum, mit dem Ziel diese später über ein öffentliches Informationssystem verfügbar zu machen. Im Poster werden Herausforderungen bei der digitalen Erschließung dieser Sammlung diskutiert. Konkret stellen wir die Ergebnisse einer OCR-Studie für die automatische Erkennung von Liedtexten sowie auch eine OMR-Studie für die Erfassung der monophonen, handschriftlichen Melodien vor. Es zeigt sich, dass OMR-Tools hier keine zufriedenstellenden Ergebnisse liefern können. Als alternativer Erschließungsansatz wurde deshalb ein webbasiertes Transkriptionstool für einen Crowdsourcing-Ansatz umgesetzt.

Allegro-Transkriptionstool: http://138.68.106.29/

liedblatt-poster_thumbnail

Downloads

  • Poster-Download über ResearchGate (PDF)
  • Paper-Download über ResearchGate (PDF)

2. PaLaFra: Entwicklung einer Annotationsumgebung für ein diachrones Korpus spätlateinischer und altfranzösischer Texte

Weiterhin stellen wir das DFG/ANR-geförderte Kooperationsprojekt PaLaFra (Vom Latein zum Französischen: Aufbau und Analyse eines digitalen Korpus spätlateinischer und altfranzösischer Texte) vor.

palafra-poster_thumbnail

Quelle Kartenausschnitt: Karte: MacKay, Angus. & Ditchburn, David. (1997). Atlas of medieval Europe. London ; New York: Routledge.

Downloads

  • Poster-Download über ResearchGate (PDF)
  • Paper-Download über ResearchGate (PDF)

 

 

LREC 2016

Die 10. internationale Konferenz „Language Resources and Evaluation“ (LREC) findet in diesem Jahr von 23. – 28. Mai in Portorož (Slowenien) statt. Wie Nicoletta Calzolari (Conference Chair) in ihrer Eröffnung anmerkte, ist die LREC laut Google Scholar-Ranking nach ACL, EMNLP und NAACL die wichtigste Konferenz im Bereich Computational Linguistics. Weiterhin wurden einigen interessante Auswertungen zu den LREC 2016-Einreichungen gezeigt: So sind die in den Beiträgen mit Abstand am häufigsten beschriebenen linguistischen Resourcen Korpora und Lexika sowie auch Tagger/Parser, Treebanks, Evaluationsdatensätze, generische Software Toolkits, Annotationstools, Korpustools, Ontologien u.v.m. Über 3/4 der Ressourcen beschäftigt sich mit geschriebener Sprache, der Rest mit gesprochener Sprache, Zeichensprache oder mit multimodalen Sprachdaten.

Aus Regensburg wurde auf der LREC 2016 ein Beitrag zur Erstellung eines Dialektlexikons des Bayerischen mithilfe von Facebookgruppen präsentiert. Dabei werden die Daten automatisiert aus einer offenen Facebookgruppe, die hauptsächlich in Dialekt schreibt, extrahiert. Im nächsten Schritt übersetzen die Mitglieder dieser Gruppe mithilfe eines selbst entwickelten Crowdsourcingtools die häufigsten Dialektwörter. Der Foliensatz zum Vortrag findet sich hier:

LREC-2016-Slides-Frontpage

Der entsprechende Artikel ist über die LREC-Proceedings frei verfügbar: http://www.lrec-conf.org/proceedings/lrec2016/pdf/820_Paper.pdf

Abstract: Data acquisition in dialectology is typically a tedious task, as dialect samples of spoken language have to be collected via questionnaires or interviews. In this article, we suggest to use the “web as a corpus” approach for dialectology. We present a case study that demonstrates how authentic language data for the Bavarian dialect (ISO 639-3:bar) can be collected automatically from the social network Facebook. We also show that Facebook can be used effectively as a crowdsourcing platform, where users are willing to translate dialect words collaboratively in order to create a common lexicon of their Bavarian dialect. Key insights from the case study are summarized as “lessons learned”, together with suggestions for future enhancements of the lexicon creation approach.

Auch das Thema „Digital Humanities“ scheint auf der LREC zunehmend an Bedeutung zu gewinnen, was sich u.a. an einer eigenen DH-Session mit den folgenden Themen zeigt:

Weitere Dialekt-Ressourcen im Web:

Streetartfinder – Web-Anwendung zur Dokumentation und Kartierung von Streetart

Unter Streetart versteht man selbstautorisiert angebrachte Zeichen aller Art im urbanen Raum, die mit einem weiteren Personenkreis kommunizieren wollen. (Wikipedia-Definition zu Streetart)

Mit dem Streetartfinder liegt eine Web-Anwendung vor, die es ermöglicht Streetart-Bilder auf eine gemeinsame Plattform hochzuladen. Dabei werden Informationen zur Geolocation erfasst, welche es der Anwendung erlauben eine interaktive Karte der hochgeladenen Streetartbilder zu erstellen.

Streetart-Slideshow

Zusätzlich werden Informationen zum Uploader, zum Datum des Uploads sowie zur Streetart-Kategorie gespeichert. Zu diesen Kategorien gehören Graffiti, Stencil, Painting, Paste-Up, Installation und Sonstiges. Ziel ist der Aufbau einer umfangreichen digitalen Ressource zum Thema „Streetart“, welche in Folgestudien mit kunsthistorischen, soziologischen und kulturwissenschaftlichen Ansätzen näher untersucht werden können.


Webseite: http://streetartfinder.de/
Artikel bei kult: http://www.kult.de/neu-in-regensburg/kleine-kunstwerke-sichtbar-machen/150/11/1030914/
Facebook: https://www.facebook.com/streetartfinder

Publikation (Poster DHd 2015): „StreetartFinder – Eine Datenbank zur Dokumentation von Kunst im urbanen Raum“ (Download Poster + Extended Abstract)