Kategorie: Tagging

DATeCH 2017: Crowdsourced Transcription of Handwritten Music Scores

Author: Manuel Burghardt

I am currently attending the DATeCH 2017 conference in Göttingen, which is fully packed with interesting talks on „Digital Access to Textual Cultural Heritage“. The venue is right in the heart of the „Niedersächsische Staats- und Universitätsbibliothek Göttingen“, which is quite a decent place for a conference 🙂

Talk: Crowdsourced Transcription of Handwritten Music Scores

I will be presenting a research project that was created together with Sebastian Spanner.

Allegro: User-centered Design of a Tool for the Crowdsourced Transcription of Handwritten Music Scores

In this paper, we describe the challenge of transcribing a large corpus of handwritten music scores. We conducted an evaluation study of three existing optical music recognition (OMR) tools. The evaluation results indicate that OMR approaches do not work well for our corpus of highly heterogeneous, handwritten music scores. For this reason, we designed Allegro, a web-based crowdsourcing tool that can be used to transcribe scores. We relied on a user-centered design process throughout the development cycle of the application, to ensure a high level of usability. The interface was designed in a way it can be used intuitively, even by novices of musical notation. We describe the core features of Allegro and the basic transcription workflow. A first public beta test with 18 users shows that a crowdsourced transcription approach via the Allegro tool is a viable option for the encoding of our corpus of folk songs.

Related research from our group

Interesting tools mentioned in other DATeCH talks

*Gotta love those names 🙂

Advertisements

Projektvorstellung auf der Journée créole 2017

Zusammen mit Dr. Evelyn Wiesinger und Dr. habil. Alexander M. Teixeira Kalkhoff aus der Romanistik, werde ich am 3. März 2017 in Regensburg auf der Journée créole ein aktuelles Projektvorhaben im Bereich der digitalen Aufbereitung und der quantitativen Analyse von Kreolsprachen – insbesondere des Créole guyanais – vorstellen.

Arbeitstitel des Vortrags/Projekts:

Digitale Aufbereitung eines Kreolkorpus: state of the art, Desiderata und technische Machbarkeit

Journée créole 2017

Ziele des Projekts

1. Überführung der MS Word-Korpusdatein in XML

Ausgangslage: Transkriptionen von Interviews mit Sprechern des Créole Guyanais wurden von Evelyn Wiesinger erstellt und liegen aktuell als MS Word-Dokumente vor.

creol corpus

Ziel: Informationsextraktion mithilfe regulärer Ausdrücke und Überführung in eine XML-Struktur

creol xml

2. Semi-automatische Glossierung der Korpusdaten

Mithilfe maschineller Lernansätze sollen anhand manuell generierter Trainingsdaten weitere Transkripte automatisiert mit Glossierungsinformationen (vgl. Leipzig Glossing Rules) annotiert werden.

creol glossing

3. Quantitative Analysen der textuellen Korpusdaten

Hier sollen Standardverfahren aus der Korpuslinguistik (Frequenzen, Konkordanzen, Kollokationen, etc.) zum Einsatz kommen.

4. Alignierung von Kreol-Audioaufnahmen und textueller Transkription

Die Alignierung von Audio und Text erfolgt zunächst mit den MAUS-Tools.

Audio Text Alignment

Im nächsten Schritt sollen in einem Web-Interface Audiospur und Transkription parallel dargestellt werden. Ein erster JavaScript-Prototyp für HTML/JS-Audio-Text-Alignierung wurde bereits vom Kollegen Alexander Bazo entwickelt: TranscriptPlayer.js

5. Web-Korpus-Interface zur Suche nach Schlüsselwörtern / Metadaten

Alle so erschlossenen Daten sollen am Ende in einem webbasierten Informationssystem mit integriertem Analyse-Dashboard und einer umfangreichen Suchfunktion verfügbar sein. Beispielhafte Suchanfragen, die mit dem System umgesetzt werden können:

  • Finde alle Sätze die aus mehr als 5 Wörtern bestehen und in denen ein frz. Wort vorkommt.
  • Finde alle Sätze von weiblichen Kreolsprecherinnen, in denen das Wort „mo“ vorkommt.

Das Ergebnis der Suchanfragen soll jeweils eine quantitative Analyse der Ergebnismenge sowie eine interaktive Darstellung der entsprechenden Text- und Audiodaten sein.

Verwandte Projekte und Literatur:

LREC 2016

Die 10. internationale Konferenz „Language Resources and Evaluation“ (LREC) findet in diesem Jahr von 23. – 28. Mai in Portorož (Slowenien) statt. Wie Nicoletta Calzolari (Conference Chair) in ihrer Eröffnung anmerkte, ist die LREC laut Google Scholar-Ranking nach ACL, EMNLP und NAACL die wichtigste Konferenz im Bereich Computational Linguistics. Weiterhin wurden einigen interessante Auswertungen zu den LREC 2016-Einreichungen gezeigt: So sind die in den Beiträgen mit Abstand am häufigsten beschriebenen linguistischen Resourcen Korpora und Lexika sowie auch Tagger/Parser, Treebanks, Evaluationsdatensätze, generische Software Toolkits, Annotationstools, Korpustools, Ontologien u.v.m. Über 3/4 der Ressourcen beschäftigt sich mit geschriebener Sprache, der Rest mit gesprochener Sprache, Zeichensprache oder mit multimodalen Sprachdaten.

Aus Regensburg wurde auf der LREC 2016 ein Beitrag zur Erstellung eines Dialektlexikons des Bayerischen mithilfe von Facebookgruppen präsentiert. Dabei werden die Daten automatisiert aus einer offenen Facebookgruppe, die hauptsächlich in Dialekt schreibt, extrahiert. Im nächsten Schritt übersetzen die Mitglieder dieser Gruppe mithilfe eines selbst entwickelten Crowdsourcingtools die häufigsten Dialektwörter. Der Foliensatz zum Vortrag findet sich hier:

LREC-2016-Slides-Frontpage

Der entsprechende Artikel ist über die LREC-Proceedings frei verfügbar: http://www.lrec-conf.org/proceedings/lrec2016/pdf/820_Paper.pdf

Abstract: Data acquisition in dialectology is typically a tedious task, as dialect samples of spoken language have to be collected via questionnaires or interviews. In this article, we suggest to use the “web as a corpus” approach for dialectology. We present a case study that demonstrates how authentic language data for the Bavarian dialect (ISO 639-3:bar) can be collected automatically from the social network Facebook. We also show that Facebook can be used effectively as a crowdsourcing platform, where users are willing to translate dialect words collaboratively in order to create a common lexicon of their Bavarian dialect. Key insights from the case study are summarized as “lessons learned”, together with suggestions for future enhancements of the lexicon creation approach.

Auch das Thema „Digital Humanities“ scheint auf der LREC zunehmend an Bedeutung zu gewinnen, was sich u.a. an einer eigenen DH-Session mit den folgenden Themen zeigt:

Weitere Dialekt-Ressourcen im Web:

Streetartfinder – Web-Anwendung zur Dokumentation und Kartierung von Streetart

Unter Streetart versteht man selbstautorisiert angebrachte Zeichen aller Art im urbanen Raum, die mit einem weiteren Personenkreis kommunizieren wollen. (Wikipedia-Definition zu Streetart)

Mit dem Streetartfinder liegt eine Web-Anwendung vor, die es ermöglicht Streetart-Bilder auf eine gemeinsame Plattform hochzuladen. Dabei werden Informationen zur Geolocation erfasst, welche es der Anwendung erlauben eine interaktive Karte der hochgeladenen Streetartbilder zu erstellen.

Streetart-Slideshow

Zusätzlich werden Informationen zum Uploader, zum Datum des Uploads sowie zur Streetart-Kategorie gespeichert. Zu diesen Kategorien gehören Graffiti, Stencil, Painting, Paste-Up, Installation und Sonstiges. Ziel ist der Aufbau einer umfangreichen digitalen Ressource zum Thema „Streetart“, welche in Folgestudien mit kunsthistorischen, soziologischen und kulturwissenschaftlichen Ansätzen näher untersucht werden können.


Webseite: http://streetartfinder.de/
Artikel bei kult: http://www.kult.de/neu-in-regensburg/kleine-kunstwerke-sichtbar-machen/150/11/1030914/
Facebook: https://www.facebook.com/streetartfinder

Publikation (Poster DHd 2015): „StreetartFinder – Eine Datenbank zur Dokumentation von Kunst im urbanen Raum“ (Download Poster + Extended Abstract)