Kategorie: Tools
LREC 2016
Die 10. internationale Konferenz „Language Resources and Evaluation“ (LREC) findet in diesem Jahr von 23. – 28. Mai in Portorož (Slowenien) statt. Wie Nicoletta Calzolari (Conference Chair) in ihrer Eröffnung anmerkte, ist die LREC laut Google Scholar-Ranking nach ACL, EMNLP und NAACL die wichtigste Konferenz im Bereich Computational Linguistics. Weiterhin wurden einigen interessante Auswertungen zu den LREC 2016-Einreichungen gezeigt: So sind die in den Beiträgen mit Abstand am häufigsten beschriebenen linguistischen Resourcen Korpora und Lexika sowie auch Tagger/Parser, Treebanks, Evaluationsdatensätze, generische Software Toolkits, Annotationstools, Korpustools, Ontologien u.v.m. Über 3/4 der Ressourcen beschäftigt sich mit geschriebener Sprache, der Rest mit gesprochener Sprache, Zeichensprache oder mit multimodalen Sprachdaten.
DH-Blockseminar für angehende Bibliothekare
Am 18.4.2016 wurde von Manuel Burghardt und Christian Wolff ein 6-stündiger Digital Humanities-Blockkurs an der Fachhochschule für öffentliche Verwaltung und Rechtspflege (FHVR) im Fachbereich Archiv- und Bibliothekswesen (München) abgehalten. Dabei wurden zum einen Geschichte und Entwicklung sowie zentrale Konzepte und Herausforderungen der Digital Humanities vorgestellt, und zum anderen in einer praktischen Übung computer-basierte Textanalysen mit dem Online-Tool Voyant mit den Seminarteilnehmern erprobt.
Aus dem offiziellen Kurskommentar:
Die Durchdringung aller Wissenschaftsbereiche durch Informationstechnologie prägt auch die geistes- und kulturwissenschaftlichen Fächer. Neben der Unterstützung der wissenschaftlichen Arbeit durch geeignete Werkzeuge verändern sich auch die Methoden und Fragestellungen. Unter dem Schlagwort „Digital Humanities“ werden diese Entwicklungen gemeinhin zusammengefasst.
Der Blockkurs zeigt in zwei Vorlesungsblöcken kurz die Geschichte und die rasante Entwicklung der Digital Humanities auf und macht dabei deutlich, warum der Einsatz computergestützter Methoden in den Geisteswissenschaften – anders als etwa in den Naturwissenschaften – besondere Herausforderungen mit sich bringt. Durch zahlreiche praktische Beispiele wird das breite Spektrum der aktuellen Digital Humanities-Landschaft anschaulich gemacht und ein kurzer Überblick zu bestehenden Tools und Methoden in den Digital Humanities gegeben.
In einer gemeinsamen Übung wird schließlich ein exemplarisches Tool zur computergestützten Textanalyse vorgestellt und zusammen mit den Kursteilnehmern erprobt.
Für alle Interessierten finden sich hier die entsprechenden Kursmaterialien:
- Vorlesung Teil 1: „Was sind Digital Humanities, und warum wird so viel darüber geredet?„
- Vorlesung Teil 2: „Von Busa zu Culturomics – Überblick zu Tools in den Digital Humanities„
- Praktische Übung mit Voyant: https://dhregensburg.wordpress.com/2015/07/29/textanalysewerkzeuge-und-ihr-einsatz-in-den-digitalen-geisteswissenschaften/
- Vollständige Bibliographie: https://www.mendeley.com/groups/2594131/digital-humanities-regensburg/papers/
Online-Ressourcen:
- Index Thomisticus: http://www.corpusthomisticum.org/it/index.age
- Open Library: http://openlibrary.org/
- Voyant Tools: http://voyant-tools.org/
- Culturomics: http://www.culturomics.org/
- Google Books / Ngram Viewer: http://books.google.com/ngrams
- Project Bamboo: http://www.projectbamboo.org/
- Bamboo Wiki on Digital Research Tools (DiRT): http://dirt.projectbamboo.org/
Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften
Manuel Burghardt und Christian Wolff sprechen im Rahmen der DH-Summerschool in München, am 29.7.2015 zum Thema „Textanalysewerkzeuge und ihr Einsatz in den Digitalen Geisteswissenschaften“. Dieser Blogpost soll einerseits den Teilnehmenden der Summerschool als Plattform zum Download bzw. zur Verlinkung relevanter Ressourcen dienen, und mag andererseits auch für all diejenigen interessant sein, die sich erstmals mit dem Thema automatische Textanalyse beschäftigen.
Foliensatz
Voyant-Übung
Im Rahmen dieser Übung wird ein digitalisierter Text mit dem frei verfügbaren Web-Tool Voyant automatisch analysiert. Dabei sollen die folgenden Fragen Schritt für Schritt beantwortet werden:
- Aus wie vielen types und tokens besteht der Text?
- Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
- Welche Wortarten kommen am häufigsten vor?
- Welche Adjektive (Lemmata) kommen am häufigsten vor?
- Welche Kollokationen kommen im Text vor?
Zuletzt soll schließlich noch gezeigt werden, wie mit Voyant mehrere Texte anhand der oben genannten Parameter verglichen werden können
Download des Übungstexts
Als Übungstext wird das erste Kapitel von Franz Kafkas „Der Prozess“ verwendet, welcher über Projekt Gutenberg-DE frei verfügbar ist.
- Eine grundlegend normalisierte Version des Texts finden Sie hier: kafka.txt
1. Aus wie vielen types und tokens besteht der Text?
Schritt 1 – Aufruf des Tools
Navigieren Sie nun zum Web-Tool Voyant: http://voyant-tools.org/
Hinweis: Für die weitere Vertiefung finden Sie ein Tutorial zum Tool unter „Voyant Getting started„
Schritt 2 – Importieren des Übungstexts
Importieren Sie den Kafka-Text in Voyant indem Sie …
- die heruntergeladene Datei „kafka.txt“ über den Upload-Dialog hochladen,
- oder die heruntergeladene Datei „kafka.txt“ öffnen, und den Text über copy-paste in das Formularfeld einfügen,
- oder den Link zur TXT-Datei „kafka.txt“ in das Formularfeld kopieren.
Schritt 3 – Analyse des Texts auf Types und Tokens
Betrachten Sie die Standard-Analyse von Voyant:
- Was ist grundlegend zu sehen?
- Aus wie vielen tokens besteht der Text?
- Aus wie vielen types besteht der Text, und was hat es in Voyant mit sog. „unique words“ auf sich?
Beobachtung
Um types auszählen lassen zu können, müssen die Wörter zunächst auf ihre Grundformen (Lemmata) reduziert werden.
Zwischenschritt (wurde bereits vorbereitet)
Für die Beantwortung der weiteren Fragen ist eine grundlegende Wortartenannotation und Grundformenreduktion nötig. Der Übungstext wurde mit dem TreeTagger automatisch lemmatisiert und nach Wortarten annotiert (Tagset: STTS). Das Ergebnis der Annotation wurde als XML-Datei gespeichert.
Ein vollständiges Tutorial zur Erstellung eigener annotierter Ressourcen mit dem Onlinedienst WebLicht finden Sie hier: WebLicht-Tutorial
- Download: Den Kafka-Text mit grundlegender POS-Annotation und Lemmatisierung finden Sie hier: kafka.xml
2. Welche Wörter (Lemmata) kommen am häufigsten vor (mit und ohne Stoppwortliste)?
Schritt 1 – Betrachten der XML-Datei „kafka.xml“
Öffnen Sie die XML-Datei „kafka.xml“ in einem beliebigen Editor, und betrachten Sie deren grundlegende Struktur.
- Welche Informationen sind als Annotationen im Dokument hinzugefügt worden?
Exkurs – Selektion spezifischer Dokumentteile mit XPath
XPath ist ein einfacher Selektionsmechanismus, mit dem Sie spezifische Dokumentteile in einem XML-Dokument auswählen können.
Schritt 2 – Hochladen der XML-Datei auf Voyant und Definition eines XPath-Ausdrucks
Navigieren Sie abermals zur Startseite von Voyant. Nun soll allerdings nicht der gesamte Text eingelesen werden, sondern nur die Wörter, die innerhalb eines <lemma>-Tags stehen. Klicken Sie hierzu auf das kleine Zahnrad und definieren Sie im Feld „XPath to content“ den folgenden XPath-Ausdruck:
/DocumentElement/Table1/lemma
Laden Sie nun über den Upload-Dialog die Datei „kafka.xml“ hoch. Das Ergebnis ist eine Voyant-Analyse über der Lemma-Teilmenge des Dokuments, also ausschließlich der Grundformen.
Beobachtung
Nicht ganz unerwartet sind in unserem Übungstext bestimmte und unbestimmte Artikel, Konjunktionen, Personalpronomen, etc. besonders hochfrequent. Da solche Wörter typischerweise keine oder nur geringe semantische Aussagekraft haben – man spricht auch von sogenannten Synsemantika – werden sie meist mithilfe von Stoppwortlisten von der Korpusanalyse ausgenommen. Auch Voyant stellt solche Stoppwortlisten bereit, die bei Bedarf an spezifische Anwendungszwecke angepasst werden können.
Schritt 3 – Anwendung der deutschen Stoppwortliste
Wenden Sie die deutsche Stoppwortliste in Voyant (Wordcloud-Fenster > „Zahnrad-Icon“ > „Stop Word Lists“ > „German“) auf das Lemma-Teilkorpus an. Markieren Sie außerdem die Checkbox „Apply Stop Words Globally“, damit die Stoppwortliste auch für andere Analysedarstellungen in Voyant angewendet wird, und Sie eine konsistente Analyse bekommen.
Nach Anwendung der Stoppwortliste zeigt sich, dass relativ viele „unknowns“ im Text sind.
Zur Erläuterung: Wo sich der TreeTagger nicht sicher ist, wie das Lemma oder die Wortart eines Wortes lautet, trägt das Programm den Wert „unknown“ ein.
Schritt 4 – XPath-Ausdruck zur Analyse der unknowns
Formulieren Sie nun in Voyant einen XPath-Ausdruck, der den Inhalt aller Wort-Elemente selektiert, welche im Lemma-Tag den Wert „unknown“ haben:
/DocumentElement/Table1[lemma='unknown']/word
- Ist plausibel warum der TreeTagger gerade diese Wörter nicht erkannt hat?
3. Welche Wortarten kommen am häufigsten vor?
Nachdem bereits XPath-Abfragen zur Lemma-Information einzelner Wörter erstellt wurden, soll nun die Wortarten-Information abgefragt werden. Definieren Sie in Voyant einen XPath-Ausdruck der alle Wortarten-Werte selektiert:
/DocumentElement/Table1/pos
Die Wortarten sind mithilfe der Kürzel aus dem STTS getaggt worden. Es zeigt sich, dass „normale Nomen“ (NN), „Personalpronomen“ (PPER), und „Adverbien“ (ADV) zu den drei häufigsten Wortarten gehören.
4. Welche Adjektive (Lemmata) kommen am häufigsten vor?
Definieren Sie nun in Voyant einen XPath-Ausdruck, der alle Lemmata selektiert die Adjektive sind:
/DocumentElement/Table1[pos='ADJD']/lemma
5. Welche Kollokationen kommen im Text vor?
Voyant hält eine Vielzahl unterschiedlicher Analysetools und Visualisierungen bereit.
Eine ausführliche Erklärung all dieser Tools finden Sie hier: http://docs.voyant-tools.org/tools/
Schritt 1
Laden Sie wiederum den Kafka-Text (kafka.xml) hoch und selektieren Sie alle Lemmata (siehe Aufgabe 2).
/DocumentElement/Table1/lemma
Schritt 2
Wenden Sie die deutsche Stoppwortliste an, und ergänzen Sie das Wort „unknown“, um alle unbekannten Lemmata aus der Analyse auszunehmen.
Schritt 3
Öffnen Sie nun das Tool „Collocate Clusters“ im Fenster links, Mitte („Summary“) über das Diskettensymbol > „URL for a different tool / skin and current data“ > „Collocate Cluster“ > „Open this URL in a new window“.
Schritt 4
6. Vergleich von mehreren Texten
Schritt 1 – Herunterladen weiterer Kafka-Texte
Nun sollen mehrere Texte miteinander verglichen werden. Laden Sie sich hierzu zwei weitere Kafka-Texte herunter:
Originalquelle Projekt Gutenberg-DE:
- Franz Kafka, Das Schloss, Kap. 1: http://gutenberg.spiegel.de/buch/das-schloss-7656/1
- Franz Kafka, Amerika, Kap. 1: http://gutenberg.spiegel.de/buch/amerika-168/2
Download der normalisierten Textdateien:
Der Einfachheit halber können Sie einfach die folgenden Links in das Voyant-Formular kopieren:
https://dl.dropboxusercontent.com/u/4194636/kafka.txt https://dl.dropboxusercontent.com/u/4194636/kafka2.txt https://dl.dropboxusercontent.com/u/4194636/kafka3.txt
Schritt 2 – Vergleichende Analyse der Texte
Online-Version der obigen Analyse.
Digitale Textsammlungen im Web
- Projekt Gutenberg (http://gutenberg.spiegel.de)
- Open Library (https://openlibrary.org/)
- TextGrid Repository (http://www.textgridrep.de/)
- Deutsches Textarchiv (http://www.deutschestextarchiv.de/)
- Folger Digital Text (http://www.folgerdigitaltexts.org/)
- Shakespeare His Contemporaries Corpus (https://github.com/martinmueller39/SHC)
- Tiger Corpus (http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.html)
- Sammlung linguistisch annotierter Online-Korpora (http://corpus.byu.edu/)
- Monumenta Germaniae Historica (http://www.dmgh.de)
Digitale Textanalysewerkzeuge
- Voyant als Web-Tool (http://voyant-tools.org/)
- Voyant als lokale Installation (http://docs.voyant-tools.org/workshops/dh14/)
- TAPoR Tools (http://taporware.ualberta.ca/)
- AntConc (http://www.laurenceanthony.net/software.html)
- WordHoard (http://wordhoard.northwestern.edu/userman/index.html)
- WordSeer (http://wordseer.berkeley.edu/)
- WordHoard (http://wordhoard.northwestern.edu/userman/index.html)
- DocuScope (http://www.cmu.edu/hss/english/research/docuscope.html)
- MONK (http://monkpublic.library.illinois.edu/9)
- SEASR (http://www.seasr.org/)
- Überblick zu Textanalysetools auf TAPoR (http://www.tapor.ca/)
- Überblick zu Textanalysetools (und anderen DH-Tools) auf Bamboo (http://dirtdirectory.org/)
Natural Language Processing Tools zur „Vorverarbeitung
- WebLicht (http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page)
- TreeTagger (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)
- Stanford POS-Tagger (http://nlp.stanford.edu/software/tagger.shtml)
- Python NLTK (http://www.nltk.org/)
Literaturhinweise / Weblinks
- Blei, D. M. (2012) Probabilistic Topic Models. In Communications of the ACM 55(4), S. 77-84.
- Brett M. R. (2012). Topic Modeling: A Basic Introduction. In Journal of Digital Humanities 2(1).
- Busa, R. (1980). The annals of humanities computing: The index thomisticus. Computers and the Humanities, 14, 83–90. Retrieved from http://www.springerlink.com/index/C0LU521102H10283.pdf
- Eder, M., Kestemont, M., & Rybicki, J.: Stylometrie with R: a Suite of Tools.
- Jannidis, F. (2010). Methoden der computergestützen Textanalyse. In Nünning, V. & Nünning, A. (Hrsg.), Methoden der literatur- und kulturwissenschaftlichen Textanalyse, S. 109-132. Stuttgart/Weimar: Metzler.
- Jockers, M. L. (2013). Macroanalysis: Digital Methods and Literary History (Topics in the Digital Humanities). University of Illinois Press. Retrieved from http://www.amazon.com/Macroanalysis-Digital-Methods-Literary-Humanities/dp/0252079078
- Lauer, G. (2013). Die digitale Vermessung der Kultur. In H. Geiselberger & T. Moorstedt (Eds.), Big Data: Das neue Versprechen der Allwissenheit. Berlin: Suhrkamp.
- Michel, J.-B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., … Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–82. http://doi.org/10.1126/science.1199644
- Moretti, F. (2000). Conjectures on world literature. New Left Review, (Jan / Feb), 54–68.
- Moretti, F. (2007). Graphs, Maps, Trees: Abstract Models for Literary History. Verso. Retrieved from http://www.amazon.com/Graphs-Maps-Trees-Abstract-Literary/dp/1844671852
- Nünning, V. & Nünning, A. (2010), Methoden der literatur- und kulturwissenschaftlichen Textanalyse. Stuttgart/Weimar: Metzler.
- Ransom, J. C. (1937). Criticism, Inc. The Virginia Quarterly Review, (Autumn). Retrieved from http://www.vqronline.org/essay/criticism-inc-0
- Rockwell, G. (2005). What is text analysis?Underwood, T. (June 4, 2015). Seven ways humanists are using computers to understand text. Available at <http://tedunderwood.com/2015/06/04/seven-ways-humanists-are-using-computers-to-understand-text/>
- Smith, L. I. (2002). A Tutorial on Principal Components Analysis.
- Wilhelm, T., Burghardt, M. & Wolff, C. (2013). „To See or Not to See“ – An Interactive Tool for the Visualization and Analysis of Shakespeare Plays. In Franken-Wendelstorf, R., Lindinger, E. & Sieck J. (eds): Kultur und Informatik – Visual Worlds & Interactive Spaces, Berlin (pp. 175-185). Glückstadt: Verlag Werner Hülsbusch.
Workshop zur computer-basierten Dramenanalyse
Von 12.-13. März fand in München, an der Bayerischen Akademie der Wissenschaften, ein Workshop statt, der sich ganz der computer-basierten, quantitativen Analyse von Dramen widmete. Den offiziellen Workshop-Call finden Sie hier. Nach einer Einführung in den aktuellen Stand und die Geschichte quantitativer Dramenanalyse durch die Workshopveranstalterin Katrin Dennerlein (Uni Würzburg), folgten eine ganze Reihe von spannenden Vorträgen, die sowohl neue Ressourcen als auch eigene Analysestudien und Tools thematisierten.
Ein weiteres Highlight war unter anderem auch die Anwesenheit von Franco Moretti, der am Stanford Literary Lab zahlreiche spannende DH-Projekte leitet, und vor allem durch sein Konzept des „Distant Reading“ Bekanntheit über die Grenzen der Digital Humanities hinaus erlangte.
Der Regensburger Beitrag von Manuel Burghardt und Thomas Wilhelm päsentierte ein Shakespeare-Visualisierungstool. Darüber hinaus wurde ein neues, gerade entstehendes Kooperationsprojekt mit Katrin Dennerlein vorgestellt, welches flexibler angelegt ist, und versucht Dramen aus dem TextGrid-Repository quantitativ zu analysieren, und die Ergebnisse dieser Analyse interaktiv in einem einfach zu bedienenden Web-Interface für Geisteswissenschaftler verfügbar zu machen. Dabei werden insbesondere quantitative Aspekte wie die Konfigurationsdichte sowie auch die Replikenlänge und Replikenanzahl von Dramentexten berücksichtigt. Den Foliensatz zum Vortrag finden Sie hier.
Interessante Tools und Ressourcen
- Parsing XML with „ElementTree Library“ für Python: http://effbot.org/zone/element-index.htm
- Crowdsourcing-Tool zur <speaker>-Annotation: https://personae.gcdh.de/index.html
- Scalable Reading-Blog (Prof. Martin Müller): https://scalablereading.northwestern.edu/
- TransVis (Othello Time Map): http://othellomap.nand.io/
- Wolfram Alpha Drama Analysis für „Hamlet“: http://www.wolframalpha.com/input/?i=hamlet
Tools und Methoden zur quantitativen Dramenanalyse
- Stylometry with R: http://cls.ru.nl/~ihendrickx/Posters_ehum/4_Eder_Kestemont_Rybicki_Poster.pdf
- A Tutorial on Principal Components Analysis: http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
- Topic Modeling Tutorial: http://journalofdigitalhumanities.org/2-1/topic-modeling-a-basic-introduction-by-megan-r-brett/
Impressionen vom Symposium „Visual Linguistics“
View all the data – view all the combinations – view all the angles – use all the techniques! Keep looking for any kind of pattern in the data! (Mark Richard Lauersdorf, Keynote speech at „Visual Linguistics Symposium“, November 19, 2014)
Von 19. – 21.11.2014 fand ein Symposium auf Schloss Herrenhausen in Hannover statt, dass sich ganz dem Thema „Visualisierung im sprachwissenschaftlichen Kontext“ widmete. Dabei wurden auch zwei Beiträge aus der Regensburger Medieninformatik vorgestellt: Thomas Wilhelm berichtete über eine Weiterentwicklung seines interaktiven Tools zu Visualisierung von Shakespeare-Dramen (mehr Informationen). Manuel Burghardt präsentierte Ergebnisse aus einer umfangreichen Evaluationsstudie zur Usability von linguistischen Annotationswerkzeugen, und ging dabei vor allem auf die Rolle von unterschiedlichen Visualisierungsmöglichkeiten ein.
Neben vielen spannenden Beiträgen von Teilnehmern aus Mannheim, Dresden, München, Moskau, Athen, und anderen Standorten, war ein besonderes Highlight die Keynote von Maximilian Schich (UT Dallas), der seinen Science-Artikel (August 2014, Vol. 345 no. 6196, pp. 558-562) „A network framework of cultural history“ vorstellte. Im Kern geht es dabei um die diachrone Visualisierung von Geburts- und Sterbeorten bekannter Persönlichkeiten.
Das vollständige Programm zu „Visual Linguistics“ finden Sie hier. Es folgt ein Überblick über einige interessante Tools und Projekte, die im Rahmen des Symposiums vorgestellt wurden:
Tools
- CorpusExplorer: http://notes.jan-oliver-ruediger.de/corpusexplorer/
- GeoCollocations: http://bubenhofer.com/geocollocations/
- Topic Explorer: https://blogs.urz.uni-halle.de/topicexplorer/
- OWID – Visualizing Diachronic (Lexical) Information: http://www.owid.de/extras/playground/wswandel/index.html
- BAS-WebServices (Bavarian Archive for Speech Signals): http://clarin.phonetik.uni-muenchen.de/BASWebServices/#/services
- Gabmap (visualization of dialect variation): https://www.gabmap.nl
- GapMinder (visualization tool by Hans Rosling): http://www.gapminder.org/
Ressourcen
- COHA – Corpus of Historical American English: http://corpus.byu.edu/coha
- A community-curated database of well-known people, places, and things: http://www.freebase.com
- UBY – A Large-Scale Unified Lexical-Semantic Resource: https://www.ukp.tu-darmstadt.de/data/lexical-resources/uby/
Videos / Blogs
- Visual Linguistics Blog: http://visual-linguistics.net/
- TED-Talk „Hans Rosling – The best stats you’ve ever seen“: http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen
- Nature Video „Maximilian Schich et al. – Charting Culture“: https://www.youtube.com/watch?v=4gIhRkCcD4U&feature=youtu.be
Regensburger Beiträge auf der KONVENS 2014
Auf der diesjährigen Konvens stellen wir zwei Digital Humanities-Projekte aus Regensburg vor: Sentilyzer und WebNLP.
Sentilyzer
Sentilyzer ist ein web-basiertes Tool zur Sentimentanalyse von deutschsprachigen Nutzerkommentaren zu Facebook-Seiten. Das Tools sammelt die Kommentare über die Facebook Graph API und benutzt den TreeTagger, um die Daten zu lemmatisieren. Die so lemmatisierten Daten werden dann anhand des Sentiment-Lexikons „Berlin Affective Word List – Reloaded“ (BAWL-R) analysiert und interaktiv im Browser visualisiert. Das Tool wurde bereits erfolgreich in einer Fallstudie zur Analyse von Facebook-Kommentaren zur TV-Show „Ich bin ein Star – Holt mich hier raus“ eingesetzt.

Sentilyzer: Darstellung der Sentiment Scores zur Dschungelcamp-Kandidatin “Larissa Marolt” entlang der Zeitachse.
Tool-Demo: http://dh.wappdesign.net/timeline/14
Poster als PDF via ResearchGate
Publikation: Glücker, H., Burghardt, M., & Wolff, C. (2014) Sentilyzer – A Mashup Application for the Sentiment Analysis of Facebook Pages. In Ruppenhofer, J. & Faaß, G. (eds.). Workshop proceedings of the 12th edition of the KONVENS conference, S. 58 – 61. (PDF)
WebNLP
WebNLP erlaubt es über eine Web-Schnittstelle NLP-Funktionen des Python NLTK zu nutzen, und die Ergebnisse direkt im Browser darzustellen. Die Visualisierung der Ergebnisse erfolgt durch den Web-Dienst Voyant. Zudem können die Ergebnisse zur weiteren Analyse als Text- oder XML-Datei heruntergeladen werden. WebNLP macht über seine grafische Web-Schnittstelle NLP-Funktionen für ein breiteres Publikum zugänglich, und kann somit als Beitrag in Richtung Humanist-Computer Interaction gesehen werden. In der aktuellen Fassung unterstützt WebNLP als grundlegende Funktionen Tokenisierung, POS-Tagging und Lemmatisierung für englisch-sprachige Texte. Die Architektur des Tools ist allerdings so modular angelegt, dass weitere NLP-Funktionen und weitere Sprachen sukzessive ergänzt werden können.
Tool-Demo: http://dh.mi.ur.de/
Poster als PDF via ResearchGate
Publikation: Burghardt, M., Pörsch, J., Tirlea, B., & Wolff, C. (2014) WebNLP – An Integrated Web-Interface for Python NLTK and Voyant. In Ruppenhofer, J. & Faaß, G. (eds.). Proceedings of the 12th edition of the KONVENS conference, S. 235 – 240. (PDF)
Streetartfinder – Web-Anwendung zur Dokumentation und Kartierung von Streetart
Unter Streetart versteht man selbstautorisiert angebrachte Zeichen aller Art im urbanen Raum, die mit einem weiteren Personenkreis kommunizieren wollen. (Wikipedia-Definition zu Streetart)
Mit dem Streetartfinder liegt eine Web-Anwendung vor, die es ermöglicht Streetart-Bilder auf eine gemeinsame Plattform hochzuladen. Dabei werden Informationen zur Geolocation erfasst, welche es der Anwendung erlauben eine interaktive Karte der hochgeladenen Streetartbilder zu erstellen.
Zusätzlich werden Informationen zum Uploader, zum Datum des Uploads sowie zur Streetart-Kategorie gespeichert. Zu diesen Kategorien gehören Graffiti, Stencil, Painting, Paste-Up, Installation und Sonstiges. Ziel ist der Aufbau einer umfangreichen digitalen Ressource zum Thema „Streetart“, welche in Folgestudien mit kunsthistorischen, soziologischen und kulturwissenschaftlichen Ansätzen näher untersucht werden können.
Webseite: http://streetartfinder.de/
Artikel bei kult: http://www.kult.de/neu-in-regensburg/kleine-kunstwerke-sichtbar-machen/150/11/1030914/
Facebook: https://www.facebook.com/streetartfinder
Publikation (Poster DHd 2015): „StreetartFinder – Eine Datenbank zur Dokumentation von Kunst im urbanen Raum“ (Download Poster + Extended Abstract)
To See or Not to See – Visualisierung und Analyse von Shakespeare-Dramen
„To See or Not to See“ ist ein web-basiertes Interface, welches die Visualisierung und Analyse quantitativer Aspekte aus Shakespeare-Dramen erlaubt. Die Datengrundlage stellen dabei Texte aus der Folger Digital Library, welche vollständig mit strukturellem TEI-Markup versehen sind, dar. Das Interface visualisiert dabei grundlegend welcher Character was und wieviel zu einem bestimmten Zeitpunkt im Stück sagt.
Tool-Demo: http://www.thomaswilhelm.eu/shakespeare/
Publikation: Wilhelm, T., Burghardt, M., & Wolff, C. (2013). „To See or Not to See“ – An Interactive Tool for the Visualization and Analysis of Shakespeare Plays. In Franken-Wendelstorf, R., Lindinger, E., & Sieck, J. (eds.) Kultur und Informatik: Visual Worlds & Interactive Spaces. Verlag Werner Hülsbusch, Glückstadt, S. 175-185. (PDF)