CINXE.COM

<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" > <channel> <title>Im Zentrum Sprache</title> <atom:link href="https://sprache.hypotheses.org/feed" rel="self" type="application/rss+xml" /> <link>https://sprache.hypotheses.org</link> <description>Untersuchungen zur deutschen Sprache in Geschichte und Gegenwart</description> <lastBuildDate>Wed, 13 Jan 2021 14:07:26 +0000</lastBuildDate> <language>de-DE</language> <sy:updatePeriod> hourly </sy:updatePeriod> <sy:updateFrequency> 1 </sy:updateFrequency> <generator>https://wordpress.org?v=5.5.3</generator> <image> <url>https://sprache.hypotheses.org/files/2017/01/cropped-DTA-logo-1-32x32.png</url> <title>Im Zentrum Sprache</title> <link>https://sprache.hypotheses.org</link> <width>32</width> <height>32</height> </image> <item> <title>Zum neuen Jahr neue Zeitungsquellen im ZDL-Regionalkorpus</title> <link>https://sprache.hypotheses.org/2396</link> <comments>https://sprache.hypotheses.org/2396#respond</comments> <dc:creator><![CDATA[Andreas Nolda]]></dc:creator> <pubDate>Mon, 11 Jan 2021 21:02:33 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2396</guid> <description><![CDATA[Autoren: Alexander Geyken und Andreas Nolda Seit dem 4. Januar 2021 sind im ZDL-Regionalkorpus des Zentrums für digitale Lexikographie der deutschen Sprache zusätzliche Zeitungsquellen verfügbar, die bisher unterrepräsentierte Areale oder Zeiträume abdecken. In den sechs Spracharealen (D-Nordwest bis D-Südost), die gegenwärtig vom ZDL-Regionalkorpus abgedeckt werden, können nunmehr 26 Zeitungsquellen recherchiert werden. Der Bestand des ZDL-Regionalkorpus wächst damit um gut 2 Mrd. Tokens auf ca. 8,65 Mrd. Tokens in 30 Mio. Dokumenten. Für die Einräumung der Nutzungsrechte, die den angemeldeten Nutzerinnen und Nutzern des DWDS … <a href="https://sprache.hypotheses.org/2396" class="more-link">Zum neuen Jahr neue Zeitungsquellen im ZDL-Regionalkorpus weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Autoren: Alexander Geyken und Andreas Nolda Seit dem 4. Januar 2021 sind im <a href="https://www.dwds.de/d/korpora/regional">ZDL-Regionalkorpus</a> des <a href="https://www.zdl.org">Zentrums für digitale Lexikographie der deutschen Sprache</a> zusätzliche Zeitungsquellen verfügbar, die bisher unterrepräsentierte Areale oder Zeiträume abdecken. In den sechs Spracharealen (D-Nordwest bis D-Südost), die gegenwärtig vom ZDL-Regionalkorpus abgedeckt werden, können nunmehr 26 Zeitungsquellen recherchiert werden. Der Bestand des ZDL-Regionalkorpus wächst damit um gut 2 Mrd. Tokens auf ca. 8,65 Mrd. Tokens in 30 Mio. Dokumenten. Für die Einräumung der Nutzungsrechte, die den angemeldeten Nutzerinnen und Nutzern des DWDS Korpusrecherche in diesen Zeitungsquellen ermöglicht, möchten wir uns bei allen unten genannten Zeitungsverlagen bedanken. Ein besonderer Dank geht an die <a href="https://www.genios.de">GBI-Genios Deutsche Wirtschaftsdatenbank GmbH</a>, die die in Corona-Zeiten bisweilen langwierigen Rechteverhandlungen mit den Zeitungsverlagen sehr zielgerichtet und im Sinne der Nutzerinnen und Nutzer des DWDS geführt hat und für die digitale Bereitstellung der Quellen der unten aufgeführten Zeitungen sorgt (außer der Süddeutschen Zeitung). Schließlich möchten wir uns bei der <a href="https://www.sz-archiv.de/diz-muenchen">Dokumentations- und InformationsZentrum München GmbH </a>für die Einräumung der Nutzungsrechte sowie die Bereitstellung der digitalen Daten der Süddeutschen Zeitung bedanken. Zur Anmeldung für die Recherche im ZDL-Regionalkorpus: <a href="https://www.dwds.de/r?corpus=regional">https://www.dwds.de/r/?corpus=regional</a>. Das ZDL-Regionalkorpus umfasst nunmehr die Lokal- und Regionalteile von 26 Zeitungsquellen (Neuzugänge sind durch Fettdruck hervorgehoben): <ul> <li>Areal D-Nordwest: <ul> <li>Hamburger Abendblatt (ab 1999)</li> <li>Kieler Nachrichten (ab 2017)</li> <li>Neue Osnabrücker Zeitung (ab 2012)</li> <li>Neue Westfälische (ab 2003)</li> </ul> </li> <li>Areal D-Nordost: <ul> <li>Berliner Morgenpost (ab 1999)</li> <li>Norddeutsche Neueste Nachrichten (ab 2012)</li> <li>Der Prignitzer (ab 2012)</li> <li>Schweriner Volkszeitung (ab 2004)</li> <li>Der Tagesspiegel (ab 2005)</li> </ul> </li> <li>Areal D-Mittelwest: <ul> <li>Aachener Zeitung (ab 2003)</li> <li>Allgemeine Zeitung (Mainz) (ab 2002)</li> <li>Frankfurter Rundschau (ab 1995)</li> <li>Rhein-Zeitung (ab 1997)</li> <li>Saarbrücker Zeitung (ab 1993)</li> </ul> </li> <li>Areal D-Mittelost: <ul> <li>Döbelner Allgemeine Zeitung (ab 2011)</li> <li>Dresdner Neueste Nachrichten (ab 2011)</li> <li>Leipziger Volkszeitung (ab 1997)</li> <li>Thüringer Allgemeine (ab 2000)</li> </ul> </li> <li>Areal D-Südwest: <ul> <li>Badische Zeitung (ab 2003)</li> <li>Reutlinger General-Anzeiger (ab 2007)</li> <li>Südkurier (ab 1999)</li> </ul> </li> <li>Areal D-Südost: <ul> <li>Fränkischer Tag (ab 2005)</li> <li>Landshuter Zeitung (ab 2014)</li> <li>Mittelbayerische (ab 2014)</li> <li>Münchner Merkur (ab 2016)</li> <li>Süddeutsche Zeitung (ab 2005)</li> </ul> </li> </ul> Die Verteilung der Zeitungsquellen über die deutschen Areale veranschaulicht die folgende Karte, die unter Verwendung von Kartenmaterial des SprachGIS auf <a href="https://www.regionalsprache.de">Regionalsprache.de (REDE)</a> erstellt wurde: <a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2021/01/regionalkorpus_dokumentation.svg"><img class="alignnone size-medium wp-image-2404" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2021/01/regionalkorpus_dokumentation.svg" alt="Zeitungsquellen im ZDL-Regionalkorpus (Stand: Januar 2021)" /></a> Nähere Informationen zu den Recherchemöglichkeiten im ZDL-Regionalkorpus finden Sie im <a href="https://sprache.hypotheses.org/1917">Blogpost „Neu im DWDS: Das ZDL-Regionalkorpus“</a>. ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2396/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Die Webkorpora im DWDS: Jahresrückblick</title> <link>https://sprache.hypotheses.org/2372</link> <comments>https://sprache.hypotheses.org/2372#respond</comments> <dc:creator><![CDATA[Adrien Barbaresi]]></dc:creator> <pubDate>Wed, 16 Dec 2020 16:15:00 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Blogosphäre]]></category> <category><![CDATA[Webkorpora]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2372</guid> <description><![CDATA[Mit Hilfe großer Korpora können Hypothesen über die Verwendung lexikalischer Einheiten empirisch belegt werden. Das DWDS bietet dafür, neben den zeitlich und in Bezug auf Textsorten ausgewogenen Referenzkorpora und den Zeitungskorpora, eine Reihe von allgemeinen und spezialisierten Korpora an. Letztere heben sich hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora ab. Wie aber werden für das Webkorpus relevante Webseiten “entdeckt”? Es gibt derzeit kein umfassendes Verzeichnis von Webseiten oder Blogs, von dem man für die Zusammenstellung einer solchen Textsammlung ausgehen könnte. … <a href="https://sprache.hypotheses.org/2372" class="more-link">Die Webkorpora im DWDS: Jahresrückblick weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Mit Hilfe großer Korpora können Hypothesen über die Verwendung lexikalischer Einheiten empirisch belegt werden. Das DWDS bietet dafür, neben den zeitlich und in Bezug auf Textsorten ausgewogenen<a href="https://www.dwds.de/d/k-referenz"> Referenzkorpora</a> und den<a href="https://www.dwds.de/d/k-zeitung"> Zeitungskorpora</a>, eine Reihe von allgemeinen und spezialisierten Korpora an. Letztere heben sich hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora ab. Wie aber werden für das Webkorpus relevante Webseiten “entdeckt”? Es gibt derzeit kein umfassendes Verzeichnis von Webseiten oder Blogs, von dem man für die Zusammenstellung einer solchen Textsammlung ausgehen könnte. Es bedarf also maschineller Methoden, das Web wird via Webcrawling erkundet und Funde im Anschluss in Bezug auf ihre Qualität bewertet. Bei diesem Vorgehen streben wir über die Integration statistischer Merkmale und über formale Kontrollen an, ein Gleichgewicht hinsichtlich des Inhalts zu gewährleisten. Auf diese Weise haben wir die Webkorpora im DWDS auch im Jahr 2020 massiv erweitern und umstrukturieren können. Dieser Blogeintrag möchte die wichtigsten Änderungen und Neuerungen zusammenfassen. <h3>Kuration und Zusammenfassung der älteren Webkorpora</h3> Die bereits vorhandenen Webdaten wurden hinsichtlich ihrer Adäquatheit gesichtet, außerdem wurden die Entdeckungs- und Extraktionsverfahren verbessert (dafür genutzte Software, s.u.). Die Daten sind nun in zusammengefasster Form von einer Suchmaske aus durch das<a href="https://www.dwds.de/d/korpora/webxl"> Metakorpus WebXL</a> en masse abfragbar. Dies ermöglicht Korpusrecherchen auf der Basis großer Textmengen, derzeit über 11 Milliarden<a href="https://www.dwds.de/wb/Token"> Tokens</a>. Das Metakorpus besteht hauptsächlich aus dem ihm zugrundeliegenden allgemeinen<a href="https://www.dwds.de/d/korpora/web"> Webkorpus</a>, das mehrere Hunderttausend unterschiedliche Webseiten auf Deutsch (vor allem aus Deutschland, Österreich und der Schweiz) umfasst. Aus formaler Sicht müssen relevante Seiten für die lexikographische Arbeit wichtige Metadaten wie Datum und Titel aufweisen, das Korpus enthält also vergleichsweise viele Blogeinträge. Die Webseiten werden sowohl professionell (z. B. von Nachrichtenredaktionen oder Firmen) als auch privat (von Vereinen, Gemeinschaften, Einzelpersonen mit Hobbys) betrieben, so dass das Korpus Sprechsituationen unterschiedlichster Art abdeckt. Alle Webkorpora werde nun auf<a href="https://www.dwds.de/d/k-web"> Übersichtsseiten</a> aufgelistet und beschrieben. So kann man sich einen Überblick über ihre Zusammensetzung aus allgemeinen und thematisch fokussierten Textsammlungen verschaffen. Sie werden nach und nach erweitert und aktualisiert. <figure id="attachment_2392" aria-describedby="caption-attachment-2392" style="width: 500px" class="wp-caption aligncenter"><img loading="lazy" class="wp-image-2392 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/12/dwds-webkorpora-500x226.png" alt="Tabellarische Übersicht der Webkorpora" width="500" height="226" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/12/dwds-webkorpora-500x226.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/12/dwds-webkorpora-300x135.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/12/dwds-webkorpora-768x346.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/12/dwds-webkorpora.png 869w" sizes="(max-width: 500px) 100vw, 500px" /><figcaption id="caption-attachment-2392" class="wp-caption-text">Momentaufnahme, Dez. 2020</figcaption></figure> <h3>Neu entstandene Spezialkorpora</h3> <h4>Medizinkorpus</h4> Das<a href="https://www.dwds.de/d/korpora/medizin"> Webkorpus Medizin</a> ermöglicht es, die deutsche Sprache rund um das Thema „Medizin im Internet“ linguistisch zu untersuchen. Es erlaubt qualitative Einsichten in die Expert:innen-Laien-Kommunikation zu medizinischen Themen sowie in Erfahrungsberichte von Patient:innen und Mediziner:innen. Ziel bei der Textauswahl war es, eine möglichst ausgeglichene Textsammlung herzustellen: Es finden sich Erfahrungsberichte von Personen aus entsprechenden Berufsgruppen, die aus ihrem Alltag in der Praxis erzählen – von der Medizinstudentin über den Krankenpfleger bis zur Chirurgin und viele mehr. Auch die Gegenperspektive ist im Korpus analysierbar: Die Sammlung beinhaltet Geschichten von Erkrankten, die in Blogs und Interviews von ihren Erfahrungen mit dem Krank-Sein und der medizinischen Behandlung erzählen. <h4>Jurakorpus</h4> Das<a href="https://www.dwds.de/d/korpora/jura"> Webkorpus Jura</a> ermöglicht qualitative linguistische Untersuchungen der deutschen Sprache in Bezug auf juristische Themen im Internet. Entsprechend finden sich darin zahlreiche so genannte »Blawgs«, Jura-Blogs von Jurist:innen, die von ihrer Arbeit berichten und juristische Themen für ein breites Publikum aufbereiten. Des Weiteren wurden Webseiten von Kanzleien – so sie Informationen vermitteln, die über das bloße Bewerben ihrer Kanzleien hinausgehen – aufgenommen. In die Kategorie der Vermittlung juristischen Wissens gehören auch Informations- und Nachrichtenseiten. <h4>Coronakorpus</h4> Das<a href="https://www.dwds.de/d/korpora/corona"> Coronakorpus</a> sammelt deutschsprachige Webseiten, die sich mit der COVID-19-Pandemie (u. a. aus einer erkenntnistheoretischen, gesellschaftlichen, politischen oder wirtschaftlichen Perspektive) und mit dem Virus selbst (u. a. aus medizinischer Sicht) beschäftigen. Das Korpus wird sukzessive aktualisiert, zuletzt Ende November 2020. Bei der Aufstellung wurden bestimmte Kriterien beachtet, um ein Gleichgewicht zwischen den Quellen zu sichern, damit das Korpus vielfältig/vielschichtig und bezüglich Quelle/Land und bestmöglich Genre ausgewogen bleibt. Das zusammengetragene Material wird<a href="https://github.com/adbar/coronakorpus"> öffentlich zur Verfügung gestellt</a>, was das Korpus weitestgehend reproduzierbar macht. <h4>Aktualisierung des Korpus „Mode- und Beautyblogs“</h4> Die Textsammlung zum Thema „Mode- und Beautyblogs“ besteht nun aus mehreren Hundert Blogs, die ihrem inhaltlichen Fokus und ihrer Prominenz entsprechend ausgewählt worden sind. Die Überschneidungen zwischen Mode- und Beauty-Blogs sind zahlreich, doch sollte der Bereich Mode als der thematische Schwerpunkt der Sammlung immer erkennbar sein. Die meisten erfassten Webseiten decken ein breiteres Themenspektrum ab und weisen in dieser Hinsicht untereinander erstaunliche Ähnlichkeit auf: Zahlreiche Einträge widmen sich beispielsweise den Themen Lifestyle und Reise, auch Einträge zu Themen wie Familie bzw. Mutterschaft, Essen, Fitness, Interior Design usw. wurden ins Korpus integriert. <h3>Dokumentation, Reproduzierbarkeit und Software</h3> Die computergestützten Werkzeuge zur Sammlung und Kuration der Webkorpora werden für die Transparenz des Verfahrens und mit Blick auf die Reproduzierbarkeit der Ergebnisse online gestellt und dokumentiert. Das grundsätzliche Problem besteht darin, dass die Originalsammlung selbst nicht uneingeschränkt kopiert und weitergegeben werden darf. Die Nutzung des<a href="https://www.dwds.de/d/korpussuche"> DWDS-Portals als Suchmaschine</a> ist aber möglich, ebenso wie das Tätigen eigenhändiger Downloads, um die Sammlung zu replizieren. Auf diesem Wege muss kein Zugang zu den Rohdaten gewährt und keine unmittelbare Kopie erzeugt werden. Die dafür benötigten Tools sind frei und kostenlos verfügbar und erfordern keine fortgeschrittenen IT-Kenntnisse. Der erste vollständig dokumentierte Veröffentlichungsschritt betrifft die Bestimmung des Entstehungsdatums von Webseiten: htmldate,<a href="https://github.com/adbar/htmldate"> online</a> und in<a href="https://doi.org/10.21105/joss.02439"> Journal of Open Source Software</a>. Ein nützlicher Nebeneffekt der Bereitstellung von Open Source Code besteht in einer Feedbackschleife: Dritte können die Software testen und gegebenenfalls anpassen oder verbessern. Bei Interesse an den Quelltexten siehe diese Anleitung:<a href="https://trafilatura.readthedocs.io/en/latest/tutorial-dwds.html"> Tutorial: DWDS-Korpusdaten reproduzieren</a>. ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2372/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Virtuelles DH-Kolloquium am 4.12.2020: „Dynamische Formate im DWDS“</title> <link>https://sprache.hypotheses.org/2366</link> <comments>https://sprache.hypotheses.org/2366#respond</comments> <dc:creator><![CDATA[Susanne Haaf]]></dc:creator> <pubDate>Wed, 25 Nov 2020 17:06:00 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Veranstaltungen]]></category> <category><![CDATA[BBAW]]></category> <category><![CDATA[Digital Humanities]]></category> <category><![CDATA[Digitale Lexikographie]]></category> <category><![CDATA[Linguistik]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2366</guid> <description><![CDATA[Am Freitag, dem 4. Dezember 2020, von 17 Uhr bis ca. 19 Uhr, findet erneut das virtuelle DH-Kolloquium der BBAW statt. Diesmal werden PD Dr. Alexander Geyken und Julia Naji (beide Berlin-Brandenburgische Akademie der Wissenschaften) die neuen dynamischen Formate des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) vorstellen. Der Vortrag wird vorab aufgezeichnet und rechtzeitig vor Beginn des Kolloquiums bereitgestellt. Der Link zum Vortrag wird parallel auf Twitter (@DHBBAW) sowie im Channel „berlin_dhberlin“ auf der Plattform discord (⇒ Einladungslink: https://discord.gg/sw4D5NN) gepostet. Weitere Informationen zur Veranstaltung sowie … <a href="https://sprache.hypotheses.org/2366" class="more-link">Virtuelles DH-Kolloquium am 4.12.2020: „Dynamische Formate im DWDS“ weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Am Freitag, dem 4. Dezember 2020, von 17 Uhr bis ca. 19 Uhr, findet erneut das virtuelle DH-Kolloquium der BBAW statt. Diesmal werden PD Dr. Alexander Geyken und Julia Naji (beide Berlin-Brandenburgische Akademie der Wissenschaften) die neuen dynamischen Formate des <a href="http://www.dwds.de" target="_blank" rel="noreferrer noopener">Digitalen Wörterbuchs der Deutschen Sprache</a> (DWDS) vorstellen. Der Vortrag wird vorab aufgezeichnet und rechtzeitig vor Beginn des Kolloquiums bereitgestellt. Der Link zum Vortrag wird parallel auf Twitter (<a href="https://twitter.com/DHBBAW">@DHBBAW</a>) sowie im Channel „berlin_dhberlin“ auf der Plattform discord (⇒ Einladungslink: <a href="https://discord.gg/sw4D5NN">https://discord.gg/sw4D5NN</a>) gepostet. Weitere Informationen zur Veranstaltung sowie das Abstract zum Vortrag finden Sie unter: <a rel="noreferrer noopener" href="https://dhd-blog.org/?p=14696" target="_blank">https://dhd-blog.org/?p=14696</a> Näheres zur Veranstaltungsreihe erfahren Sie unter: <a href="https://www.bbaw.de/bbaw-digital/digital-humanities/aktivitaeten-und-veranstaltungen/dh-kolloquium">https://www.bbaw.de/bbaw-digital/digital-humanities/aktivitaeten-und-veranstaltungen/dh-kolloquium</a> ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2366/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Heute: Virtuelles DH-Kolloquium zum Thema: „Redewiedergabe“</title> <link>https://sprache.hypotheses.org/2357</link> <comments>https://sprache.hypotheses.org/2357#respond</comments> <dc:creator><![CDATA[Susanne Haaf]]></dc:creator> <pubDate>Fri, 13 Nov 2020 09:24:25 +0000</pubDate> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Veranstaltungen]]></category> <category><![CDATA[BBAW]]></category> <category><![CDATA[Digital Humanities]]></category> <category><![CDATA[Distant Reading]]></category> <category><![CDATA[Korpuslinguistik]]></category> <category><![CDATA[Machine Learning]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2357</guid> <description><![CDATA[Am heutigen 13. November 2020, von 17 Uhr bis ca. 19 Uhr, findet erneut das virtuelle DH-Kolloquium der BBAW statt, diesmal mit Referentin Dr. Annelen Brunner (Leibniz-Institut für Deutsche Sprache Mannheim) und dem Thema: „Redewiedergabe – Korpusressourcen & Automatische Erkenner“. Der Vortrag wurde vorab aufgezeichnet und kann unter https://vimeo.com/477623161 angesehen werden. Ab 17 Uhr findet dann heute die Diskussion zum Vortrag im Channel „berlin_dhberlin“ auf der Plattform discord (⇒ Einladungslink: https://discord.gg/sw4D5NN) statt. Seien Sie herzlich eingeladen, dort mitzudiskutieren! Weitere Informationen zur Veranstaltung finden Sie unter: https://dhd-blog.org/?p=14587 … <a href="https://sprache.hypotheses.org/2357" class="more-link">Heute: Virtuelles DH-Kolloquium zum Thema: „Redewiedergabe“ weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Am heutigen 13. November 2020, von 17 Uhr bis ca. 19 Uhr, findet erneut das virtuelle DH-Kolloquium der BBAW statt, diesmal mit Referentin Dr. Annelen Brunner (Leibniz-Institut für Deutsche Sprache Mannheim) und dem Thema: „Redewiedergabe – Korpusressourcen & Automatische Erkenner“. Der Vortrag wurde vorab aufgezeichnet und kann unter <a href="https://vimeo.com/477623161">https://vimeo.com/477623161</a> angesehen werden. Ab 17 Uhr findet dann heute die Diskussion zum Vortrag im Channel „berlin_dhberlin“ auf der Plattform discord (⇒ Einladungslink: <a href="https://discord.gg/sw4D5NN">https://discord.gg/sw4D5NN</a>) statt. Seien Sie herzlich eingeladen, dort mitzudiskutieren! Weitere Informationen zur Veranstaltung finden Sie unter: <a href="https://dhd-blog.org/?p=14587">https://dhd-blog.org/?p=14587</a> Näheres zur Veranstaltungsreihe erfahren Sie unter: <a href="https://www.bbaw.de/bbaw-digital/digital-humanities/aktivitaeten-und-veranstaltungen/dh-kolloquium">https://www.bbaw.de/bbaw-digital/digital-humanities/aktivitaeten-und-veranstaltungen/dh-kolloquium</a> ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2357/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Digitalisierung, Aufbereitung und Annotation des Friedhofsregister der jüdischen Gemeinde zu Strelitz (1740–1923)</title> <link>https://sprache.hypotheses.org/2281</link> <comments>https://sprache.hypotheses.org/2281#respond</comments> <dc:creator><![CDATA[Sebastian Göttel]]></dc:creator> <pubDate>Sun, 08 Nov 2020 11:17:00 +0000</pubDate> <category><![CDATA[Datenkuration]]></category> <category><![CDATA[Forschungsdaten]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[Tutorial]]></category> <category><![CDATA[ALTO/METS]]></category> <category><![CDATA[CC BY-SA 4]]></category> <category><![CDATA[cementry-records]]></category> <category><![CDATA[DFG-Viewer]]></category> <category><![CDATA[Digital Humanities]]></category> <category><![CDATA[Digitale Edition]]></category> <category><![CDATA[Digitalisierung]]></category> <category><![CDATA[jewish-heritage]]></category> <category><![CDATA[Mecklenburg]]></category> <category><![CDATA[Strelitz]]></category> <category><![CDATA[TEI/XML]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2281</guid> <description><![CDATA[Der folgende Artikel erläutert die einzelnen Schritte, die angewandt wurden, um das Friedhofsregister der jüdischen Gemeinde zu Strelitz so aufzubereiten, dass es volltextdurchsuchbar, maschinenlesbar, XML-annotiert und im Ausgangsformat als TEI/XML sowie ALTO verfügbar ist. Am Ende stehen zwei „Produkte“: Einerseits die Ansicht des TEIs im Deutschen Textarchiv, zur Korrektur und vollen Nutzbarkeit des TEI; andererseits die Ansicht im DFG-Viewer mittels generierter METS, zur zeilengenauen Ansicht des transkribierten Textes. Es wurde der Versuch unternommen, die dafür notwendigen Schritte und verwendeten Tools bestmöglich zu erläutern. Ein … <a href="https://sprache.hypotheses.org/2281" class="more-link">Digitalisierung, Aufbereitung und Annotation des Friedhofsregister der jüdischen Gemeinde zu Strelitz (1740–1923) weiterlesen →</a>]]></description> <content:encoded><![CDATA[Der folgende Artikel erläutert die einzelnen Schritte, die angewandt wurden, um das Friedhofsregister der jüdischen Gemeinde zu Strelitz so aufzubereiten, dass es volltextdurchsuchbar, maschinenlesbar, XML-annotiert und im Ausgangsformat als TEI/XML sowie ALTO verfügbar ist. Am Ende stehen zwei „Produkte“: Einerseits die Ansicht des TEIs im Deutschen Textarchiv, zur Korrektur und vollen Nutzbarkeit des TEI; andererseits die Ansicht im DFG-Viewer mittels generierter METS, zur zeilengenauen Ansicht des transkribierten Textes. Es wurde der Versuch unternommen, die dafür notwendigen Schritte und verwendeten Tools bestmöglich zu erläutern. Ein kurzer historischer Abriss zur jüdischen Gemeinde zu Strelitz, der die Motivation für dieses Vorhabens begründet, leitet den Aufsatz ein. <ol style="list-style-type: upper-roman"> <li><a href="#geschichte">Zur Geschichte des der jüdischen Gemeinde und des Friedhofs in Strelitz</a></li> <li><a href="#allgemeines">Allgemeines zum Friedhofsregister</a></li> <li><a href="#preprocessing">Preprocessing</a></li> <li><a href="#layouterkennung">Layouterkennung, Transkription und Annotation in Transkribus</a></li> <li><a href="#postprocessing">Postprocessing – der Weg zum TEI</a></li> <li><a href="#mets">Generierung der METS aus ALTO</a></li> <li><a href="#ausblick">Ausblick</a></li> <li><a href="#digitalisate">Digitalisate – TEI/XML und ALTO/METS</a></li> </ol> <h2 id="geschichte"><a id="geschichte"></a>Zur Geschichte des der jüdischen Gemeinde und des Friedhofs in Strelitz</h2> <figure style="width: 400px" class="wp-caption alignnone"><img loading="lazy" src="https://i.imgur.com/gxswSPg.jpg" alt="" width="400" height="962" /><figcaption class="wp-caption-text">Inneres der Synagoge in Strelitz<a href="https://sprache.hypotheses.org/2281#footnote_0_2281" id="identifier_0_2281" class="footnote-link footnote-identifier-link" title="Georg, Kurt: Kunst- und Geschichts-Denkmäler des Freistaates Mecklenburg-Strelitz. I Band: Das Land Stargard. Neubrandenburg: Brünslowsche Verlagsbuchhandlung 1921, S. 131.">1</a></figcaption></figure> Die jüdische Gemeinde zu Strelitz (heute <a href="https://de.wikipedia.org/wiki/Strelitz-Alt" target="_blank" rel="noopener noreferrer">Strelitz-Alt</a>, Stadtteil von Neustrelitz) in Mecklenburg war im Laufe ihres Bestehens, insbesondere im 19. Jahrhundert, eine der größten jüdischen Gemeinden Mecklenburgs. Die Einweihungsfeier zur Synagoge in Strelitz fand am 5. September 1763 statt<a href="https://sprache.hypotheses.org/2281#footnote_1_2281" id="identifier_1_2281" class="footnote-link footnote-identifier-link" title="vgl. Donath, Leopold: Geschichte der Juden in Mecklenburg von den ältesten Zeiten (1266) bis auf die Gegenwart (1874), Leipzig: Verlag Oskar Leiner 1874, S. 138. Online verfügbar GoogleBooks.">2</a> Zu dieser Zeit lebten bereits etwa 130 jüdische Familien in Strelitz<a href="https://sprache.hypotheses.org/2281#footnote_2_2281" id="identifier_2_2281" class="footnote-link footnote-identifier-link" title="vgl. Tychsen, Oluf Gerhard: Bützowische Nebenstunden. Dritter Theil, Bützow 1768, S.5. Online verfügbar GoogleBooks">3</a>. Der Herzog zu Mecklenburg, Adolf Friedrich III., gewährte im 18. Jahrhundert immer mehr Personen jüdischen Glaubens die Ansiedlung im Herzogtum. In diesem Zusammenhang kann man schon fast von einer Förderung der Zuwanderung sprechen, denn der Herzog und die Landesregierung erhofften sich dadurch eine wirtschaftliche Stärkung des Herzogtums. <figure style="width: 400px" class="wp-caption alignleft"><img loading="lazy" src="https://i.imgur.com/X4ZLpaR.png" alt="" width="400" height="962" /><figcaption class="wp-caption-text">Synoge zu Strelitz 1763<a href="https://sprache.hypotheses.org/2281#footnote_3_2281" id="identifier_3_2281" class="footnote-link footnote-identifier-link" title="Georg, Kurt: Kunst- und Geschichts-Denkmäler des Freistaates Mecklenburg-Strelitz. I Band: Das Land Stargard. Neubrandenburg: Brünslowsche Verlagsbuchhandlung 1921, S. 130.">4</a></figcaption></figure> Zum einen sollten die jüdischen Kaufleute und Händler die Region wirtschaftlich stärken, zum anderen zahlten sie aber auch eine Schutzsteuer, eine jährliche (teilweise auch vierteljährliche) Zahlung, die ihnen erlaubte, dass sie überhaupt kaufmännisch tätig werden und in der Region einen Wohnsitz schaffen konnten. Dieses landesherrliche Privileg erteilte ihnen damit die Konzession, geregelter Arbeit nachzugehen und sich niederzulassen. Gleichzeitig sollten sie aber auch nicht in zu starke Konkurrenz mit christlichen Kaufleuten treten. Die herzogliche Landesregierung stellte diese Schutzbriefe zwar aus, zumindest sofern erwartbar war, dass der Antragstellende zukünftig wirtschaftlich unabhängig sein würde, war aber gleichzeitig ganz im Geiste der Zeit antisemitisch vorurteilsbehaftet und fürchtete um die kaufmännische Existenz der christlichen Bevölkerung. Das Gesuch des Vaters von Daniel Sanders, Hendel Sanders, im Jahr 1808, zeigt exemplarisch wie die Landesregierung auf die Bitte um Erlaubnis mit Tabak und Leder handeln zu dürfen, gegenüber dem Herzog Karl II., reagiert und Mitteilung macht: <blockquote>Ueberdies haben Ew. Herzog. Duchl. bei gnädigster Ertheilung der Schutzbriefe an die Juden unsers Wissens stets die Regel beobachtet, die selben nur auf kleinen Handel im Allgemeinen zu concessionieren […] Leider sehen wir zwar vor Augen daß diese Höchste Absicht nicht erreicht wird weil die Juden nach ihner bekannten Denkungsart, wonach sie, wenn ihnen der Finger zu nehmen concedirt wird, nach dem ihnen stets beiwohnenden Dünkel, sich die ganze Hand bedienen<a href="https://sprache.hypotheses.org/2281#footnote_4_2281" id="identifier_4_2281" class="footnote-link footnote-identifier-link" title="Landeshauptarchiv Schwerin: 4.11-16 Judenangelegenheiten (Acta judaeorum) Mecklenburg-Strelitz, Nr. 271.">5</a>.</blockquote> Sanders erhält schließlich sein „Privileg“ und wird Schutzjude, der Handel mit Tabak wird ihm jedoch nicht gestattet. 1802 waren es schon etwa 800 Menschen israelitischen Glaubens, die in Mecklenburg-Strelitz lebten – davon allein 600 in Strelitz<a href="https://sprache.hypotheses.org/2281#footnote_5_2281" id="identifier_5_2281" class="footnote-link footnote-identifier-link" title="vgl. Donath, Leopold: Geschichte der Juden in Mecklenburg von den ältesten Zeiten (1266) bis auf die Gegenwart (1874), Leipzig: Verlag Oskar Leiner 1874, S. 139. Online verfügbar GoogleBooks. Für eine ausführliche Geschichte zur jüdische Gemeinde zu Strelitz s. den Abschnitt &bdquo;Neustrelitz“ unter &bdquo;Juden in Mecklenburg“ von Jürgen Gramenz und Sylvia Ulmer.">6</a> Der jüdische Friedhof in Strelitz war einer der ältesten in ganz Mecklenburg und wurde 1728 angelegt. Der Friedhof ist heute nicht mehr existent; es stehen zwar noch zwei Grabsteine, diese sind aber umgebettet worden und besitzen eher repräsentativen Charakter. Das Dritte Reich überstand der Friedhof wohl nahezu unbeschadet, die Angaben hierzu sind allerdings sehr unterschiedlich. In der Neustrelitzer Ausgabe der „Landeszeitung“ heißt es in einem Artikel vom 9. September 1949: „Als in der berüchtigten Kristallnacht 1938 […] braun-uniformierte Nazirowdys die Friedhofsmauer stürmten und sich auf dem Friedhof selbst […] schlimmer als Barbaren benahmen, war es um die Sehenswürdigkeit des Alt Strelitzer Judenfriedhofs geschehen […]. Der Friedhof wurde zum Spiegel der faschistischen Willkür.“ Nichtsdestotrotz ist davon auszugehen, dass viele Grabsteine die Verwüstungen überstanden und die größten Schäden durch äußere Witterungseinflüsse sowie mangelnde Instandhaltung und Pflege des Areals entstanden. Der Bezirkskonservator für Vor- und Frühgeschichte schreibt im Juli 1950 an den Rat der Stadt Neustrelitz, dass sich der jüdische Friedhof in einem entsetzlichen Zustand befinde und man diesen Missstand dringend beheben müsse – er würde sich für Neustrelitz schämen. Die gewünschte Aufräumarbeiten finden wohl auch zeitnah durch eine ortsansässige FDJ-Gruppe statt. Kaum nachvollziehbar scheint es daher, dass wenige Jahre später, Ende 1950er Jahre, von der Bezirksregierung entschieden wird, dass die Grabsteine zu entfernen und das Gelände zu räumen ist, auch Stelen und Obelisken sollen zerschlagen werden. Die Grabsteine wurden zertrümmert, als Pflastersteine benutzt oder gleich im Hafen versenkt – bis heute scheint nicht genau klar zu sein, aus welchen Beweggründen damals so gehandelt wurde<a href="https://sprache.hypotheses.org/2281#footnote_6_2281" id="identifier_6_2281" class="footnote-link footnote-identifier-link" title="Zur ausführlichen Geschichte des Friedhofs s. &bdquo;Jüdischer Friedhof Alt-Strelitz”  unter &bdquo;Juden in Mecklenburg“ von Jürgen Gramenz und Sylvia Ulmer.">7</a> Mit dem materiellen Verlust der Grabsteine ging auch das Wissen darüber verloren, um welche Personen es sich handelt, deren letzten 100 erhaltenen Grabsteine bis zum Tage der „Räumung“ noch vorhanden waren. Überhaupt schien es so, als sei ein Seelen-, Sterbe- oder Beerdigungsregister nicht ausfindig zu machen, und das obwohl die Gemeinde zu Strelitz doch so groß war und manche ihre Mitglieder es zur überregionalen Bekanntheit brachten. Zwar tauchten immer wieder einige kleine Verzeichnisse auf, wer die letzten Gemeindemitglieder waren und auch, wann diese beerdigt wurden, ein Gesamtverzeichnis, ein Beerdigungsregister, war der Öffentlichkeit aber nicht bekannt. Dabei hatte Jacob Jacobson, der bis 1939 das Gesamtarchiv der deutschen Juden leitete, vermutlich noch in der Zeit vor der „Machtergreifung“ eine Abschrift angefertigt, welche die Bestattungen der jüdischen Gemeinde zu Strelitz dokumentiert. Wovon Jacobson genau seine Abschrift anfertigte, was also seine zugrunde liegende Originalquelle war, ist bisher nicht genau geklärt<a href="https://sprache.hypotheses.org/2281#footnote_7_2281" id="identifier_7_2281" class="footnote-link footnote-identifier-link" title="Die Seelenregister, analog etwa zu Kirchenbüchern, der jüdischen Gemeinde zu Strelitz sind bisher als Gesamtbestand nicht gefunden worden. Weder im Landeshauptarchiv in Schwerin, noch in den Beständen des historischen Archiv der Stiftung Neue Synagoge Berlin – Centrum Judaicum, noch im Central Archives for the History of the Jewish People Jerusalem (CAHJP). Laut [familysearch.org](https://www.familysearch.org/de/), einer Seite für Familienforschung betrieben von der &bdquo;Kirche Jesu Christi der Heiligen der Letzten Tage“, die in Deutschland und ganz Europa unzählige Kirchenbücher mikroverfilmt hat, gibt es auch für die jüdische Gemeinde mikroverfilmte Matrikel. Allerdings lässt die Bezeichnung des Mikrofilms mit der Nummer 1185018 Tote & Index 1760-1923 Grabinschriften ca. 1820-1888 schon darauf schließen, dass es sich, jedenfalls was das Register und den Index betrifft, ebenfalls um Jacobsons Abschrift handelt. Die Grabinschriften sind vermutlich die in Hebräisch geschriebenen Anmerkung unter dem Namen und dem Sterbetag im Register. Die Mikrofilme sind jedoch nur in der Family History Library in Salt Lake City einsehbar und können nicht (mehr) ausgeliehen bzw. bestellt werden. Als letzter dienlicher Hinweis sei hier noch genannt, dass Leopold Donath in seinem bereits zitierten Werk zur Geschichte der Juden in Mecklenburg vermerkt, dass der damalige Landesrabbiner Jacob Hamburger ihm Auskunft aus dem &bdquo;Gedenkbuch des dortigen Beerdigungsvereins“ gab – aber auch dieses Gedenkbuch konnte bisher nicht ausfindig gemacht werden.">8</a>. Auch ist im Register ein deutlicher Wechsel der Handschrift zu erkennen – er fertigte diese also nicht allein an. Das Leo Baeck Institute hat jedoch die Abschrift von Jacobson mikroverfilmt und als Digitalisat zur Verfügung gestellt<a href="https://sprache.hypotheses.org/2281#footnote_8_2281" id="identifier_8_2281" class="footnote-link footnote-identifier-link" title="Altstrelitz, cemetery register, photocopy, German and Hebrew, 1740-1923, Box: 7, Folder: III2. Jacob Jacobson Collection, AR 7002 / MF 447 / MF 134">9</a>. Basierend auf diesen Digitalisaten wurde das Beerdigungsregister in verschiedenen Schritten aufbereitet, sodass nun eine XML/TEI und ALTO-Version des Registers zur Verfügung steht, die volltextdurchsuchbar, maschinenlesbar und strukturiert über 250 Jahre einen Teil des jüdischen Lebens in Strelitz wiedergibt. <h2 id="allgemeines"><a id="allgemeines"></a>Allgemeines zum Friedhofsregister</h2> Das Friedhofsregister der Gemeinde zu Strelitz ist inhaltlich ebenso strukturiert wie viele andere Kirchenbücher christlicher Gemeinden in Deutschland. Chronologisch verzeichnet es die jeweiligen Sterbefälle und gibt zu jeder Person individuell weitere Informationen, wie Beruf, Geburtsdatum, Alter oder verwandtschaftliche Beziehungen. Die Einträge sind in ihrem Umfang nicht immer einheitlich, der Grad der eingetragenen Informationen hängt – genau so wie in christlichen Geburts-, Ehe- oder Sterberegistern – immer von der jeweiligen schriftführenden Person ab. Vorteilhaft am Register der Strelitzer Gemeinde ist das alphabetische Register am Ende. Wenngleich es auch nicht immer konsistent angelegt ist, lassen sich doch durch die einzelnen Nummern der Einträge schnell einzelne Personen auffinden. Eine Besonderheit stellen die Vermerke in hebräischer Sprache dar. Auch hier ist der Informationsgehalt unterschiedlich und ändert sich im Laufe der Jahrzehnte. Teilweise geben sie nur das bereits in lateinischen Buchstaben geschrieben wieder, teilweise ergänzen sie verwandtschaftliche Beziehungen. Im Laufe der Jahrzehnte werden diese Vermerke immer seltener, sodass ab etwa 1869 neben den angegebenen Datum, meistens das Sterbedatum, teilweise aber auch das Geburtsdatum, nur noch der Tag des Todes gemäß des jüdischen Kalenders niedergeschrieben wurde. <h2 id="preprocessing"><a id="preprocessing"></a>Preprocessing</h2> Wie bereits erwähnt, befindet sich das Friedhofsregister der jüdischen Gemeinde zu Strelitz als Mikroverfilmung im Archiv des Leo Baeck Institutes in New York. Etliche Nachlässe und darin befindliche Archivalien wurden bereits digitalisiert<a href="https://sprache.hypotheses.org/2281#footnote_9_2281" id="identifier_9_2281" class="footnote-link footnote-identifier-link" title="Als ausgezeichnete Metasuchmaschine für Archivalien deutsch-jüdischen Ursprungs eignet sich die Datenbank vom Center for Jewish History, hierüber lassen sich Archivalien, welche auch im großen Umfang bereits digitalisiert wurden, auffinden. Bei der Recherche sind die Bestände der Nationalbibliothek von Israel von ebenso großer Bedeutung, ebenso wie das Central Archives for the History of the Jewish People (CAHJP), welches zum größten Teil die (Teil-)Nachlässe jüdischer Gemeinde in Deutschland verwahrt.">10</a> und werden über <a href="https://archive.org/" target="_blank" rel="noopener noreferrer">archive.org</a> gehostet. Das Friedhofsregister wurde im Zuge des Preprocessings als JPEG konvertiert und mit <a href="https://scantailor.org/" target="_blank" rel="noopener noreferrer">ScanTailor</a> aufbereitet. Darunter fallen die standardmäßigen Vorarbeiten, wie das Korrigieren der Bildausrichtung, der Helligkeit und das Zuschneiden der einzelnen Digitalisate. <h2 id="transkribus"><a id="layouterkennung"></a>Layouterkennung, Transkription und Annotation in Transkribus</h2> In Transkribus sind mittlerweile viele unterschiedliche Modelle zur Layouterkennung verfügbar. Für den Anwendungsfall der Friedhofregisters war eine doppelspaltige Erkennung notwendig, welche die einzelnen Sterbeeinträge nochmals in einzelne Texregionen einteilt. Keines der zur Zeit verfügbaren Modelle konnte diese Aufgaben automatisch erfüllen<a href="https://sprache.hypotheses.org/2281#footnote_10_2281" id="identifier_10_2281" class="footnote-link footnote-identifier-link" title="Zum Trainieren eigener Layouterkennungs-Modelle eignet sich das Tool P2PaLA, eine Einbettung in die Software Transkribus hat bereits stattgefunden und wird laufend ausgebaut.">11</a>. Jeder Eintrag muss sich in einer eigenen Textregion befinden, da im XML-basierenden Ausgabeformat damit automatisch ein eigenständiger Paragraph, also <code></code>, ausgezeichnet wird. An dieser Stelle musste also händisch nachgearbeitet werden, jedoch erleichtern die Werkzeuge zum „Zerlegen” (horizontal/vertikal) einer Textregionen die Arbeit enorm, sodass eine Textregion, welche die komplette Seite erfasst, relativ schnell entsprechend zugeschnitten werden kann. Die Zeilenerkennung der verfügbaren Modelle läuft ziemlich zuverlässig und bedarf nur wenig Korrektur. Eine „line” und damit verbundene „baseline” ergeben im späteren Ausgabeformat automatisch ein <code><lb/></code>, einen Zeilenumbruch. <figure style="width: 1309px" class="wp-caption alignnone"><img loading="lazy" src="https://i.imgur.com/GP8uvUb.png" alt="" width="1309" height="448" /><figcaption class="wp-caption-text">Bearbeitung der automatischen Layouterkennung in Transkribus</figcaption></figure> Bei der Korrektur der Layouterfassung wurde den einzelnen Textregionen und Zeilen noch eine ID zugewiesen, die entsprechend der Readingorder numerisch aufsteigend verläuft. Transkribus weist zwar jeder Textregion und Zeile automatisch eine ID zu, aber für die Nachbearbeitung ist es nützlicher eine schlichte und leicht identifizierbare ID, wie bspw. <code>r1|3</code>, zu haben. Die erste Nummer steht dabei für die (Text)Region und die zweite für die Zeile. Auch das lässt sich in Transkribus automatisch realisieren; ein Klick innerhalb des Tabs „Layout“ auf „Assign unique IDs […]“ benennt die IDs entsprechend der Readingorder um. In Transkribus gibt es eine Fülle an unterschiedlichsten HTR-Modellen zur Handschriftenerkennung. Besonders der Zeitraum des 18. und 19. Jahrhunderts ist dabei gut abgedeckt. Naturgemäß ähneln sich zwar die Stile der Kurrentschrift unterschiedlicher Hände, bedürfen aber nichtsdestotrotz, insbesondere bei „krakeliger“ und untrainierter Handschrift, einer Nachbearbeitung. Nach der vollständigen Layouterfassung und Transkription wurden die erste Annotationen für die spätere Ausgabe im (TEI-)XML vorgenommen. Transkribus verfügt über ein bereits angelegtes Set an Tags, NutzerInnen können sich aber auch ihr Tagset selbst zusammenstellen und mit einer entsprechenden Tastenkombination anwenden (ALT+x). Für das Friedhofsregister wurde die standardmäßige Annotation wie <code><persName></code>, <code><date></code>, <code><placeName></code>, etc. vorgenommen. <figure style="width: 886px" class="wp-caption alignnone"><img loading="lazy" class="size-full" src="https://i.imgur.com/JDdIsr7.png" width="886" height="615" /><figcaption class="wp-caption-text">Ansicht des XML-Taggings in Transkribus</figcaption></figure> Jeder Sterbe- bzw. Beerdigungseintrag hat eine Nummer. Im anhängenden alphabetischen Register lassen sich diese Nummern wiederfinden. Damit eine spätere Verknüpfung von Name bzw. Nummer im Register und dem eigentlichen Sterbeeintrag vorbereitet werden konnte, wurde jeder Nummer eines Eintrags ein <code><label></code><label>, und analog dazu, den Nummern im alphabetischen Register ein <code><ref></code> zugewiesen. Das nun komplette und annotierte Dokument wurde schließlich in page-XML und ALTO exportiert.</label> <h2 id="postprocessing"><a id="postprocessing"></a>Postprocessing – der Weg zum TEI</h2> <label>Da am Ende zwei Ergebnisse stehen sollten, „trennen“ sich hier die Wege der Nachbearbeitung. Für die Ansicht im DFG-Viewer stehen die Formate ALTO und METS nebeneinander – sie spielen in diesem Schritt keine Rolle mehr. Für die volle Nutzbarkeit der Annotationen innerhalb des XML/TEI dient das DTA als Korrektur- und Präsentationsplattform. Hierzu wird ein valides TEI gemäß des DTA-Basisformats benötigt<a href="https://sprache.hypotheses.org/2281#footnote_11_2281" id="identifier_11_2281" class="footnote-link footnote-identifier-link" title="s. dazu die Dokumentation des DTABfs unter http://www.deutschestextarchiv.de/doku/basisformat/">12</a>. Aus den exportierten page-XMLs aus Transkribus wurde nun ein zusammenhängendes TEI geschaffen. Mittels page2tei<a href="https://sprache.hypotheses.org/2281#footnote_12_2281" id="identifier_12_2281" class="footnote-link footnote-identifier-link" title="siehe dazu https://github.com/dariok/page2tei">13</a> lässt sich das relativ einfach realisieren. Neben dem verfügbaren Paket auf GitHub wird noch der XSLT- und XQuery-Prozessor Saxon zur Transformation benötigt<a href="https://sprache.hypotheses.org/2281#footnote_13_2281" id="identifier_13_2281" class="footnote-link footnote-identifier-link" title="siehe dazu https://www.saxonica.com">14</a>. Exportiert man aus Transkribus die page-XML- und METS-Dateien, kann dann folgender Befehl im Terminal ausgeführt werden:</label> <code><label>$ java -jar saxon9he.jar -xsl:page2tei-0.xsl -s:mets.xml -o:friedhofsregister_strelitz.xml</label></code> <label>Nun ist ein zusammenhängendes TEI aus den page-XML-Dateien generiert worden. Zuerst wurde eine Unterteilung des Registers vorgenommen. Die Seiten 1 bis 65 sind Sterbeeinträge, die Seiten 66 bis 96 bilden das alphabetische Register. Gemäß des DTA-Basisformats wurden diese beiden Einheiten mittels <code class="language-plaintext highlighter-rouge"><div></code></label> umschlossen, wobei das alphabetische Register noch um das Attribut <code class="language-plaintext highlighter-rouge">@type=”index”</code> erweitert wurde. Der Inhalt der beiden Abschnitte wurde mittels <code class="language-plaintext highlighter-rouge"><head></code> ausgezeichnet<a href="https://sprache.hypotheses.org/2281#footnote_14_2281" id="identifier_14_2281" class="footnote-link footnote-identifier-link" title="siehe dazu auch den Abschnitt Texteinteilung auf Kapitelebene unter http://www.deutschestextarchiv.de/doku/basisformat/div.html">15</a> <div> Da jeder Eintrag mit einer Textregion und damit einem <code class="language-plaintext highlighter-rouge"></code> umkapselt ist, wurde von jedem beginnenden bis endenden <code class="language-plaintext highlighter-rouge"></code>, das Tag <code class="language-plaintext highlighter-rouge"><item></code><a href="https://sprache.hypotheses.org/2281#footnote_15_2281" id="identifier_15_2281" class="footnote-link footnote-identifier-link" title="siehe hierzu auch die Empfehlungen der TEI unter https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-item.html">16</a> umschlossen. Das Umschließen mit dem Tag konnte erst in diesem Schritt, und nicht in Transkribus selber, vorgenommen werden. Transkribus hat nämlich den Nachteil, dass sobald mehrere aufeinanderfolgende Zeilen markiert und annotiert werden, das jeweilige Tag bei jeder Zeile neu beginnt und schließt: <div class="language-xml highlighter-rouge"> <div class="highlight"> <pre class="highlight"><code><persName>Esther Hirsch</persName></lb> <persName>gb. Jacob</persName> </code></pre> </div> </div> Für die Wohlgeformheit des TEI sollte jedoch ein Tag, in diesem Fall das Tag <code class="language-plaintext highlighter-rouge"><persName></code>, auch trotz Zeilenumbruch, einmal umschließend gesetzt werden. Daher wurde im Nachgang mit regulären Ausdrücken gearbeitet<a href="https://sprache.hypotheses.org/2281#footnote_16_2281" id="identifier_16_2281" class="footnote-link footnote-identifier-link" title="Um reguläre Ausdrücke zu testen bzw. zu erstellen, eignet sich die Webanwendung regex101 ausgezeichnet, siehe https://regex101.com">17</a>. In diesem Beispiel: Suche nach <code class="language-plaintext highlighter-rouge"></persName>(\s*<lb[^>]*/>\s*)<persName></code> und ersetze durch <code class="language-plaintext highlighter-rouge">$1</code>. Das Ergebnis sieht wie folgt aus: <div class="language-xml highlighter-rouge"> <div class="highlight"> <pre class="highlight"><code><persName>Esther Hirsch</lb> gb. Jacob</persName> </code></pre> </div> </div> Selbiges gilt für <code class="language-plaintext highlighter-rouge"><placeName></code> und andere Auszeichnungen, die sich über mehr als eine Zeile erstrecken und durch ein <code class="language-plaintext highlighter-rouge"></lb></code> getrennt sind. Daher wurde auch die Umschließung einer Textregion <code class="language-plaintext highlighter-rouge"></code> mit <code class="language-plaintext highlighter-rouge"></item></code> erst im transformierten XML/TEI vorgenommen. Der reguläre Ausdruck dafür lautet: Suche nach <code class="language-plaintext highlighter-rouge">(<p\b[^>]*>.*?)</code> und ersetze durch <code class="language-plaintext highlighter-rouge"><item>$1</item></code>. Das Ergebnis sieht wie folgt aus: <div class="language-xml highlighter-rouge"> <div class="highlight"> <pre class="highlight"><code><item> <label>43</label></lb> <persName>Esther Hirsch</lb> gb. Jacob</persName></lb> gest. <date>23.t April 1782</date></lb> </item> </code></pre> </div> </div> Einem <code class="language-plaintext highlighter-rouge"><item></code> wurde nun eine genaue <code>xml:id</code> zugewiesen, die sich aus dem Tag <code class="language-plaintext highlighter-rouge"><label></code><label>innerhalb eines <code class="language-plaintext highlighter-rouge"><item></code> ergibt. Ein dafür angefertigtes Perl-Skript<a href="https://sprache.hypotheses.org/2281#footnote_17_2281" id="identifier_17_2281" class="footnote-link footnote-identifier-link" title="Das Skript wurde von Frank Wiegand geschrieben und findet sich auf GitHub">18</a> liest in jedem Eltern-Element <code class="language-plaintext highlighter-rouge"><item></code> das Kind-Element <code class="language-plaintext highlighter-rouge"><label></code><label> aus und weist die entsprechende Nummer als <code>xml:id</code> zu. Das Perl-Skript ignoriert dabei die inkonsequente Nummerierung im Friedhofsregister wie bspw. „No 1” vs „1” und generiert die <code>xml:id</code> nur aus den numerischen Werten. Da eine <code>xml:id</code> keine Ziffern an erster Stelle haben darf, wurde der <code>xml:id</code> ein Buchstabe vorangestellt. Damit sind nun <code><ref></code> und <code class="language-plaintext highlighter-rouge"><item></code> genau miteinander verbunden. Da alle Einträge einem Listenschema folgen, wurden sie vollständig mit dem Tag <code class="language-plaintext highlighter-rouge"><list></code> umschlossen. Die Paginierung auf jeder einzelnen Seite wurde mit einem <code class="language-plaintext highlighter-rouge"><fw></code> ausgezeichnet. Da sich die Paginierung immer oben befindet und als Folierungsnummer dient, wurden <code class="language-plaintext highlighter-rouge"><fw></code> um die Attributwerte <code class="language-plaintext highlighter-rouge">@place="top"</code> und <code class="language-plaintext highlighter-rouge">@type="folNum"</code> erweitert. Die Personenname und das damit verbundene Tag <code class="language-plaintext highlighter-rouge"><persName></code> wurde, sofern sinnvoll und möglich, mit dem Attribut <code class="language-plaintext highlighter-rouge">@ref</code> erweitert. Als ref-Wert wurde eine standardmäßige Verlinkung zur entsprechenden GND<a href="https://sprache.hypotheses.org/2281#footnote_18_2281" id="identifier_18_2281" class="footnote-link footnote-identifier-link" title="Gemeinsame Normdatei, für Näheres dazu siehe https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html">19</a> verwendet. Für den ref-Wert des <code class="language-plaintext highlighter-rouge"></placeName></code></label></label>wurde GeoNames<a href="https://sprache.hypotheses.org/2281#footnote_19_2281" id="identifier_19_2281" class="footnote-link footnote-identifier-link" title="siehe https://www.geonames.org">20</a> genutzt. Einige Beerdigungseinträge führen auch den Beruf oder Funktion innerhalb der Gemeinde auf. Da <code class="language-plaintext highlighter-rouge"><occupation></code> innerhalb von <code class="language-plaintext highlighter-rouge"><item></code> nicht zulässig ist und in vielen Fällen wie „Gemeindediener“, „Rabbi“ oder „Ältester“ auch nicht passend erscheint, wurden diese Bezeichnungen mit <code class="language-plaintext highlighter-rouge"><roleName></code> ausgezeichnet. Die hebräischen Anmerkungen wurden mittels <code class="language-plaintext highlighter-rouge"><foreign></code> und dem Attributwert <code class="language-plaintext highlighter-rouge">@xml:lang="hbo"</code><a href="https://sprache.hypotheses.org/2281#footnote_20_2281" id="identifier_20_2281" class="footnote-link footnote-identifier-link" title="Der Wert für fremdsprachliches Material ist das Kürzel internationale Norm ISO 639-3, in diesem Fall handelt es sich um rabbinisches Hebräisch.">21</a> umschlossen. Letztlich wurde noch der TEI-Header gemäß des DTABfs angepasst und um notwendige Metadaten ergänzt. </div> <h2 id="mets"><a id="mets"></a>Generierung der METS aus ALTO</h2> Die Formate ALTO und METS stehen parallel nebeneinander. Die einzelnen ALTO-XMLs konnten wie bereits im vorherigen Abschnitt beschrieben, aus Transkribus exportiert werden. ALTO enthält im XML Schema alle verfügbaren Daten des Layouts der zugrundeliegenden Vorlage. Im Falle des Friedhofsregister sind dabei vor allem die Maße und Positionen der einzelnen Sterbeeinträge als <code class="language-plaintext highlighter-rouge"><TextBlock></code> sowie die darin befindlichen einzelnen Zeilen samt ihrem transkribierten Inhalt als <code class="language-plaintext highlighter-rouge"><TextLine></code> relevant. Eine einzelne Zeile ist in ALTO dann wie folgt strukturiert: <div class="language-xml highlighter-rouge"> <div class="highlight"> <pre class="highlight"><code><TextLine ID="r1l2" BASELINE="183" HEIGHT="123" WIDTH="572" VPOS="60" HPOS="62"> <String ID="string_r1l2" HEIGHT="123" WIDTH="572" VPOS="60" HPOS="62" CONTENT="Mendel Strelitz"/> </TextLine> </code></pre> </div> </div> Die METS-Datei wurde wurde mittels tei2mets<a href="https://sprache.hypotheses.org/2281#footnote_21_2281" id="identifier_21_2281" class="footnote-link footnote-identifier-link" title="siehe dazu https://github.com/tboenig/tei2mets von Matthias Boenig">22</a> generiert. In ihr befinden sich alle relevanten Metadaten über das Friedhofsregister. Nun ist durch die Formate ALTO und METS der transkribierte Text exakt mit den Bildigitalisaten verbunden. Im DFG-Viewer lässt sich das Ergebnis betrachten; die „Maschine“ weiß also, welche Textregion und welche Textzeile zu welcher Position innerhalb des Bildes gehört. <h2></h2> <h2 id="ausblick"><a id="ausblick"></a>Ausblick</h2> Die Datumsangaben sind bisher lediglich mit <code class="language-plaintext highlighter-rouge"><date></code> umschlossen, eine Erweiterung um das Attribut <code class="language-plaintext highlighter-rouge">@when</code> wäre zur maschinellen Verarbeitung der Daten denkbar. Dabei folgt die Angabe des Datums dem Schema <code class="language-plaintext highlighter-rouge">YY-MM-DD</code>, also bspw: <div class="language-xml highlighter-rouge"> <div class="highlight"> <pre class="highlight"><code><date when="1822-11-02">2t Novbr 1822</date> </code></pre> </div> </div> Auch eine Auszeichnung mit dem Tag <code class="language-plaintext highlighter-rouge"><death></code> und dem Attribut <code class="language-plaintext highlighter-rouge">@when</code> ist möglich. In einigen Fällen ist auch das Geburtsdatum angegeben, dieses könnte dann analog durch <code class="language-plaintext highlighter-rouge"><birth></code> und <code class="language-plaintext highlighter-rouge">@when</code> annotiert werden. Neben den Datumsangaben, die dem System des gregorianischen Kalenders folgen, finden wir auch Daten gemäß des jüdischen Kalenders – auch eine gesonderte Auszeichnung für diese Fälle ist denkbar. Im Friedhofsregister lassen sich auch Personen finden, die für das jüdische Leben in Deutschland überregionale Bedeutung erlangt haben. So ist z.B. der damalige Landesrabbiner von Mecklenburg-Strelitz, <a href="https://de.wikipedia.org/wiki/Jacob_Hamburger" target="_blank" rel="noopener noreferrer">Jacob Hamburger</a>, dort verzeichnet. Auch verzeichnet ist bspw. der vermeintlichen Gründer der Strelitzer jüdischen Gemeinde und „Hofjude“ des Herzogs Adolph III zu Mecklenburg. In Tychsens drittem Teil seiner Nebenstunden heißt es dazu: <blockquote>Um das Jahr 1608 hatten auch der damalige Herzog zu Strelitz Adolph II. einen Hofjuden Namens R. Iakof aus Frankfurt an der Oder, und dessen Gemahlin geb. Prinzess. aus Sondershausen einen Agenten Alexander aus Sondershausen, in ihren Diensten. Nach ihrem Tode wurde der Knecht des obbemeldeten Iakof, Namens Wolf Hofjude bey Herzog Adolph III. Durch diesen Wolf ist die jüdische Gemeine in Strelitz eigentlich gestiftet<a href="https://sprache.hypotheses.org/2281#footnote_22_2281" id="identifier_22_2281" class="footnote-link footnote-identifier-link" title="vgl. Tychsen, Oluf Gerhard: Bützowische Nebenstunden. Dritter Theil, Bützow 1768, S.5. Online verfügbar Rostocker Dokumentenserver.">23</a>.</blockquote> Aller Wahrscheinlichkeit nach ist dieser „Hofjude“ Wolf, Wolff Jacob (Nr. 5 im Register). Er verstarb im Januar 1743 und wurde auf dem Strelitzer Friedhof beerdigt. Eine weitergehende Recherche zu einzelnen Personen könnte für die jüdische Geschichte im deutschsprachigen Raum lohnenswert sein. Inbesondere die Transkription und Übersetzung der Anmerkung in hebräischer Sprache bedürfen noch freiwilligen Helferinnen und Helfern. Dazu benötigt man lediglich einen Account für die <a href="http://www.deutschestextarchiv.de/dtaq/book/view/jacobson_strelitzfriedhofsregister_1929" target="_blank" rel="noopener noreferrer">Qualitätssicherung</a> des DTAs sowie eine kurze Mail an das Team<a href="https://sprache.hypotheses.org/2281#footnote_23_2281" id="identifier_23_2281" class="footnote-link footnote-identifier-link" title="Eine Mail an dtakorrektur(at)bbaw.de mit dem kurzen Hinweis auf das Friedhofsregister reich dazu völlig aus.">24</a> und man wird für die Bearbeitung freigeschaltet. Ein spannender Datensatz mit viel Potential. <h2><a id="digitalisate"></a>Digitalisate – TEI/XML und ALTO/METS</h2> Aktuell stehen zwei Formate zur Verfügung. <ol> <li>Ansicht als TEI/XML im Deutschen Textarchiv (aktuell in der Qualitätssicherung). <a href="http://www.deutschestextarchiv.de/dtaq/book/view/jacobson_strelitzfriedhofsregister_1929">Zum Friedhofsregister im Deutschen Textarchiv</a></li> <li>Ansicht der Digitalisate samt Volltext im DFG-Viewer. <a href="https://dfg-viewer.de/show/?tx_dlf[id]=https%3A%2F%2Fsgoettel.github.io%2Fstrelitz%2Ffriedhofsregister_der_juedischen_gemeinde_strelitz%2Fmets.xml">Zum Friedhofsregister im DFG-Viewer</a></li> </ol> Das Repositorium und alles dazugehörigen Daten (XMLs, images etc) befindet sich auf GitHub unter <a href="https://github.com/sgoettel/strelitz" target="_blank" rel="noopener noreferrer">https://github.com/sgoettel/strelitz</a> Die Daten im Repositorium stehen unter der Lizenz CC BY-SA 4 und sind damit für jeden einsehbar und können beliebig nachgenutzt werden <ol class="footnotes"> <li id="footnote_0_2281" class="footnote">Georg, Kurt: Kunst- und Geschichts-Denkmäler des Freistaates Mecklenburg-Strelitz. I Band: Das Land Stargard. Neubrandenburg: Brünslowsche Verlagsbuchhandlung 1921, S. 131.</li> <li id="footnote_1_2281" class="footnote">vgl. Donath, Leopold: Geschichte der Juden in Mecklenburg von den ältesten Zeiten (1266) bis auf die Gegenwart (1874), Leipzig: Verlag Oskar Leiner 1874, S. 138. <a href="https://books.google.de/books?id=JnRhAAAAcAAJ&pg=PA138" target="_blank" rel="noopener noreferrer">Online verfügbar GoogleBooks</a>.</li> <li id="footnote_2_2281" class="footnote">vgl. Tychsen, Oluf Gerhard: Bützowische Nebenstunden. Dritter Theil, Bützow 1768, S.5. <a href="http://rosdok.uni-rostock.de/resolve/id/rosdok_document_0000016029" target="_blank" rel="noopener noreferrer">Online verfügbar GoogleBooks</a></li> <li id="footnote_3_2281" class="footnote">Georg, Kurt: Kunst- und Geschichts-Denkmäler des Freistaates Mecklenburg-Strelitz. I Band: Das Land Stargard. Neubrandenburg: Brünslowsche Verlagsbuchhandlung 1921, S. 130.</li> <li id="footnote_4_2281" class="footnote">Landeshauptarchiv Schwerin: 4.11-16 Judenangelegenheiten (Acta judaeorum) Mecklenburg-Strelitz, Nr. 271.</li> <li id="footnote_5_2281" class="footnote">vgl. Donath, Leopold: Geschichte der Juden in Mecklenburg von den ältesten Zeiten (1266) bis auf die Gegenwart (1874), Leipzig: Verlag Oskar Leiner 1874, S. 139. <a href="https://books.google.de/books?id=JnRhAAAAcAAJ&pg=PA139" target="_blank" rel="noopener noreferrer">Online verfügbar GoogleBooks</a>. Für eine ausführliche Geschichte zur jüdische Gemeinde zu Strelitz s. den Abschnitt „<a href="http://www.juden-in-mecklenburg.de/Orte/Neustrelitz" target="_blank" rel="noopener noreferrer">Neustrelitz</a>“ unter „Juden in Mecklenburg“ von Jürgen Gramenz und Sylvia Ulmer.</li> <li id="footnote_6_2281" class="footnote">Zur ausführlichen Geschichte des Friedhofs s. „<a href="http://www.juden-in-mecklenburg.de/Friedhoefe/Juedischer_Friedhof_Alt_Strelitz" target="_blank" rel="noopener noreferrer">Jüdischer Friedhof Alt-Strelitz</a>” unter „Juden in Mecklenburg“ von Jürgen Gramenz und Sylvia Ulmer.</li> <li id="footnote_7_2281" class="footnote">Die Seelenregister, analog etwa zu Kirchenbüchern, der jüdischen Gemeinde zu Strelitz sind bisher als Gesamtbestand nicht gefunden worden. Weder im Landeshauptarchiv in Schwerin, noch in den Beständen des historischen Archiv der Stiftung Neue Synagoge Berlin – Centrum Judaicum, noch im Central Archives for the History of the Jewish People Jerusalem (CAHJP). Laut [familysearch.org](https://www.familysearch.org/de/), einer Seite für Familienforschung betrieben von der „Kirche Jesu Christi der Heiligen der Letzten Tage“, die in Deutschland und ganz Europa unzählige Kirchenbücher mikroverfilmt hat, gibt es auch für die jüdische Gemeinde mikroverfilmte Matrikel. Allerdings lässt die Bezeichnung des Mikrofilms mit der Nummer 1185018 Tote & Index 1760-1923 Grabinschriften ca. 1820-1888 schon darauf schließen, dass es sich, jedenfalls was das Register und den Index betrifft, ebenfalls um Jacobsons Abschrift handelt. Die Grabinschriften sind vermutlich die in Hebräisch geschriebenen Anmerkung unter dem Namen und dem Sterbetag im Register. Die Mikrofilme sind jedoch nur in der Family History Library in Salt Lake City einsehbar und können nicht (mehr) ausgeliehen bzw. bestellt werden. Als letzter dienlicher Hinweis sei hier noch genannt, dass Leopold Donath in seinem bereits zitierten Werk zur Geschichte der Juden in Mecklenburg vermerkt, dass der damalige Landesrabbiner Jacob Hamburger ihm Auskunft aus dem „Gedenkbuch des dortigen Beerdigungsvereins“ gab – aber auch dieses Gedenkbuch konnte bisher nicht ausfindig gemacht werden.</li> <li id="footnote_8_2281" class="footnote">Altstrelitz, cemetery register, photocopy, German and Hebrew, 1740-1923, <a href="https://archives.cjh.org/repositories/5/archival_objects/330811" target="_blank" rel="noopener noreferrer">Box: 7, Folder: III2. Jacob Jacobson Collection, AR 7002 / MF 447 / MF 134</a></li> <li id="footnote_9_2281" class="footnote">Als ausgezeichnete Metasuchmaschine für Archivalien deutsch-jüdischen Ursprungs eignet sich die Datenbank vom <a href="https://www.cjh.org/" target="_blank" rel="noopener noreferrer">Center for Jewish History</a>, hierüber lassen sich Archivalien, welche auch im großen Umfang bereits digitalisiert wurden, auffinden. Bei der Recherche sind die Bestände der <a href="https://web.nli.org.il" target="_blank" rel="noopener noreferrer">Nationalbibliothek von Israel</a> von ebenso großer Bedeutung, ebenso wie das <a href="http://cahjp.nli.org.il/" target="_blank" rel="noopener noreferrer">Central Archives for the History of the Jewish People</a> (CAHJP), welches zum größten Teil die (Teil-)Nachlässe jüdischer Gemeinde in Deutschland verwahrt.</li> <li id="footnote_10_2281" class="footnote">Zum Trainieren eigener Layouterkennungs-Modelle eignet sich das Tool <a href="https://github.com/lquirosd/P2PaLA" target="_blank" rel="noopener noreferrer">P2PaLA</a>, eine Einbettung in die Software Transkribus hat bereits stattgefunden und wird laufend ausgebaut.</li> <li id="footnote_11_2281" class="footnote">s. dazu die Dokumentation des DTABfs unter <a href="http://www.deutschestextarchiv.de/doku/basisformat/" target="_blank" rel="noopener noreferrer">http://www.deutschestextarchiv.de/doku/basisformat/</a></li> <li id="footnote_12_2281" class="footnote">siehe dazu <a href="https://github.com/dariok/page2tei" target="_blank" rel="noopener noreferrer">https://github.com/dariok/page2tei</a></li> <li id="footnote_13_2281" class="footnote">siehe dazu <a href="https://www.saxonica.com" target="_blank" rel="noopener noreferrer">https://www.saxonica.com</a></li> <li id="footnote_14_2281" class="footnote">siehe dazu auch den Abschnitt Texteinteilung auf Kapitelebene unter <a href="http://www.deutschestextarchiv.de/doku/basisformat/div.html" target="_blank" rel="noopener noreferrer">http://www.deutschestextarchiv.de/doku/basisformat/div.html</a></li> <li id="footnote_15_2281" class="footnote">siehe hierzu auch die Empfehlungen der TEI unter <a href="https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-item.html" target="_blank" rel="noopener noreferrer">https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-item.html</a></li> <li id="footnote_16_2281" class="footnote">Um reguläre Ausdrücke zu testen bzw. zu erstellen, eignet sich die Webanwendung regex101 ausgezeichnet, siehe <a href="https://regex101.com" target="_blank" rel="noopener noreferrer">https://regex101.com</a></li> <li id="footnote_17_2281" class="footnote">Das Skript wurde von <a href="https://www.bbaw.de/die-akademie/mitarbeiterinnen-mitarbeiter/wiegand-frank" target="_blank" rel="noopener noreferrer">Frank Wiegand</a> geschrieben und <a href="https://gist.github.com/haoess/77e1eda37fa18fe764d76dbc7b4e9240" target="_blank" rel="noopener noreferrer">findet sich auf GitHub</a></li> <li id="footnote_18_2281" class="footnote">Gemeinsame Normdatei, für Näheres dazu siehe <a href="https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html" target="_blank" rel="noopener noreferrer">https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html</a></li> <li id="footnote_19_2281" class="footnote">siehe <a href="https://www.geonames.org" target="_blank" rel="noopener noreferrer">https://www.geonames.org</a></li> <li id="footnote_20_2281" class="footnote">Der Wert für fremdsprachliches Material ist das Kürzel internationale Norm ISO 639-3, in diesem Fall handelt es sich um rabbinisches Hebräisch.</li> <li id="footnote_21_2281" class="footnote">siehe dazu <a href="https://github.com/tboenig/tei2mets" target="_blank" rel="noopener noreferrer">https://github.com/tboenig/tei2mets</a> von <a href="https://www.bbaw.de/die-akademie/mitarbeiterinnen-mitarbeiter/boenig-matthias" target="_blank" rel="noopener noreferrer">Matthias Boenig</a></li> <li id="footnote_22_2281" class="footnote">vgl. Tychsen, Oluf Gerhard: Bützowische Nebenstunden. Dritter Theil, Bützow 1768, S.5. <a href="http://rosdok.uni-rostock.de/resolve/id/rosdok_document_0000016029" target="_blank" rel="noopener noreferrer">Online verfügbar Rostocker Dokumentenserver</a>.</li> <li id="footnote_23_2281" class="footnote">Eine Mail an dtakorrektur(at)bbaw.de mit dem kurzen Hinweis auf das Friedhofsregister reich dazu völlig aus.</li> </ol> ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2281/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Neues Korpus zur Sprache des 20. Jahrhunderts: Das „Archiv der Gegenwart“</title> <link>https://sprache.hypotheses.org/2335</link> <comments>https://sprache.hypotheses.org/2335#respond</comments> <dc:creator><![CDATA[Andreas Nolda]]></dc:creator> <pubDate>Wed, 04 Nov 2020 10:09:52 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2335</guid> <description><![CDATA[Seit Ende Oktober 2020 steht auf der DWDS-Plattform mit dem Archiv der Gegenwart (AdG) ein weiteres Korpus für Recherchen zur deutschen Sprache des 20. Jahrhunderts zur Verfügung. Der Zugang zur Recherche ist dank der freundlichen Nutzungsgenehmigung von Edition Lempertz/Brandenburgisches Verlagshaus ohne Anmeldung möglich. Für die Anzeige von mehr als einem Kontextsatz ist eine Anmeldung erforderlich. Heinrich von Sieglers Archiv der Gegenwart erschien von 1931 bis 2004 und enthält Artikel, die tagespolitische Ereignisse aus Deutschland und der Welt dokumentieren. Die Artikel sind chronologisch nach Datum … <a href="https://sprache.hypotheses.org/2335" class="more-link">Neues Korpus zur Sprache des 20. Jahrhunderts: Das „Archiv der Gegenwart“ weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Seit Ende Oktober 2020 steht auf der DWDS-Plattform mit dem <a href="https://www.dwds.de/d/korpora/adg">Archiv der Gegenwart (AdG)</a> ein weiteres Korpus für Recherchen zur deutschen Sprache des 20. Jahrhunderts zur Verfügung. Der Zugang zur Recherche ist dank der freundlichen Nutzungsgenehmigung von <a href="https://www.edition-lempertz.de/nocache/Infos/Ueber+uns,w160456104821935.htm">Edition Lempertz/Brandenburgisches Verlagshaus</a> ohne Anmeldung möglich. Für die Anzeige von mehr als einem Kontextsatz ist eine <a href="https://www.dwds.de/profile/login?c=r%2F%3Fcorpus%3Dadg">Anmeldung</a> erforderlich. Heinrich von Sieglers <a href="https://ld.zdb-services.de/resource/452-2">Archiv der Gegenwart</a> erschien von 1931 bis 2004 und enthält Artikel, die tagespolitische Ereignisse aus Deutschland und der Welt dokumentieren. Die Artikel sind chronologisch nach Datum geordnet und innerhalb einer Seite alphabetisch durchgezählt. Jedem Artikel ist eine Liste von Rubriken sowie ggfs. ein Titel vorangestellt. Die Jahrgangsbände erschienen seit den 1950er Jahren bei Siegler, Verlag für Zeitarchive (mittlerweile gemeinsam mit dem Brandenburgischen Verlagshaus vereinigt mit der Edition Lempertz). Ältere Jahrgangsbände trugen teilweise noch den Titel Keesings Archiv der Gegenwart (auch Keesing’s Archiv der Gegenwart), der durch die niederländische Ausgabe <a href="https://ld.zdb-services.de/resource/1150632-5">Keesings Historisch Archief</a> von Isaäc Keesing jr. motiviert ist. Während die Artikel anfangs recht knapp ausfielen, sind neuere Artikel mitunter sehr ausführlich und erstrecken sich über mehrere Seiten. Die Seitenzählung ist jahrgangsübergreifend von 1931 bis 1944 bzw. von 1945 bis 2004, was zu vier- und fünfstelligen Seitenzahlen führt. Das AdG-Korpus umfasst den Datenbestand des Archivs der Gegenwart der Jahrgänge 1931 bis 2000 und basiert auf der <a href="https://ld.zdb-services.de/resource/1162128-X">CD-ROM-Ausgabe</a> des Siegler-Verlags von 2001. (Daneben existieren CD-ROMs aus der Digitalen Bibliothek von <a href="http://d-nb.info/965275922">2002</a> und <a href="http://d-nb.info/972267220">2004</a> mit dem Text der <a href="http://d-nb.info/1065817509">zehnbändigen Druckausgabe</a> des Siegler-Verlags von 2000, die sich auf Artikel mit Deutschlandbezug aus dem Zeitraum von 1949 bis 1999 beschränken.) Zu jedem Treffer sind im AdG-Korpus verschiedene Metadaten verfügbar, darunter <code>Titel</code>, <code>Textklasse</code>, <code>Datum</code> und <code>Seite</code> des Artikels. Die Seitenangabe bezieht sich auf die Startseite des Artikels, der, wie erwähnt, mehrseitig sein kann. Knapp 30 % der über 120.000 Dokumente des AdG-Korpus können darüber hinaus auch im <a href="https://www.dwds.de/d/korpora/kern">DWDS-Kernkorpus</a> recherchiert werden. ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2335/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Video-Tutorial: Recherche im DWDS-Korpus „Politische Reden“</title> <link>https://sprache.hypotheses.org/2316</link> <comments>https://sprache.hypotheses.org/2316#respond</comments> <dc:creator><![CDATA[Frank Wiegand]]></dc:creator> <pubDate>Mon, 26 Oct 2020 10:34:40 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Tutorial]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2316</guid> <description><![CDATA[Seit 2019 gibt es im Portal des Digitalen Wörterbuchs der deutschen Sprache (DWDS) ein digital abfragbares und frei verfügbares Korpus politischer Reden, das erste dieser Art überhaupt in Deutschland. 2020 wurde es auf den neuesten Stand gebracht und massiv erweitert, indem weitere Redner/innen aus weiteren Ländern einbezogen wurden. Die Textsammlung enthält nun 15240 Reden von insgesamt 304 bedeutenden politischen Persönlichkeiten aus 6 verschiedenen Ländern und Regionen, ein großer Teil des Korpus wird von den Inhaber/innen der vier höchsten Staatsämter bestimmt: den Bundespräsidenten, den Bundeskanzler/innen, … <a href="https://sprache.hypotheses.org/2316" class="more-link">Video-Tutorial: Recherche im DWDS-Korpus „Politische Reden“ weiterlesen →</a>]]></description> <content:encoded><![CDATA[<div id="description"> Seit 2019 gibt es im Portal des <a href="https://www.dwds.de/">Digitalen Wörterbuchs der deutschen Sprache (DWDS)</a> ein digital abfragbares und frei verfügbares <a href="https://www.dwds.de/d/korpora/politische_reden">Korpus politischer Reden</a>, das erste dieser Art überhaupt in Deutschland. </div> 2020 wurde es auf den neuesten Stand gebracht und massiv erweitert, indem weitere Redner/innen aus weiteren Ländern einbezogen wurden. Die Textsammlung enthält nun 15240 Reden von insgesamt 304 bedeutenden politischen Persönlichkeiten aus 6 verschiedenen Ländern und Regionen, ein großer Teil des Korpus wird von den Inhaber/innen der vier höchsten Staatsämter bestimmt: den Bundespräsidenten, den Bundeskanzler/innen, den Bundestagspräsidenten und den Außenministern mit Amtszeiten zwischen 1982 und 2020, ein weiterer Teil setzt sich aus Reden einflussreicher politischer Persönlichkeiten aus Österreich und der Schweiz sowie exemplarisch aus Südtirol, Ostbelgien und Liechtenstein zusammen. Derzeit besteht die Textsammlung aus etwa 27 Millionen Textwörtern. Sie wird laufend erweitert, sowohl im Hinblick auf ihren Umfang als auch auf ihren zeitlichen Verlauf. Dieses Video gibt einen Einblick in die komplexe Korpusrecherche. <div style="margin: 30px 0"> <div style="height: 0;padding-bottom: 56.25%;text-align: center"><iframe src="//www.youtube.com/embed/QbadYRpsPgs" width="640" height="360" frameborder="0"> </iframe></div> </div> Sprecher: Yannick Kozmus Skript: Yannick Kozmus, Adrien Barbaresi Videoschnitt: Julia Naji ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2316/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm</title> <link>https://sprache.hypotheses.org/2262</link> <comments>https://sprache.hypotheses.org/2262#respond</comments> <dc:creator><![CDATA[Frank Wiegand]]></dc:creator> <pubDate>Tue, 22 Sep 2020 06:56:04 +0000</pubDate> <category><![CDATA[Datenkuration]]></category> <category><![CDATA[DWDS]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[TEI]]></category> <category><![CDATA[Wörterbuch]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2262</guid> <description><![CDATA[Mit Abschluss des Projekts (Retro-)Digitalisierung und Internetpublikation der Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm ist dieses Wörterbuch nun auch auf der DWDS-Webseite eingebunden. In Zusammenarbeit des Trier Center for Digital Humanities, der Akademie der Wissenschaften zu Göttingen und der Berlin-Brandenburgischen Akademie der Wissenschaften wurde diese Ressource im Zeitraum von 2016 bis 2020 elektronisch aufbereitet und steht nun frei auf den jeweiligen digitalen Plattformen für die Recherche zur Verfügung. Seit 1961 wurde in zwei Arbeitsgruppen in Berlin (bis 2013) und Göttingen … <a href="https://sprache.hypotheses.org/2262" class="more-link">Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Mit Abschluss des Projekts (Retro-)Digitalisierung und Internetpublikation der Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm ist dieses Wörterbuch nun auch auf der <a href="https://www.dwds.de/d/wb-2dwb">DWDS-Webseite</a> eingebunden. In Zusammenarbeit des <a href="https://www.kompetenzzentrum.uni-trier.de/de/">Trier Center for Digital Humanities</a>, der <a href="https://adw-goe.de/">Akademie der Wissenschaften zu Göttingen</a> und der <a href="https://www.bbaw.de/">Berlin-Brandenburgischen Akademie der Wissenschaften</a> wurde diese Ressource im Zeitraum von 2016 bis 2020 elektronisch aufbereitet und steht nun frei auf den jeweiligen digitalen Plattformen für die Recherche zur Verfügung. Seit 1961 wurde in zwei Arbeitsgruppen in Berlin (bis 2013) und Göttingen (bis 2016) an der Neubearbeitung des Deutschen Wörterbuches von Jacob Grimm und Wilhelm Grimm (²DWB) gearbeitet. Innerhalb dieses Projekts wurden die ältesten Teile des Deutschen Wörterbuchs (erschienen 1854–1961), die Buchstaben A–F bearbeitet. Die erste Lieferung erfolgte 1965. Die Neubearbeitung stellt kein „Supplement“ zu den entsprechenden Teilen der <a href="https://www.dwds.de/d/wb-1dwb">Erstbearbeitung (¹DWB)</a> dar, sondern ist ein eigenes, neues Wörterbuch mit ca. 60 000 Stichwörtern in ca. 32 000 Artikeln, das auf einem gegenüber der Erstbearbeitung deutlich erweiterten Quellenkorpus basiert. <figure id="attachment_2267" aria-describedby="caption-attachment-2267" style="width: 359px" class="wp-caption aligncenter"><img loading="lazy" class="wp-image-2267 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-359x500.jpg" alt="Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm, Neubearbeitung. Titelseite der 1. Lieferung" width="359" height="500" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-359x500.jpg 359w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-215x300.jpg 215w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-768x1070.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-1103x1536.jpg 1103w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146-1470x2048.jpg 1470w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/09/cover-scaled-e1600327222146.jpg 1838w" sizes="(max-width: 359px) 100vw, 359px" /><figcaption id="caption-attachment-2267" class="wp-caption-text">Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm, Neubearbeitung. 1. Band, 1. Lieferung, A–ABENTEUER. Bearbeitet in der Arbeitsstelle Berlin. Leipzig, 1965.</figcaption></figure> Seit 2006 werden die elektronischen Quellen des ¹DWB und nun auch des ²DWB gemeinsam vom Kompetenzzentrum der Universität Trier und dem DWDS (stellvertretend für die BBAW als Rechteinhaberin an den Quellen des Wörterbuchs) in einem Repositorium verwaltet und gepflegt. Im Rahmen dieser Arbeiten wurden sowohl strukturelle Veränderungen als auch Korrekturen vorgenommen, die notwendig waren, um die Wörterbuchsubstanz in die DWDS-Webseite zu integrieren. Darüber hinaus wurde mit heuristischen Verfahren eine Abbildung der Stichwörter des ¹DWB und ²DWB in moderne Lemmata erreicht. Beispielsweise wird mit einer Suche nach „begrüßen“ der Artikel <a href="https://www.dwds.de/wb/dwb2/begr%C3%BC%C3%9Fen">„BEGRÜSZEN“ im ²DWB</a> gefunden. Hierdurch soll die wörterbuchübergreifende Suche erleichtert werden. Geplant ist zudem, die gesamten <a href="https://tei-c.org/guidelines/p5/">TEI-konform</a> kodierten XML-Daten unter der Lizenz <a href="https://creativecommons.org/licenses/by-sa/3.0/de/">CC‐BY‐SA 3.0 DE</a> zur Verfügung zu stellen und damit für weitere Nachnutzung und Annotationen frei verfügbar zu machen. <a href="https://www.dwds.de/d/wb-2dwb">→ ²DWB – Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm, Neubearbeitung</a> ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2262/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Über bereichernde Anreicherung. Wechselseitige Annotation von Dramen als Subkorpus der Digitalen Bibliothek zwischen Zeno.org, TGRep, GerDraCor und DTA</title> <link>https://sprache.hypotheses.org/2234</link> <comments>https://sprache.hypotheses.org/2234#respond</comments> <dc:creator><![CDATA[Marius Hug]]></dc:creator> <pubDate>Fri, 12 Jun 2020 10:24:36 +0000</pubDate> <category><![CDATA[Datenkuration]]></category> <category><![CDATA[Forschungsdaten]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[CLARIAH-DE]]></category> <category><![CDATA[CLARIN-D]]></category> <category><![CDATA[Dramen]]></category> <category><![CDATA[DTABf]]></category> <category><![CDATA[Metadaten]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2234</guid> <description><![CDATA[Autoren: Marius Hug, Matthias Boenig, Yannic Bracke, Frank Fischer, Susanne Haaf, Christian Thomas Intro Im folgenden Beitrag soll gezeigt werden, wie deutschsprachige Dramen aus den zwei Textsammlungen TextGrid Repository (TGRep) und German Drama Corpus (GerDraCor) unter Einbeziehung von Metadaten aus einer externen Katalogdatei in das Basisformat des Deutschen Textarchivs (DTABf) transformiert werden. Die Dramen stellen im TGR ein Subkorpus der „Digitalen Bibliothek“ dar und wurden, wie auch der Metadatenkatalog, ursprünglich von zeno.org publiziert. Dieser UseCase mit dem Ziel der gegenseitigen Bereicherung wurde im Rahmen … <a href="https://sprache.hypotheses.org/2234" class="more-link">Über bereichernde Anreicherung. Wechselseitige Annotation von Dramen als Subkorpus der Digitalen Bibliothek zwischen Zeno.org, TGRep, GerDraCor und DTA weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Autoren: Marius Hug, Matthias Boenig, Yannic Bracke, Frank Fischer, Susanne Haaf, Christian Thomas <h3>Intro</h3> Im folgenden Beitrag soll gezeigt werden, wie deutschsprachige Dramen aus den zwei Textsammlungen <a href="https://textgridrep.org/">TextGrid Repository (TGRep)</a> und <a href="https://dracor.org/ger">German Drama Corpus (GerDraCor)</a> unter Einbeziehung von Metadaten aus einer externen Katalogdatei in das <a href="http://www.deutschestextarchiv.de/doku/basisformat/">Basisformat des Deutschen Textarchivs (DTABf)</a> transformiert werden. Die Dramen stellen im TGR ein Subkorpus der „<a href="https://textgrid.de/digitale-bibliothek">Digitalen Bibliothek</a>“ dar und wurden, wie auch der Metadatenkatalog, ursprünglich von <a href="http://zeno.org/">zeno.org</a> publiziert. Dieser UseCase mit dem Ziel der gegenseitigen Bereicherung wurde im Rahmen des <a href="https://clariah.de/">CLARIAH-DE</a>-Projektes realisiert. <h3>Das zeno.org-Drama im TextGrid Repository</h3> Das <a href="https://textgridrep.org/">TextGrid Repository</a> ist ein Langzeitarchiv für geisteswissenschaftliche Forschungsdaten. Es liefert einen umfangreichen, durchsuch- und nachnutzbaren Bestand an Texten und Bildern. Grundstock des Archivs ist die bereits in den 1990er Jahren vom Verlag Directmedia Publishing herausgegebene „Digitale Bibliothek“. Das TextGrid Repository stellt diese nach den <a href="https://tei-c.org/guidelines/p5/">Richtlinien der Text Encoding Initiative (TEI)</a> konvertierte Textsammlung – genauer: den Ordner „Literatur“ – ohne Werbung unter einer Creative-Commons-Lizenz zur Verfügung, bietet eine nachhaltige Speicherung sowie Zitierfähigkeit. Die Texte können zu eigenen Sammlungen zusammengestellt und heruntergeladen werden, zudem können neue Möglichkeiten der Analyse von Texte – bspw. durch die Anbindung an den Service Digivoy – genutzt werden. Die Inhalte des TGRep sind explorativ durch Filter nach Genre – außerdem nach Autor, Dateityp und Projekt – erkundbar. Der <a href="https://textgridrep.org/facet/work.genre">Genre-Filter erlaubt</a> (Stand 2020-05) Zugriff auf: <ul> <li>verse (118083 items)</li> <li>other (58833 items)</li> <li>prose (6663 items)</li> <li>drama (1462 items)</li> <li>non-fiction (2 items)</li> </ul> Dabei ist die Zählung der items projektspezifischen Entscheidungen über die Speicherung der Metadaten geschuldet. Anstatt dies an dieser Stelle weiter auszuführen, sei auf den ausführlichen <a href="https://dlina.github.io/A-Not-So-Simple-Question/">BlogPost von Frank Fischer und Mathias Göbel</a> zu diesem Thema<a href="https://sprache.hypotheses.org/2234#footnote_0_2234" id="identifier_0_2234" class="footnote-link footnote-identifier-link" title="Digital Literary Network Analysis (dlina): &bdquo;A (Not So) Simple Question and a Somewhat Diabolic Answer“, June 18, 2015, https://dlina.github.io/A-Not-So-Simple-Question/ [Diese und alle URLs in diesem Beitrag zuletzt abgerufen 2020-06-19].">1</a> verwiesen werden, in welchem die Auswirkungen dieser Praxis äußerst detailliert nachvollzogen werden kann. Nur soviel: Es gibt im TGRep keine 1462 Dramen, sondern ‚nur‘ 666. Mit dem in einer Pressemitteilung der Georg-August-Universität Göttingen am 2. Dezember 2009 gemeldeten Erwerb der „Digitalen Bibliothek“, kam der Forschungsverbund TextGrid neben der umfangreichen Textsammlung auch in den Besitz einer Katalogdatei. Dieser Katalog enthält die kompletten Metadaten der Quellen, aus denen die einzelnen Texte stammen und wird für die Erschließung der „Digitalen Bibliothek“ genutzt. Beispielsweise ist das Drama „Die deutschen Kleinstädter“ von August von Kotzebue darin folgendermaßen vermerkt (siehe Abb. 1): Die drei zentralen Elemente der Beschreibung sind <BOOKNAME>, <BOOKDESCR> und <BOOKCITE>.<a href="https://sprache.hypotheses.org/2234#footnote_1_2234" id="identifier_1_2234" class="footnote-link footnote-identifier-link" title="Zwar ist <BOOKNAME> ein wichtiger und eindeutiger Identifier innerhalb von Zeno.org, da dieser im TGRep aber keine Rolle spielt, wird auch hier nicht näher auf ihn eingegangen.">2</a> Sowohl <BOOKDESCR> wie auch <BOOKCITE> enthalten jeweils bibliographische Angaben zum in Frage stehenden Werk, jedoch von unterschiedlichem Detailgrad. Gemein ist beiden, dass die darin enthaltenen Informationen nicht mit einem Markup strukturiert vorliegen. Nur mit Hilfe von Heuristiken können die Informationen wie Personenname, Titel, Erscheinungsort oder Erscheinungsjahr extrahiert werden. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="156" class="wp-image-2238" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-16.20.12-500x156.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-16.20.12-500x156.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-16.20.12-300x93.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-16.20.12-768x239.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-16.20.12.png 942w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 1: Bibliographischer Eintrag im zeno.org-Katalog.</figcaption> </figure> Für die Online-Version des TGRep wurde auf das <BOOKDESCR>-Element zurückgegriffen. Diese Entscheidung ist in diesem Falle verständlich, würden doch ansonsten Informationen (Hrsg., Verlag etc.) verloren gehen. Zudem wurde der Autor als solcher (<author>) annotiert und mit einer Identifikationsnummer (ID) aus der <a href="https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html">Gemeinsamen Normdatei (GND)</a> versehen, der Erscheinungsort sowie das Erscheinungsdatum wurden getaggt.<a href="https://sprache.hypotheses.org/2234#footnote_2_2234" id="identifier_2_2234" class="footnote-link footnote-identifier-link" title="Neben der Online-Version im TextGrid Repository stehen auch zwei Versionen zum Download zur Verfügung. Beide Versionen machen von <BOOKDESCR> Gebrauch und verlieren dabei, s.o., die Zuordnung bei mehrbändigen Werken. Zusätzlich gibt es einen momentan nicht öffentlich zugänglichen Arbeitsstand mit einigen Korrekturen von 2017. In diesem werden als Quellennachweis zwei <title> angegeben, wobei es sich um 1:1-Übernahmen von <BOOKDESCR> und <BOOKCITE> handelt.">3</a> Was im Screenshot (siehe Abb. 2) nach einer echten Aufwertung der Metadaten aussieht, hat aber bei der Übernahme der Daten von zeno.org nach TextGrid nicht in allen Fällen reibungslos funktioniert, d.h. in einigen Fällen fehlt das Datum, in anderen sogar die komplette hier als <title> annotierte bibliographische Angabe. Zudem wird die Entscheidung, ausschließlich den Inhalt von <BOOKDESCR> als <title> in die <sourceDesc> zu übernehmen, immer dann problematisch, wenn es sich um mehrbändige Werke handelt. Die Information, um welches Werk genau es sich handelt, geht dann zugunsten einer allgemeinen Information über die Gesamtzahl der Bände verloren. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="202" class="wp-image-2239" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.55.44-500x202.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.55.44-500x202.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.55.44-300x121.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.55.44-768x311.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.55.44.png 954w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 2: Kotzebue: Die deutschen Kleinstädter, TGRep-Version der <sourceDesc>.</figcaption> </figure> <h3>German Drama Corpus (GerDraCor)</h3> Als Subkorpus der <a href="https://dracor.org/">DraCor-Plattform</a> enthält das <a href="https://dracor.org/ger">German Drama Corpus (GerDraCor)</a><a href="https://sprache.hypotheses.org/2234#footnote_3_2234" id="identifier_3_2234" class="footnote-link footnote-identifier-link" title="Siehe zu GerDraCor: https://dracor.org/ger, https://github.com/dracor-org/gerdracor, https://github.com/dracor-org/gerdracor/wiki/Documentation-for-Correcting-Plays-from-TextGrid-Repository.">4</a> zurzeit insgesamt 496 Dramen, von denen 469 der ursprünglich von zeno.org erstellten und zwischenzeitlich in das TGRep integrierten „Digitalen Bibliothek” entstammen. Mit den unter einer CC-Lizenz zur Verfügung gestellten Dramen im TEI P5-Format stellt <a href="https://github.com/dracor-org/gerdracor">GerDraCor</a> das Referenzkorpus im Kontext (deutschsprachiger) Dramenanalyse dar. Über eine Schnittstelle (API) erleichtert die DraCor-Plattform die Recherche über die verschiedenen Teilkorpora, wobei die Modularität der Plattform die Trennung von Korpuspflege und forschungsgetriebenem technology stack ermöglicht. So liefert die API auf der Grundlage des gemeinsamen Auftretens von Charakteren (sprechenden Entitäten) in verschiedenen Szenen beispielsweise Daten für jedes Theaterstück. Diese werden zur Laufzeit aus der zugrundeliegenden TEI-Datei extrahiert und können für moderne Netzwerk-Visualisierungen (mit Gephi, Cytoscape oder ähnlichen Programmen) verwendet werden. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="296" class="wp-image-2240" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.46.19-500x296.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.46.19-500x296.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.46.19-300x178.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.46.19-768x455.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.46.19.png 1035w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 3: Screenshot des GerDraCor-GitHub-Repository.</figcaption> </figure> Die 469 TGRep-Dramen von GerDraCor stammen aus insgesamt nur 233 Quellen, die ursprünglich als implizites Subkorpus der „Digitalen Bibliothek“ von zeno.org zur Verfügung gestellt wurden. Aufgrund des klar abgesteckten Korpusumfangs konnten dabei einige Korrekturen und Verbesserungen an den Daten vorgenommen werden. So wurden beispielsweise bestimmte Textstellen händisch eingefügt, die bei der Konvertierung der Dramen aus dem zeno.org-XML in das TextGrid Baseline Encoding (d.i. der im TGRep verwendete TEI-Dialekt) verloren gegangenen waren. Darüber hinaus gab es einige Verbesserungen im Bereich der Metadaten. GerDraCor hat die Quellenangaben für die sogenannte <sourceDesc> im TEIHeader größtenteils aus den TGRep-Daten übernommen. Während im TGRep die gesamte bibliographische Angabe als <title> innerhalb von <biblFull> annotiert wurde – was nicht den TEI-Richtlinien entspricht, allerdings aufgrund der Korpusgröße und den unzureichenden Annotationen der vorliegenden Originaldaten von zeno.org erklärt werden kann –, spezifiziert GerDraCor diese innerhalb der <sourceDesc> als <title> in einem <bibl> mit dem Attribut „originalSource“ (siehe Abb. 4). Ein echter Mehrwert ist die händische Anreicherung der Datumsangaben sowie der Sprecher<a href="https://sprache.hypotheses.org/2234#footnote_4_2234" id="identifier_4_2234" class="footnote-link footnote-identifier-link" title="Im Rahmen der hier beschriebenen wechselseitigen Bereicherung verschiedener Textsammlungen können diese <speaker> aus den GerDraCor-Daten in das DTA-Subkorpus integriert werden. Da diese jedoch nicht Teil der <sourceDesc> sind, kann man sie auf dem Screenshot nicht sehen.">5</a> und der IDs, welche im Rahmen der hier beschriebenen wechselseitigen Bereicherung verschiedener Textsammlungen aus den GerDraCor-Daten in das DTA-Subkorpus integriert werden können. Der eindeutige Identifier (ID) zur TGRep-Ressource ist ebenso Teil der <sourceDesc> wie auch ein Hinweis auf die Lizenz. Die für die Forschung wichtigen Datumsangaben (<dates>) wurden überprüft und korrigiert. Da die von zeno.org verwendeten Ausgaben oftmals keine Rückschlüsse auf das Entstehungsdatum, das Datum der ersten Vorführung des Schauspiels etc. zulassen, wurden diese Informationen von GerDraCor nachrecherchiert. Die <date>-Elemente wurden über das Attribut @type (mit den Werten „print“, „premiere“ und „written“) differenziert. Diese Anreicherung der <sourceDesc> war auch deswegen wichtig, da in der TGRep-Version mehr als 10% der in Frage stehenden Dramen gar kein Erscheinungsjahr enthielten. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="285" class="wp-image-2241" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.51.14-500x285.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.51.14-500x285.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.51.14-300x171.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.51.14-768x438.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.51.14.png 978w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 4: Kotzebue: Die deutschen Kleinstädter, GerDraCor-Version der <sourceDesc>.</figcaption> </figure> Auch in der GerDraCor-Version fehlt leider die Möglichkeit, auf die einzelnen bibliographischen Informationen (Autor, Titel, Verlag etc.) zuzugreifen. <h3>Dramen im Deutschen Textarchiv</h3> Das<a href="http://www.deutschestextarchiv.de/"> Deutsche Textarchiv (DTA)</a> an der <a href="https://www.bbaw.de/">Berlin-Brandenburgischen Akademie der Wissenschaften</a> stellt einen disziplinen- und gattungsübergreifenden Grundbestand von deutschsprachigen Texten ab dem frühen 16. bis zum frühen 20. Jahrhundert bereit. Hauptziel des Projekts war die Erstellung des sogenannten DTA-Kernkorpus. Dieses enthält insgesamt 1468 Werke (Stand 2020-03) aus dem Zeitraum von ca. 1600 bis 1900, die aufgrund ihrer herausragenden Bedeutung für die Entwicklung der deutschen Sprache bzw. der jeweiligen Genres und wissenschaftlichen Disziplinen ausgewählt wurden. Das Standardverfahren der Texterfassung war das sogenannte <a href="https://fortext.net/ueber-fortext/glossar/double-keying">Double-Keying</a>. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="252" class="wp-image-2242" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.30.35-500x252.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.30.35-500x252.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.30.35-300x151.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.30.35-768x387.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-14.30.35.png 1220w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 5: Webpräsenz des Deutschen Textarchivs (DTA).</figcaption> </figure> Über das DTA-Kernkorpus hinaus integriert das DTA eine Vielzahl weiterer Texte aus dem Zeitraum etwa von der Mitte des 15. bis zur Mitte des 20. Jahrhunderts als <a href="http://www.deutschestextarchiv.de/dtae">DTA-Erweiterungen (DTAE)</a>. Diese stammen aus kooperierenden Projekten und weiteren externen Quellen (siehe Abb. 6). Grundsätzlich haben alle Wissenschaftler*innen, die im Rahmen ihrer Arbeiten, ihrer Projekte oder ihrer Editionen Texte des späten 16. bis frühen 20. Jahrhunderts digitalisieren und bearbeiten, die Möglichkeit, diese Texte im Modul DTAE zu veröffentlichen. Während das DTA so durch Primärtexte aus anderen Projektkontexten fortlaufend ergänzt wird, können diese angelagerten Texte als Spezialkorpora zudem mit dem DTA-Kernkorpus auf ihre sprachlichen Spezifika hin verglichen werden. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="250" class="wp-image-2243" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/chart-500x250.jpeg" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/chart-500x250.jpeg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/chart-300x150.jpeg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/chart-768x384.jpeg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/chart.jpeg 800w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 6: Visualisierung ausgewählte Teilprojekte innerhalb von DTAE, mit Angabe der in das DTA übernommen Seiten aus den jeweiligen Quellen.</figcaption> </figure> Das DTAE (5014 Werke, Stand 2020-03) enthält somit verschiedene (explizite) Subkorpora, wie bspw. die in den Projekten <a href="http://www.deutschestextarchiv.de/search/metadata?corpus=avhkv">Alexander von Humboldts Kosmos-Vorträge</a>, dem <a href="http://www.deutschestextarchiv.de/sanders-briefe/">Briefwechsel Daniel Sanders</a>, <a href="http://www.deutschestextarchiv.de/news/72">DSDK</a> u.v.a. erstellten und in die <a href="https://www.clarin-d.net/de/">CLARIN-D</a>-Infrastruktur der BBAW integrierten Textressourcen. Gleichzeitig besteht aufgrund entsprechender Zuordnung in den Metadaten der Texte die Möglichkeit, über geeignete Filter bzw. Sucheinschränkungen, eigene Subkorpora zu generieren. Hier erweist sich die im DTA implementierte <a href="http://www.deutschestextarchiv.de/doku/DDC-suche_hilfe">DDC-Suche</a> als mächtiges Tool. So kann über das sogenannte „flags“ direkt auf Subkorpora zugegriffen werden. Aber auch ein Zugriff auf die Metadaten, die im TEIHeader gespeichert sind, ist möglich, z.B.: <figure class="wp-block-table"> <table> <tbody> <tr> <td>#has[flags,/\bwikisource\b/] </td> <td>schränkt die Suche auf das Wikisource-Korpus ein</td> </tr> <tr> <td>#has[textClassDTA,’Belletristik::Drama‘]</td> <td>Sucheinschränkung auf Dramen innerhalb der Metadaten</td> </tr> </tbody> </table> </figure> <h3>Bereicherung über das CLARIAH-DE-Pivotformat DTABf</h3> Das DTA hat mit dem sogenannten <a href="http://www.deutschestextarchiv.de/doku/basisformat/">Basisformat (DTABf)</a> einen mittlerweile etablierten Standard im Bereich TEI-Annotation historischer Texte geschaffen. Im DTABf wird für den Quellennachweis innerhalb des TEIHeaders (<sourceDesc>) sowohl <biblFull> als auch <bibl> verwendet. In der Konvertierung der Dramen aus dem TGRep in das DTABf werden die bibliographischen Angaben des Originals – so wie sie vorliegen – im Element <bibl> gespeichert. Die DTABf-konforme Angabe eines <title> innerhalb eines <biblFull> ist auf diesem Weg aber ebenso wenig möglich wie bei den oben beschriebenen Plattformen. Der Grund liegt schlicht darin, dass der Titel der Quelle sowie weitere bibliographische Angaben bislang nicht isoliert (annotiert) vorliegen. Erst der Abgleich mit einem im Projekt CLARIAH-DE händisch annotierten Quellenverzeichnis (siehe Abb. 7) macht es endlich möglich, ein vollständiges <sourceDesc> gemäß TEI zu generieren. Und diese <sourceDesc> wird neben der über Attribute (@type und @level) weiter spezifizierten Titelangabe (<title>) und den beteiligten Akteuren (<persName> als Autor oder Editor inkl. einer eindeutigen ID per GND) auch einen Verlag (<publisher>), einen Erscheinungsort (<pubPlace>), eine Datumsangabe (<date>) und gegebenenfalls weitere Angaben bspw. per <biblScope> enthalten. <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="177" class="wp-image-2244" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-15.17.15-500x177.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-15.17.15-500x177.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-15.17.15-300x106.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-04-24-um-15.17.15.png 690w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 7: Ausschnitt aus der im Projekt CLARIAH-DE angereicherten Bibliographie der Digitalen Bibliothek.</figcaption> </figure> Für das tief strukturierte Quellenverzeichnis wurde auf die Katalogdatei von zeno.org zurückgegriffen. Die GND-IDs wurden größtenteils aus den TGRep-Daten extrahiert. Diese aufwendige Anreicherung der bibliographischen Angaben der von zeno.org bereitgestellten Katalogdatei bildet die Voraussetzung für die geplante Konvertierung der „Digitalen Bibliothek“ in das Basisformat des Deutschen Textarchivs (DTABf). Für die Erstellung des TEIHeaders wird zunächst über ein Mapping auf Basis des zeno.org-Identifiers <BOOKNAME> diejenige Quelle ermittelt, aus welcher das Werk stammt.<a href="https://sprache.hypotheses.org/2234#footnote_5_2234" id="identifier_5_2234" class="footnote-link footnote-identifier-link" title="Was dabei auf der Buchebene oftmals noch relativ trivial erscheint, wird schnell komplex, wenn es sich bei dem bearbeiteten Titel nur um einen Teil eines Werks handelt. Nötig ist der Rückgriff auf die zeno.org-Information, da in einem nicht zu vernachlässigenden Teil der TGRep-Daten überhaupt keine <title>-Daten übernommen wurden.">6</a> Es folgt ein Zugriff auf den im Projekt erstellten und angereicherten Katalogdatensatz. Um die Verlinkung mit dem ursprünglichen Datensatz zu gewährleisten, wird aus den TGRep-Daten der TextGrid-URI (d.h. Uniform Resource Identifier) übernommen.<a href="https://sprache.hypotheses.org/2234#footnote_6_2234" id="identifier_6_2234" class="footnote-link footnote-identifier-link" title="Dies klingt in der Tat einfacher, als es sich darstellt, denn in der ansonsten zu bevorzugenden 2017er-Version der TGRep-Daten fehlen just diese IDs.">7</a> Da es sich in den allermeisten Fällen bei den zeno.org-Ausgaben nicht um die Erstausgabe handelt, muss schließlich der Titel des Werks aus einem <titleStmt> in der <fileDesc> im TGRep-Header übernommen werden. Für einen entsprechenden Ausschnitt aus dem so generierten TEI-Header siehe Abb. 8: <figure class="wp-block-image size-large"><img loading="lazy" width="500" height="357" class="wp-image-2245" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-05-22-um-11.50.06-500x357.png" alt="" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-05-22-um-11.50.06-500x357.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-05-22-um-11.50.06-300x214.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/06/Bildschirmfoto-2020-05-22-um-11.50.06.png 750w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption> Abb. 8: Kotzebue: Die deutschen Kleinstädter, DTABf-Version der <sourceDesc>, die im Projekt CLARIAH-DE erstellt wird.</figcaption> </figure> Daran anschließend können die so aufgewerteten TEIHeader der Dramen per script vollautomatisch in die entsprechenden GerDraCor-Dateien zurückgespielt werden. Schließlich können die so angereicherten TGRep-Textderivate auch über einen URI in den Metadaten der jeweiligen Ressourcen Teil der TGRep-Datensätze werden. Neben diesen offensichtlichen Synergieeffekten, von denen alle drei Textsammlungen – das TextGrid Repository, die GerDraCor-Plattform sowie das Deutsche Textarchiv – profitieren, wird die Kuration der TGrep-TEI-Version der von zeno.org erstellten digitalen Texte sowie die Konvertierung in das DTABf weitere Vorteile bringen: <ol> <li>Zukünftig wird die Beforschung der „Digitalen Bibliothek“ im Kontext anderer Textsammlungen (wie dem Deutschen Textarchiv (DTA)) möglich sein.</li> <li>Es werden weitere etablierte Tools im Bereich der Sprachforschung zur Verfügung stehen, um die Textsammlung zu analysieren.</li> <li>Die Bereinigung und Anreicherung der Metadaten wird es möglich machen, aus dem Bestand die verschiedenen Ausgaben der Texte zu identifizieren und zu kollationieren.</li> <li>Nicht zuletzt können durch die Integration der Textsammlung in die CLARIN-D-Infrastruktur der BBAW einige sehr avancierte Suchfunktionen und Analysewerkzeuge genutzt werden.</li> </ol> <h3>Referenzen</h3> Frank Fischer, Ingo Börner, Mathias Göbel, Angelika Hechtl, Christopher Kittel, Carsten Milling and Peer Trilcke (2019): „Programmable Corpora. Die digitale Literaturwissenschaft zwischen Forschung und Infrastruktur am Beispiel von DraCor.“ In: DHd 2019. Digital Humanities: multimedial & multimodal. Konferenzabstracts, pp. 194–197. DOI: 10.5281/zenodo.2596094. Frank Fischer, Susanne Haaf, und Marius Hug. „The Best of Three Worlds: Mutual Enhancement of Corpora of Dramatic Texts (GerDraCor, German Text Archive, TextGrid Repository)“. In Proceedings of CLARIN Annual Conference 2019, herausgegeben von K. Simov und M. Eskevich, 97–103. Leipzig, 2019. URL: https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf#page=104. Frank Fischer, Mathias Göbel: „A (Not So) Simple Question and a Somewhat Diabolic Answer“, June 18, 2015. URL: https://dlina.github.io/A-Not-So-Simple-Question/. Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand: „Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN.“ In: Henning Lobin, Roman Schneider, Andreas Witt (Hgg.): Digitale Infrastrukturen für die germanistische Forschung (= Germanistische Sprachwissenschaft um 2020, Bd. 6). Berlin/Boston, 2018, S. 219–248. Online-Version, DOI: 10.1515/9783110538663-011. Alexander Geyken, Thomas Gloning: „A living text archive of 15th-19th-century German. Corpus strategies, technology, organization.“ In: Jost Gippert, Ralf Gehrke (Hrsg.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 165–180. <ol class="footnotes"><li id="footnote_0_2234" class="footnote">Digital Literary Network Analysis (dlina): „A (Not So) Simple Question and a Somewhat Diabolic Answer“, June 18, 2015, <a href="https://dlina.github.io/A-Not-So-Simple-Question/">https://dlina.github.io/A-Not-So-Simple-Question/</a> [Diese und alle URLs in diesem Beitrag zuletzt abgerufen 2020-06-19].</li><li id="footnote_1_2234" class="footnote">Zwar ist <BOOKNAME> ein wichtiger und eindeutiger Identifier innerhalb von Zeno.org, da dieser im TGRep aber keine Rolle spielt, wird auch hier nicht näher auf ihn eingegangen.</li><li id="footnote_2_2234" class="footnote">Neben der Online-Version im TextGrid Repository stehen auch zwei Versionen zum Download zur Verfügung. Beide Versionen machen von <BOOKDESCR> Gebrauch und verlieren dabei, s.o., die Zuordnung bei mehrbändigen Werken. Zusätzlich gibt es einen momentan nicht öffentlich zugänglichen Arbeitsstand mit einigen Korrekturen von 2017. In diesem werden als Quellennachweis zwei <title> angegeben, wobei es sich um 1:1-Übernahmen von <BOOKDESCR> und <BOOKCITE> handelt. </li><li id="footnote_3_2234" class="footnote">Siehe zu GerDraCor: <a href="https://dracor.org/ger">https://dracor.org/ger</a>, <a href="https://github.com/dracor-org/gerdracor">https://github.com/dracor-org/gerdracor</a>, <a href="https://github.com/dracor-org/gerdracor/wiki/Documentation-for-Correcting-Plays-from-TextGrid-Repository">https://github.com/dracor-org/gerdracor/wiki/Documentation-for-Correcting-Plays-from-TextGrid-Repository</a>.</li><li id="footnote_4_2234" class="footnote">Im Rahmen der hier beschriebenen wechselseitigen Bereicherung verschiedener Textsammlungen können diese <speaker> aus den GerDraCor-Daten in das DTA-Subkorpus integriert werden. Da diese jedoch nicht Teil der <sourceDesc> sind, kann man sie auf dem Screenshot nicht sehen.</li><li id="footnote_5_2234" class="footnote">Was dabei auf der Buchebene oftmals noch relativ trivial erscheint, wird schnell komplex, wenn es sich bei dem bearbeiteten Titel nur um einen Teil eines Werks handelt. Nötig ist der Rückgriff auf die zeno.org-Information, da in einem nicht zu vernachlässigenden Teil der TGRep-Daten überhaupt keine <title>-Daten übernommen wurden.</li><li id="footnote_6_2234" class="footnote">Dies klingt in der Tat einfacher, als es sich darstellt, denn in der ansonsten zu bevorzugenden 2017er-Version der TGRep-Daten fehlen just diese IDs.</li></ol>]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2234/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Erweiterung der Korpora im DWDS um die Rubrik „Metakorpora“</title> <link>https://sprache.hypotheses.org/2210</link> <comments>https://sprache.hypotheses.org/2210#respond</comments> <dc:creator><![CDATA[Frank Wiegand]]></dc:creator> <pubDate>Mon, 11 May 2020 20:26:47 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[historische Korpora]]></category> <category><![CDATA[Korpuslinguistik]]></category> <category><![CDATA[Webkorpora]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2210</guid> <description><![CDATA[Mit einem Update vom 7. Mai 2020 sind die Korpora im DWDS umstrukturiert. Neu hinzugekommen ist die Kategorie der Metakorpora. Damit sind Einzelkorpora gebündelt durchsuchbar.]]></description> <content:encoded><![CDATA[ Mit einem Update vom 7. Mai 2020 wurden die <a href="https://www.dwds.de/r">Korpora</a> im DWDS um die Rubrik <a href="https://www.dwds.de/d/k-meta">Metakorpora</a> erweitert. In einem Metakorpus sind mehrere Einzelkorpora gebündelt. Der Vorteil aus Nutzer/innen-Sicht besteht darin, dass thematisch verwandte Einzelkorpora über das entsprechende Metakorpus mit nur einer einzigen Suchanfrage durchsucht werden können. Im Einzelnen: Das Korpus „Deutsches Textarchiv“ wurde aufgeteilt in das Referenzkorpus <a href="https://www.dwds.de/d/k-referenz#dtak">„DTA-Kernkorpus“</a> und das Spezialkorpus <a href="https://www.dwds.de/d/k-spezial#dtae">„DTA-Erweiterungen“</a>, gemeinsam sind beide im Metakorpus <a href="https://www.dwds.de/d/k-meta#dta">„DTA-Kern+Erweiterungen“</a> recherchierbar. Die DTA-Erweiterungen selbst setzen sich aus mehreren Sammlungen zusammen, die optional auch einzeln recherchierbar sind. Neu ist das Metakorpus <a href="https://www.dwds.de/d/k-meta#dtaxl">„Historische Korpora“</a>, welches alle historischen Texte im DWDS-Bestand bündelt und, sofern verfügbar, auch direkt mit den Volltext- und Bilddigitalisaten verknüpft. Damit sind Texte aus dem <a href="http://www.deutschestextarchiv.de/">Deutschen Textarchiv</a>, dem <a href="http://dingler.culture.hu-berlin.de/">Polytechnischen Journal</a> (der „Dingler“), aus Text+Berg (historischer Teil, 1864–1900), sowie Texte aus den Projekten „Digitale Sammlung Deutscher Kolonialismus“ (DSDK), „Die Gartenlaube“ (bislang 15 Bände) und „Die Grenzboten“ (311 Bände) in einem Korpus abfragbar. Auch hier sind die einzelnen Teilkorpora bei der Suche an- und abwählbar. Dieses große Korpus historischer Texte umfasst ca. 49 000 Dokumente mit ca. 470 Mio. Tokens. Bei allen historischen Korpora kann nun in der Trefferansicht auf die Annotation von Einzelwörtern zugegriffen werden. Die jeweilige Annotation erscheint beim Überfahren des Textwortes mit der Maus: <a href="https://www.dwds.de/r?q=Befreiung&corpus=dtaxl"><img loading="lazy" class="aligncenter size-large wp-image-2213" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/05/dwds-histkorp-500x347.png" alt="Ansicht Suche in historischen Korpora des DWDS" width="500" height="347" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/05/dwds-histkorp-500x347.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/05/dwds-histkorp-300x208.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/05/dwds-histkorp-768x533.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/05/dwds-histkorp.png 1152w" sizes="(max-width: 500px) 100vw, 500px" /></a> Neu (<a href="https://www.dwds.de/profile/login">nach Anmeldung</a>) im DWDS verfügbar ist das <a href="https://www.dwds.de/d/k-web#corona">„Corona-Korpus“</a>, welches sich im Aufbau befindet, für neue Textquellen zu diesem Korpus <a href="https://github.com/adbar/coronakorpus/blob/master/contributing.md">nehmen wir gern Hinweise an</a>. ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2210/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Ins Netz gegangen. Datenkuration im Deutschen Textarchiv am Beispiel der „Meerwunder“-Edition</title> <link>https://sprache.hypotheses.org/1340</link> <comments>https://sprache.hypotheses.org/1340#respond</comments> <dc:creator><![CDATA[noraketschik]]></dc:creator> <pubDate>Thu, 09 Apr 2020 19:13:53 +0000</pubDate> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[CLARIN-D]]></category> <category><![CDATA[Datenkuration]]></category> <category><![CDATA[Digitale Edition]]></category> <category><![CDATA[DTABf]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=1340</guid> <description><![CDATA[– ein Beitrag von Nora Ketschik (Universität Stuttgart) und Christian Thomas (BBAW) Die Erzählung vom „Meerwunder“ Das „Meerwunder“ ist eine im Nürnberger Raum überlieferte Erzählung aus dem 15. und 16. Jahrhundert, die in drei Fassungen in einem Editionsprojekt der Universität Stuttgart erschlossen und ediert worden ist. Im vorliegenden Beitrag möchten wir die Editionsgeschichte der drei „Meerwunder“-Texte vor dem Hintergrund ihrer jeweiligen Überlieferungssituation genauer erläutern und ein Best Practice-Verfahren für die digitale Aufbereitung von Textsammlungen vorstellen. Erstmals wird die Erzählung vom Meerungeheuer im berühmten „Dresdner … <a href="https://sprache.hypotheses.org/1340" class="more-link">Ins Netz gegangen. Datenkuration im Deutschen Textarchiv am Beispiel der „Meerwunder“-Edition weiterlesen →</a>]]></description> <content:encoded><![CDATA[ – ein Beitrag von Nora Ketschik (Universität Stuttgart) und Christian Thomas (BBAW) <h2>Die Erzählung vom „Meerwunder“</h2> Das „Meerwunder“ ist eine im Nürnberger Raum überlieferte Erzählung aus dem 15. und 16. Jahrhundert, die in drei Fassungen in einem <a href="http://www.uni-stuttgart.de/germed/forschung/digitale_editionen/Meerwunder/start.html">Editionsprojekt der Universität Stuttgart</a> erschlossen und ediert worden ist. Im vorliegenden Beitrag möchten wir die Editionsgeschichte der drei „Meerwunder“-Texte vor dem Hintergrund ihrer jeweiligen Überlieferungssituation genauer erläutern und ein Best Practice-Verfahren für die digitale Aufbereitung von Textsammlungen vorstellen. Erstmals wird die Erzählung vom Meerungeheuer im berühmten <a href="https://digital.slub-dresden.de/werkansicht/dlf/9933/2/0/">„Dresdner Heldenbuch“ des Kaspers von der Rhön aus dem Jahre 1472</a> greifbar, in dem sie mit deutlich berühmteren Erzählungen der sogenannten aventiurehaften Dietrichepik wie dem „Eckenlied“, „Sigenot“ oder „Laurin“ in einem Überlieferungsverbund steht.<a href="https://sprache.hypotheses.org/1340#footnote_0_1340" id="identifier_0_1340" class="footnote-link footnote-identifier-link" title="Zum &bdquo;Dresdner Heldenbuch“ vgl. http://www.handschriftencensus.de/6805; die Farbabbildung des Codex ist bei der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Desden (SLUB) einsehbar: https://digital.slub-dresden.de/werkansicht/dlf/9933/2/0/, letzter Zugriff jeweils: 08.04.2020.">1</a> Die unikal und anonym überlieferte Erzählung handelt von der genealogischen Bedrohung einer Herrschaftsfamilie, die aus der Vergewaltigung einer Königin durch ein Meerungeheuer resultiert. Die Handlung lässt sich wie folgt umreißen: Die Frau eines lombardischen Königs geht ohne ihr Gefolge an einem Strand spazieren, wo sie von einem Meerwunder überrascht und vergewaltigt wird. Ihrem Gemahl verschweigt sie den Vorfall zunächst, so dass ihm die Hintergründe der hieraus hervorgehenden Schwangerschaft unbekannt bleiben und der missgestaltete Bastard als legitimer Sohn des Königs aufwächst. Erst als der vermeintliche Königssohn Frauen schändet (und frisst), die Männer des Königs tötet und schließlich einen Mordanschlag auf die Königsfamilie verübt, gesteht die Königin ihrem Mann die wahren Umstände der Zeugung. Nachdem der Bastard durch den König und dessen leiblichen Sohn getötet worden ist, begibt sich die Familie abermals zum Strand, um dort Rache am Ungeheuer zu nehmen. Die Königin fungiert als Lockvogel und wird abermals vom Meerwunder angegriffen, dieses kann nun aber von der Königsfamilie überwältigt und getötet werden, so dass die Ehre der Königin gewahrt bleibt. Bemerkenswert ist neben dem delikaten Inhalt und der Überlieferungssituation vor allem der regionale Bezug der Erzählung zum Raum Nürnberg: Dort ist nicht nur das „Meerwunder“ gemäß „Dresdner Heldenbuch“ entstanden, der Stoff wird darüber hinaus in zwei Liedern des Nürnberger Meistersingers Hans Sachs aus den Jahren 1552 und 1562 aufgegriffen und vermutlich auch von Albrecht Dürer in einem 1498 entstandenen Kupferstich mit dem Titel „Meerwunder“ verarbeitet (Abb. 1). Somit wird eine mindestens 80 Jahre umfassende, auf die Region Nürnberg beschränkte Stofftradition greifbar, welche als solche von der Forschung bisher nicht wahrgenommen und untersucht worden ist. <figure class="wp-block-image"> <figure id="attachment_2148" aria-describedby="caption-attachment-2148" style="width: 378px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest.jpg"><img loading="lazy" class="wp-image-2148 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-378x500.jpg" alt="" width="378" height="500" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-378x500.jpg 378w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-227x300.jpg 227w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-768x1017.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-1160x1536.jpg 1160w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest-1547x2048.jpg 1547w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/albrecht-duerer-das-meerwunder-hochaufgeloest.jpg 1806w" sizes="(max-width: 378px) 100vw, 378px" /></a><figcaption id="caption-attachment-2148" class="wp-caption-text">Abb. 1: „Das Meerwunder“ Kupferstich (um 1498) von Albrecht Dürer (via <a href="https://www.albrecht-duerer-apokalypse.de/">https://www.albrecht-duerer-apokalypse.de/</a>).</figcaption></figure> </figure> Dies aufzuholen, indem die drei literarischen Bearbeitungen des „Meerwunders“ aus dem 15. und 16. Jahrhundert erstmals nebeneinander verfüg- und lesbar gemacht werden, war das Bestreben eines no budget-Editionsprojekts der Universität Stuttgart aus den Jahren 2013–2016.<a href="https://sprache.hypotheses.org/1340#footnote_1_1340" id="identifier_1_1340" class="footnote-link footnote-identifier-link" title="&bdquo;Meerwunder“. Edition, Kommentierung und Übersetzung dreier Fassungen einer spätmittelalterlichen Heldenerzählung, hg. von Anja Braun, Nora Ketschik, Anne Kirchhoff, Matthias Kirchhoff und Stephanie Seidl, http://www.uni-stuttgart.de/germed/forschung/digitale_editionen/Meerwunder/start.html, letzter Zugriff: 08.04.2020. Zu diesem und einem weiteren Editionsprojekt sowie Fragen der Nachhaltigkeit digitaler Editionen vgl. Nora Ketschik, Matthias Kirchhoff: &bdquo;Online durch die Elemente. Die Stuttgarter digitalen Editionen &sbquo;Das Himmlische Gastmahl‘ und &sbquo;Meerwunder‘ und ihre nachhaltige Sicherung im Netz.“ In: ZfdA 149 (2020), S. 78–89.">2</a> Im Rahmen dieses Projekts wurden die drei Erzählungen vom „Meerwunder“ transkribiert, ediert, ins Neuhochdeutsche übertragen und als online-Edition zusammen mit weiteren Handreichungen wie einer Einleitung, einer Dokumentation der Editionsprinzipien und Informationen zu Forschung und Überlieferung auf der Abteilungsseite der Germanistischen Mediävistik veröffentlicht. Um die Edition in ihrem Format den etablierten Standards bzw. gängigen Best Practice-Empfehlungen anzupassen, die Forschungsdaten nachhaltig zu sichern und somit der Forschungsgemeinschaft verfügbar zu halten, wurden sie in den Jahre 2017–2019 erneut aufbereitet und durch Zusammenarbeit mit dem <a href="https://clarin.bbaw.de/de/">CLARIN-D-Servicezentrum der BBAW</a> in das <a href="http://www.deutschestextarchiv.de/">Deutsche Textarchiv (DTA)</a> integriert.<a href="https://sprache.hypotheses.org/1340#footnote_2_1340" id="identifier_2_1340" class="footnote-link footnote-identifier-link" title="CLARIN-D-Servicezentrum der BBAW: https://clarin.bbaw.de/de/; Deutsches Textarchiv: http://www.deutschestextarchiv.de/; vgl. dazu z. B. Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand: &bdquo;Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN.“ In: Henning Lobin, Roman Schneider, Andreas Witt (Hgg.): Digitale Infrastrukturen für die germanistische Forschung (= Germanistische Sprachwissenschaft um 2020, Bd. 6). Berlin/Boston, 2018, S. 219–248. DOI: 10.1515/9783110538663-011, letzter Zugriff jeweils: 08.04.2020.">3</a> Im Folgenden werden wir zunächst die frühere Editionsgeschichte des „Meerwunders“ und anschließend die Datenkuration, d. h. die Konvertierung, Vereinheitlichung und punktuelle Anreicherung der Stuttgarter Datengrundlage im Zuge der Integration in das DTA sowie die CLARIN-D-Infrastruktur erläutern. <h2>Überlieferung und Vorgängereditionen</h2> Die anonym überlieferte Erzählung vom „Meerwunder“ gemäß „Dresdner Heldenbuch“ ist im sogenannten Bernerton verfasst und besteht aus 31 Strophen. Anders als die anderen, weitaus bekannteren Helden- und Spielmannsepen der 1472 fertiggestellten Sammelhandschrift, ist das „Meerwunder“ unikal überliefert. Die erste Edition der Handschrift stammt von Friedrich Heinrich von der Hagen und Alois Primisser aus den Jahren 1820–1825.<a href="https://sprache.hypotheses.org/1340#footnote_3_1340" id="identifier_3_1340" class="footnote-link footnote-identifier-link" title="Von der Hagen, Friedrich Heinrich und Primisser, Alois (Hg.): Der Helden Buch in der Ursprache, 2. Bde., Berlin 1820/1825; Digitalisat: https://reader.digitale-sammlungen.de/de/fs1/object/display/bsb11216720_00005.html, letzter Zugriff: 08.04.2020. Die Erzählungen des &bdquo;Dresdner Heldenbuchs“ finden sich in Bd. 2, das &bdquo;Meerwunder“ auf S. 222–226.">4</a> Gemäß ihrer Entstehungszeit entspricht die Edition nicht den Maximen, die die New Philology seit den 90er Jahren für die Editionsphilologie aufgestellt hat, beispielsweise greift sie ohne Kennzeichnung in den Originallaut der Handschrift ein und lässt einen kritischen Apparat vermissen. Das „Meerwunder“ ist darüber hinaus unabhängig von seinem Überlieferungsverbund im Jahre 1940 von Edward Fuchs in der Zeitschrift „Modern Philology“ veröffentlicht worden.<a href="https://sprache.hypotheses.org/1340#footnote_4_1340" id="identifier_4_1340" class="footnote-link footnote-identifier-link" title="Fuchs, Edward A. H.: Das Meerwunder, in: Modern Philology 37 (1940), S. 225–240.">5</a> Bei dieser Edition handelt es sich um einen buchstabengetreuen Abdruck des Handschriftentextes; offensichtliche Fehler werden unverändert übernommen, lediglich die Abkürzungszeichen sind aufgelöst und die strophische Form des Textes ist hergestellt worden. Die jüngste, in Papierform veröffentlichte Edition des „Meerwunders“ stammt von Walter Kofler aus dem Jahr 2006, wobei dieser seine Textausgabe des „Dresdner Heldenbuchs“ um ein Digitalfaksimile auf CD-ROM ergänzt.<a href="https://sprache.hypotheses.org/1340#footnote_5_1340" id="identifier_5_1340" class="footnote-link footnote-identifier-link" title="Kofler, Walter (Hg.): Das Dresdener Heldenbuch und die Bruchstücke des Berlin-Wolfenbütteler Heldenbuchs. Edition und Digitalfaksimile, Stuttgart 2006; das &bdquo;Meerwunder“, S. 236–234.">6</a> Koflers Edition entspricht modernen Standards und umfasst neben dem Editionstext unter anderem einen textkritischen sowie einen Kommentar-Apparat. Hans Sachs’ erste „Meerwunder“-Bearbeitung ist das im 13. Meistergesangsbuch (kurz: MG 13) des Stadtarchivs Zwickau überlieferte Gedicht „Die kunigin peschlieff ein merwunder“.<a href="https://sprache.hypotheses.org/1340#footnote_6_1340" id="identifier_6_1340" class="footnote-link footnote-identifier-link" title="Zum MG 13 vgl. http://www.handschriftencensus.de/25599, letzter Zugriff: 08.04.2020.">7</a> Die Papierhandschrift ist in den Jahren 1552–1553 entstanden und wurde 1870 von Karl Goedeke ediert.<a href="https://sprache.hypotheses.org/1340#footnote_7_1340" id="identifier_7_1340" class="footnote-link footnote-identifier-link" title="Goedeke, Karl (Hg.): Dichtungen des Hans Sachs. Erster Teil: Geistliche und weltliche Lieder, Leipzig 1870; das &bdquo;Meerwunder“-Gedicht findet sich auf S. 299f. unter dem Titel &bdquo;Die königin mit dem merwunder“.">8</a> Der Editionstext ist unkritisch eingerichtet und entspricht den Standards des 19. Jahrhunderts; ein Apparat ergänzt den Editionstext um Verständnishilfen, legt aber nicht die seitens des Herausgebers vorgenommenen Eingriffe in den Text offen. Auch das zweite „Meerwunder“-Gedicht des Hans Sachs, überschrieben mit „Historia: Königin Deudalinda mit dem meerwunder“ (1562), liegt lediglich in einer Edition aus dem 19. Jahrhundert vor.<a href="https://sprache.hypotheses.org/1340#footnote_8_1340" id="identifier_8_1340" class="footnote-link footnote-identifier-link" title="Keller, A. v. und Goetze, E. (Hg.): Hans Sachs, 16. Bd., Tübingen 1886, S. 228–232: &bdquo;Historia: Königin Deudalina mit dem meerwunder“. Digitalisat: https://books.google.com/books?id=2Qc3AAAAMAAJ, letzter Zugriff: 08.04.2020.">9</a> Anders als bei Sachs’ früherem Gedicht ist der Überlieferungsträger, der Sangspruchband SG 15 des Stadtarchivs Zwickau, aber seit mindestens 1853 verschollen, so dass keine Aussagen über mögliche Eingriffe der Herausgeber Keller und Götze in den ursprünglichen Handschriftenlaut getroffen werden können. Damit engt sich auch der editorische Handlungsspielraum für die Neuedition der Erzählung stark ein und beschränkt sich neben Eingriffe in die Interpunktion allenfalls auf die Korrektur offensichtlicher Fehler. <figure class="wp-block-image"> <figure id="attachment_1346" aria-describedby="caption-attachment-1346" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite.jpg"><img loading="lazy" class="wp-image-1346 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite-500x216.jpg" alt="" width="500" height="216" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite-500x216.jpg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite-300x129.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite-768x331.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/01/Screenshot-UniStuttgart-Meerwunder-Startseite.jpg 1912w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-1346" class="wp-caption-text">Abb. 2: Startseite der digitalen „Meerwunder“-Edition (Germanistische Mediävistik, Universität Stuttgart), <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/start.html">https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/start.html</a>.</figcaption></figure> </figure> Das Editionsprojekt der Universität Stuttgart stellt die erste digitale Edition der „Meerwunder“-Erzählungen dar. Hierfür sind die Texte gemäß modernen Editionsprinzipien neu ediert und erstmals nebeneinander betrachtbar gemacht worden (vgl. Abb. 2). Eine Dokumentation der Editionsprinzipien macht die Eingriffe seitens der Herausgeber transparent (u.a. moderne Interpunktion, Auflösung von Abkürzungszeichen, u-v-Ausgleich), zusätzlich sind darüber hinaus gehende Eingriffe im Editionstext durch Kursivierung markiert. Allen Editionstexten sind zwei Apparate beigegeben: der kritische Apparat vermerkt jegliche Abweichungen des Editionstextes gegenüber der Handschrift bzw. Vorlage, der Kommentar-Apparat bietet Verständnishilfen und hält Unterschiede zu den oben genannten Vorgängereditionen fest. Durch Verknüpfungen zu den Digitalisaten sind ferner die Handschriften einsehbar, so dass dem interessierten Leser stets der Blick in den ursprünglichen Handschriftenlaut gewährt werden kann. Um ein Fachpublikum auch jenseits der germanistischen Mediävistik ansprechen zu können, sind die frühneuhochdeutschen Erzählungen erstmals ins Neuhochdeutsche übertragen worden; die Übertragung kann optional neben dem Editionstext angezeigt werden (vgl. Abb. 3). Ein PDF-Button ermöglicht zudem, die in HTML erstellten Editionstexte inklusive neuhochdeutscher Übertragung im PDF-Format herunterzuladen. <figure class="wp-block-image"> <figure id="attachment_2134" aria-describedby="caption-attachment-2134" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text.png" target="_blank" rel="noopener noreferrer"><img loading="lazy" class="wp-image-2134 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text-500x486.png" alt="" width="500" height="486" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text-500x486.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text-300x292.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text-768x747.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/MeerwunderUniStuttgart_Text.png 1263w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-2134" class="wp-caption-text">Abb. 3: „Das Meerwunder“ – Editionstext mit Übersetzung (Germanistische Mediävistik, Universität Stuttgart), <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html">https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html</a>.</figcaption></figure> <figcaption></figcaption> </figure> <h2>Aufbereitung, Anreicherung, Analyse und Archivierung des Textes im DTA</h2> Voraussetzung für Aufnahme der „Meerwunder“-Edition in das Deutsche Textarchiv war, ebenso wie für alle weiteren externen Textressourcen, die über das Modul <a href="http://www.deutschestextarchiv.de/dtae">„DTAE“ (DTA-Erweiterungen)</a> in die Plattform integriert werden, dass der Volltext gemäß dem auf den Richtlinien der <a href="https://tei-c.org">Text Encoding Initiative (TEI)</a> basierenden <a href="http://www.deutschestextarchiv.de/doku/basisformat/">DTA-Basisformat (DTABf)</a> kodiert ist. Die Editionstexte mussten also jeweils aus dem also aus dem ursprünglichen (X)HTML-Format in das Zielformat TEI-XML bzw. DTABf konvertiert werden. Im Zuge dieser Konvertierung der Dokumente galt es, die im folgenden Absatz beispielhaft erläuterte Datenstruktur in eine hierarchische XML-Struktur zu überführen und diese nach den DTABf-Vorgaben zu kodieren. Ziel dieser Kurationsarbeit ist die möglichst verlustfreie Konvertierung der Informationen und Annotationen aus dem Ausgangs- in das Zielformat, wobei idealerweise die resultierenden Textressourcen nicht nur standardkonform sind, sondern auch um zuvor nicht oder nur implizit enkodierte Informationen angereichert wurden. Wie auch in Abb. 3 erkennbar, ist die Anordnung der Editionselemente auf der HTML-Seite als tabellenartige Darstellung stark an Printkonventionen orientiert: Der Text wird in zwei Spalten gesetzt (links: der Editionstext, rechts: dessen Übertragung in modernes Deutsch), parallel zu denen mit der Zeilenzählung und den Verweisen auf den kritischen Apparat („A“) bzw. die Kommentare („K“) drei weitere, links des Editionstextes angeordnete Spalten laufen. Am unteren Rand sind quer zu diesen insgesamt fünf Spalten zwei in sich nicht weiter strukturierte Zeilen angeordnet: Diese enthalten ebd. die Apparat- bzw. Kommentar-Einträge mit der jeweiligen Zeilenreferenz. Die Verknüpfung zwischen dem Text des Originals und dessen Übertragung in ein modernes Hochdeutsch ist implizit durch die Anordnung in zwei Tabellenzellen derselben Spalte gegeben; die Verknüpfung zwischen Apparat- und Kommentarreferenz und deren jeweiligen textuellem Inhalt erfolgt über Anker in Form von wechselseitigen Verweisen mit @href– bzw. @name-Attributen. Aus der so formatierten Vorlage in (X)HTML galt es nun, möglichst effizient, d.h. weitestgehend automatisiert, mit möglichst wenigen manuellen Eingriffen, eine TEI-XML-Kodierung gemäß DTABf zu erzeugen. Zunächst wurde über das CLARIN-D-Webformular für Metadaten<a href="https://sprache.hypotheses.org/1340#footnote_9_1340" id="identifier_9_1340" class="footnote-link footnote-identifier-link" title="CLARIN-D Metadatenformular zur Aufnahme einzelner Ressourcen, http://www.deutschestextarchiv.de/dtae/metadaten, letzter Zugriff: 08.04.2020.">10</a> ein TEI-Header erzeugt und in die jeweilige XML-Datei eingefügt. Anschließend wurde der <text>-Bereich des TEI-Dokuments, also der edierte Text samt Übertragung, Apparat und Kommentaren, überarbeitet. In diesem Zuge wurde die nur implizit gegebene Information, dass es sich bei dem Text um eine Verserzählung handelt, durch das TEI-Element <lg> (= „line group“) explizit gemacht, und dem entsprechend jede Zeile als <l>[…]</l> (= „line“) markiert. Diese Reformatierung der ursprünglichen Tabellenzeilen ließ sich durch einfaches Suchen&Ersetzen mit Regulären Ausdrücken vornehmen. Dabei wurde dem Text der Vorlage innerhalb der einzelnen Zeilen die Übertragung in modernes Deutsch als editorischer Kommentar, <note type=“editorial“>, zur Seite gestellt und dessen Urheber, d.h. das Team der Herausgeberinnen und Herausgeber, mittels des @resp-Attributs kenntlich gemacht. Das Ergebnis ist ein vollständig DTABf-konformes XML-Dokument mitsamt Metadaten im TEI-Header sowie der <lg>-Struktur und den erwähnten weiteren Annotationen im <text>-Bereich (Abb. 4): <figure class="wp-block-image"> <figure id="attachment_1545" aria-describedby="caption-attachment-1545" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4.jpg"><img loading="lazy" class="wp-image-1545 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4-500x271.jpg" alt="XML-Volltext, strukturiert und annotiert gemäß DTABf; Screenshot aus dem oXygen-XML-Editor (cf. https://www.oxygenxml.com/)." width="500" height="271" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4-500x271.jpg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4-300x163.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4-768x416.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-4.jpg 1680w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-1545" class="wp-caption-text">Abb. 4: XML-Volltext nach der Kuration, strukturiert und annotiert gemäß DTABf; Screenshot aus dem oXygen-XML-Editor (cf. <a href="https://www.oxygenxml.com/">https://www.oxygenxml.com/</a>).</figcaption></figure> </figure> Dieses Dokument wurde anschließend innerhalb der Plattform zur Qualitätssicherung <a href="http://www.deutschestextarchiv.de/dtaq/about">DTAQ</a><a href="https://sprache.hypotheses.org/1340#footnote_10_1340" id="identifier_10_1340" class="footnote-link footnote-identifier-link" title="DTAQ: Kollaborative Qualitätssicherung im Deutschen Textarchiv, http://www.deutschestextarchiv.de/dtaq/about, letzter Zugriff: 08.04.2020.">11</a> veröffentlicht. Hier fand das gemeinsame Korrekturlesen statt, wobei verbliebene Fehler und Inkonsistenzen im Text bzw. in der Kodierung in sogenannten Tickets vermerkt wurden. Die gemeldeten Fehler wurden zum Teil von Mitarbeiterinnen und Mitarbeitern des DTA bzw. des CLARIN-D-Servicezentrums der BBAW und zum Teil von Nora Ketschik Universität Stuttgart, direkt online behoben, wofür in DTAQ jeweils ein Text- und ein XML-Editor (inkl. Validierungsfunktion) integriert ist. Der Text der Transkription sowie die XML-Annotation wurden auf diesem Wege sukzessive korrigiert bzw. optimiert. Anschließend, und hier bedurfte es einiger Handarbeit, wurde der Zeilenfall in der Transkription an den Zeilenfall der handschriftliche Vorlage angepasst. Denn im Unterschied zum edierten Text, der Verszeilen wiedergibt, ist die Vorlage als fortlaufender Fließtext notiert, während der Wechsel der Verszeilen vom Schreiber jeweils durch eine Virgel gekennzeichnet wurde, wie in Abb. 5 erkennbar: <figure class="wp-block-image"> <figure id="attachment_1548" aria-describedby="caption-attachment-1548" style="width: 554px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5.jpg"><img loading="lazy" class="wp-image-1548 " src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5.jpg" alt="" width="554" height="464" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5.jpg 1850w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5-300x251.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5-768x643.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/05/meerwunder-abb-5-500x419.jpg 500w" sizes="(max-width: 554px) 100vw, 554px" /></a><figcaption id="caption-attachment-1548" class="wp-caption-text">Abb. 5: Dresdner Heldenbuch (Heldenbuch des Kaspar von der Rhön); Autor: Kaspar von der Rhön; [S.l.], 1472/1475; Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Desden (SLUB), Signatur: Mscr.Dresd.M.201, <a href="http://digital.slub-dresden.de/id274282186/400">http://digital.slub-dresden.de/id274282186/400</a>.</figcaption></figure> </figure> Ebenso direkt innerhalb der DTAQ-Plattform wurde die zum Teil sehr kleinteilige Binnen-Annotation des transkribierten Textes vorgenommen. Dabei wurden sämtliche Inhalte des kritischen Apparats, der vor allem Informationen über Texteingriffe enthält, und des Kommentar-Apparats aus der entsprechenden Spalte in ein TEI-konformes editorisches Markup überführt. Dies sei am Beispiel der <a href="http://www.deutschestextarchiv.de/nn_meerwunder_1472/5">Zeilen 40 und 48 aus Bl. 193v der Fassung Dresdner Heldenbuch</a> illustriert. Die Zeilen lauten: <blockquote> [40:] Die fraw gar nachent tot beleib, [48:] O her, nun pis mein schirm und schilt, </blockquote> Der kritische Apparat enthält dazu folgende Angaben: <blockquote> <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html#40">40</a>: vor beleib gestr. schlug <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html#48">48</a>: und fehlt (Konjektur) </blockquote> Die Kommentare zu Zeile 48 lauten: <blockquote> <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html#48">48</a>: pis zu wis: Imperativ Sg., stv.: ›Sei‹ <a href="https://www.ilw.uni-stuttgart.de/abteilungen/germanistische-mediaevistik/forschung/digitale-editionen/meerwunder/meermit.html#48">48</a>: und: Konjektur aus metrischen und inhaltlichen Gründen; Fuchs, Kofler verzichten auf Konjektur. </blockquote> Diese Informationen wurden direkt in DTAQ mithilfe des Online-XML-Editors in TEI-konformer Weise gemäß DTABf kodiert. Hier die Zeile 40: <pre><lg n="4"> <l n="40">Die fraw gar nachent tot <subst><del rendition="#s">schlug</del><add place="intralinear">beleib</add></subst>,</l>  </lg></pre> Die Streichung des Wortes „schlug“ ist nun direkt im transkribierten Text notiert – und nicht davon getrennt in einem gesonderten Apparat – und mittels <del rendition=“#s“> als solche markiert. Das Element <del> steht für „deletion“, also Streichung bzw. Löschung, während der Wert #s im Attribut @rendition die Art der Streichung angibt, ob diese also vom Schreiber beispielsweise durch Ausradieren, Überschreiben oder, wie im vorliegenden Fall, durch ein Durchstreichen des zu tilgenden Wortes vorgenommen wurde. Ebenso ist nun das innerhalb der Zeile hinzugefügte Wort „beleib“ als solches, d. h. als Hinzufügung innerhalb der Zeile (<add place=“intralinear“>) markiert. Beide Vorgänge, Streichung und Ersetzung, sind zudem durch das TEI-Element <subst> geklammert und somit als Substitution kenntlich gemacht. In der HTML-Ansicht im DTA sind die gestrichenen bzw. ergänzten Zeichen farblich hervorgehoben und werden zusätzlich per Mouseover als Streichung bzw. Hinzufügung markiert: <figure class="wp-block-image"> <figure id="attachment_2184" aria-describedby="caption-attachment-2184" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1.jpg"><img loading="lazy" class="wp-image-2184 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1-500x124.jpg" alt="" width="500" height="124" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1-500x124.jpg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1-300x74.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1-768x191.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1-1536x381.jpg 1536w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Zeilen-40-und-48-1.jpg 1733w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-2184" class="wp-caption-text">Abb. 6: [N. N.]: Das Meerwunder. In: ‚Dresdner Heldenbuch‘ (Heldenbuch des Kaspar von der Rhön). [s. l.], 1472, Bl. 193r–199v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017, Bl. 193v. In: Deutsches Textarchiv <<a href="http://www.deutschestextarchiv.de/nn_meerwunder_1472/5">http://www.deutschestextarchiv.de/nn_meerwunder_1472/5</a>>, abgerufen am 09.04.2020.</figcaption></figure> </figure> Noch deutlicher wird der Informationsgewinn der überarbeiteten DTA-Fassung des Textes gegenüber der Vorgängeredition anhand der Zeile 48. Diese gibt den Primärtext dieser Zeile im XML-Format/DTABf mit folgenden Annotationen wieder: <pre><lg n="4"> <l n="48">O her, nun pis<note resp="#UniStuttgart" type="editorial">pis zu wis: Imperativ Sg., stv.: ›Sei‹</note><lb/> mein schirm <choice><sic/><corr resp="#UniStuttgart">und</corr></choice><note resp="#UniStuttgart" type="editorial">und: Konjektur aus metrischen und inhaltlichen Gründen; <bibl><ref target="https://doi.org/10.1086/388433">Fuchs [1940]</ref></bibl>, <bibl><ref target="http://d-nb.info/979763177">Kofler [2006]</ref></bibl> verzichten auf Konjektur.</note> schilt,</l>  </lg></pre> Hier und in allen weiteren Stellen konnte also, wie die Beispiele illustrieren, eine verlustfreie Konvertierung der projektspezifisch notierten Informationen in TEI-Markup – und damit in eine standardkonforme, projektübergreifend gültige Kodierung – vorgenommen werden. (Siehe dazu auch die Umsetzung der enstprechenden Anmerkungen in der HTML-Ansicht in Abb. 6) Dazu gehören im obigen Beispiel Informationen zur Wortbildung, eine genauere Begründung der vorgenommenen Konjektur sowie ein Verweis auf die früheren Editionen von Walter Kofler bzw. von Edward A. H. Fuchs, die beide die fragliche Konjektur nicht vorgenommen hatten. Zusätzlich konnten z. T. weitergehende Informationen angelagert werden, die in der ursprünglichen Ausgabe nicht bzw. nicht explizit enthalten waren, beispielsweise die Identifikation der Referenzen auf Fuchs und Kofler über deren Identifikationsnummer in der Gemeinsamen Normdatei (GND). Der resultierende, kuratierte, standardisierte und insofern aufgewertete Volltext aller drei edierten „Meerwunder“-Fassungen<a href="https://sprache.hypotheses.org/1340#footnote_11_1340" id="identifier_11_1340" class="footnote-link footnote-identifier-link" title="[N. N.]: Das Meerwunder. In: &sbquo;Dresdner Heldenbuch‘ (Heldenbuch des Kaspar von der Rhön). [s. l.], 1472, Bl. 193r–199v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/nn_meerwunder_1472>; Hans Sachs: Die kunigin peschlieff ein merwunder. In: &sbquo;MG 13‘ (13. Meistergesangbuch). [s. l.], 1552, Bl. 35r–35v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/sachs_meerwunder1_1552>;Hans Sachs: Königin Deudalinda mit dem Meerwunder. In: &sbquo;SG 15‘ (Spruchgedichtband 15). [s. l.], 1562, Bl. 104ff. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/sachs_meerwunder2_1562>. Alle URLs abgerufen am 09.04.2020.">12</a> ist nun im DTA frei verfügbar: <figure class="wp-block-image"> <figure id="attachment_2163" aria-describedby="caption-attachment-2163" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1.jpg"><img loading="lazy" class="wp-image-2163 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1-500x273.jpg" alt="" width="500" height="273" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1-500x273.jpg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1-300x164.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1-768x420.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1-1536x840.jpg 1536w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Start-quer-1.jpg 1811w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-2163" class="wp-caption-text">Abb. 7: [N. N.]: Das Meerwunder. In: ‚Dresdner Heldenbuch‘ (Heldenbuch des Kaspar von der Rhön). [s. l.], 1472, Bl. 193r–199v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <<a href="http://www.deutschestextarchiv.de/nn_meerwunder_1472">http://www.deutschestextarchiv.de/nn_meerwunder_1472</a>>, abgerufen am 08.04.2020.</figcaption></figure> </figure> Nutzerinnen und Nutzer können eine Text-Bild-Ansicht aufrufen, die neben der grundlegenden XML-Kodierung auch eine daraus generierte HTML-Repräsentation zeigt, einschließlich Markierung der Verszeilen (ggf. abweichend vom Zeilenfall der Handschrift, der, wie oben geschildert, ebenfalls markiert wurde), editorischer Kommentare und textkritischer Eingriffe: <figure class="wp-block-image"> <figure id="attachment_2139" aria-describedby="caption-attachment-2139" style="width: 500px" class="wp-caption aligncenter"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text.jpg"><img loading="lazy" class="wp-image-2139 size-large" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text-500x347.jpg" alt="" width="500" height="347" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text-500x347.jpg 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text-300x208.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text-768x533.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2020/04/Meerwunder-DTA_Text.jpg 1533w" sizes="(max-width: 500px) 100vw, 500px" /></a><figcaption id="caption-attachment-2139" class="wp-caption-text">Abb. 8: [N. N.]: Das Meerwunder. In: ‚Dresdner Heldenbuch‘ (Heldenbuch des Kaspar von der Rhön). [s. l.], 1472, Bl. 193r–199v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017, Bl. 193r. In: Deutsches Textarchiv [HTML-Ansicht der Seite] <<a href="http://www.deutschestextarchiv.de/nn_meerwunder_1472/4">http://www.deutschestextarchiv.de/nn_meerwunder_1472/4</a>>, abgerufen am 08.04.2020.</figcaption></figure> </figure> Die drei „Meerwunder“-Fassungen sind jeweils als einander ‚zugehörige Werke‘ markiert, so dass der Zusammenhang der Dokumente erkennbar wird; zudem sind diese computerlinguistisch erschlossen und über die Volltextsuche des DTA für sich oder im Kontext des Gesamtkorpus recherchierbar. Selbstverständlich sind auch die DTA-internen Analysewerkzeuge wie die <a href="http://www.deutschestextarchiv.de/search/plot/">Wortverlaufskurven</a> und <a href="https://clarin-d.de/de/kollokationsanalyse-in-diachroner-perspektive">DiaCollo</a>, aber auch externe Services wie die <a href="http://www.deutschestextarchiv.de/news/61">Voyant Tools</a> und weitere, über <a href="http://www.deutschestextarchiv.de/news/73">CLARINs Language Resource Switchboard</a> vermittelte Dienste unmittelbar angebunden. Sämtliche Texte und Metadaten stehen zudem zum Download in verschiedenen Formaten unter der offenen Creative Commons-Lizenz <a href="http://creativecommons.org/licenses/by/4.0/deed.de">Namensnennung 4.0 International (CC BY 4.0)</a> zur Verfügung. Die Möglichkeit, etwa verbliebene Text- oder Auszeichnungsfehler über die Plattform <a href="http://www.deutschestextarchiv.de/dtaq/about">DTAQ</a> zu melden, besteht weiterhin – wir freuen uns auf Ihre Anmerkungen zu den Texten auf diesem oder anderen Wegen, beispielsweise auch hier im Blog als Kommentar, und wünschen Ihnen viel Freude bei der Lektüre dieser mehrfach überlieferten frühneuhochdeutschen Heldenerzählungen! <ol class="footnotes"><li id="footnote_0_1340" class="footnote">Zum „Dresdner Heldenbuch“ vgl. <a href="http://www.handschriftencensus.de/6805">http://www.handschriftencensus.de/6805</a>; die Farbabbildung des Codex ist bei der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Desden (SLUB) einsehbar: <a href="https://digital.slub-dresden.de/werkansicht/dlf/9933/2/0/">https://digital.slub-dresden.de/werkansicht/dlf/9933/2/0/</a>, letzter Zugriff jeweils: 08.04.2020.</li><li id="footnote_1_1340" class="footnote"> „Meerwunder“. Edition, Kommentierung und Übersetzung dreier Fassungen einer spätmittelalterlichen Heldenerzählung, hg. von Anja Braun, Nora Ketschik, Anne Kirchhoff, Matthias Kirchhoff und Stephanie Seidl, <a href="http://www.uni-stuttgart.de/germed/forschung/digitale_editionen/Meerwunder/start.html">http://www.uni-stuttgart.de/germed/forschung/digitale_editionen/Meerwunder/start.html</a>, letzter Zugriff: 08.04.2020. Zu diesem und einem weiteren Editionsprojekt sowie Fragen der Nachhaltigkeit digitaler Editionen vgl. Nora Ketschik, Matthias Kirchhoff: „Online durch die Elemente. Die Stuttgarter digitalen Editionen ‚Das Himmlische Gastmahl‘ und ‚Meerwunder‘ und ihre nachhaltige Sicherung im Netz.“ In: ZfdA 149 (2020), S. 78–89. </li><li id="footnote_2_1340" class="footnote">CLARIN-D-Servicezentrum der BBAW: <a href="https://clarin.bbaw.de/de/">https://clarin.bbaw.de/de/</a>; Deutsches Textarchiv: <a href="http://www.deutschestextarchiv.de/">http://www.deutschestextarchiv.de/</a>; vgl. dazu z. B. Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand: „Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN.“ In: Henning Lobin, Roman Schneider, Andreas Witt (Hgg.): Digitale Infrastrukturen für die germanistische Forschung (= Germanistische Sprachwissenschaft um 2020, Bd. 6). Berlin/Boston, 2018, S. 219–248. DOI: <a href="https://doi.org/10.1515/9783110538663-011">10.1515/9783110538663-011</a>, letzter Zugriff jeweils: 08.04.2020.</li><li id="footnote_3_1340" class="footnote">Von der Hagen, Friedrich Heinrich und Primisser, Alois (Hg.): Der Helden Buch in der Ursprache, 2. Bde., Berlin 1820/1825; Digitalisat: <a href="https://reader.digitale-sammlungen.de/de/fs1/object/display/bsb11216720_00005.html">https://reader.digitale-sammlungen.de/de/fs1/object/display/bsb11216720_00005.html</a>, letzter Zugriff: 08.04.2020. Die Erzählungen des „Dresdner Heldenbuchs“ finden sich in Bd. 2, das „Meerwunder“ auf S. 222–226.</li><li id="footnote_4_1340" class="footnote">Fuchs, Edward A. H.: Das Meerwunder, in: Modern Philology 37 (1940), S. 225–240.</li><li id="footnote_5_1340" class="footnote">Kofler, Walter (Hg.): Das Dresdener Heldenbuch und die Bruchstücke des Berlin-Wolfenbütteler Heldenbuchs. Edition und Digitalfaksimile, Stuttgart 2006; das „Meerwunder“, S. 236–234.</li><li id="footnote_6_1340" class="footnote">Zum MG 13 vgl. <a href="http://www.handschriftencensus.de/25599">http://www.handschriftencensus.de/25599</a>, letzter Zugriff: 08.04.2020.</li><li id="footnote_7_1340" class="footnote"> Goedeke, Karl (Hg.): Dichtungen des Hans Sachs. Erster Teil: Geistliche und weltliche Lieder, Leipzig 1870; das „Meerwunder“-Gedicht findet sich auf S. 299f. unter dem Titel „Die königin mit dem merwunder“. </li><li id="footnote_8_1340" class="footnote">Keller, A. v. und Goetze, E. (Hg.): Hans Sachs, 16. Bd., Tübingen 1886, S. 228–232: „Historia: Königin Deudalina mit dem meerwunder“. Digitalisat: <a href="https://books.google.com/books?id=2Qc3AAAAMAAJ">https://books.google.com/books?id=2Qc3AAAAMAAJ</a>, letzter Zugriff: 08.04.2020.</li><li id="footnote_9_1340" class="footnote">CLARIN-D Metadatenformular zur Aufnahme einzelner Ressourcen, <a href="http://www.deutschestextarchiv.de/dtae/metadaten">http://www.deutschestextarchiv.de/dtae/metadaten</a>, letzter Zugriff: 08.04.2020.</li><li id="footnote_10_1340" class="footnote">DTAQ: Kollaborative Qualitätssicherung im Deutschen Textarchiv, <a href="http://www.deutschestextarchiv.de/dtaq/about">http://www.deutschestextarchiv.de/dtaq/about</a>, letzter Zugriff: 08.04.2020.</li><li id="footnote_11_1340" class="footnote">[N. N.]: Das Meerwunder. In: ‚Dresdner Heldenbuch‘ (Heldenbuch des Kaspar von der Rhön). [s. l.], 1472, Bl. 193r–199v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <<a href="http://www.deutschestextarchiv.de/nn_meerwunder_1472">http://www.deutschestextarchiv.de/nn_meerwunder_1472</a>>; Hans Sachs: Die kunigin peschlieff ein merwunder. In: ‚MG 13‘ (13. Meistergesangbuch). [s. l.], 1552, Bl. 35r–35v. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <<a href="http://www.deutschestextarchiv.de/sachs_meerwunder1_1552">http://www.deutschestextarchiv.de/sachs_meerwunder1_1552</a>>; Hans Sachs: Königin Deudalinda mit dem Meerwunder. In: ‚SG 15‘ (Spruchgedichtband 15). [s. l.], 1562, Bl. 104ff. Hrsg. und übersetzt von Anja Braun et al. Stuttgart, 2017. In: Deutsches Textarchiv <<a href="http://www.deutschestextarchiv.de/sachs_meerwunder2_1562">http://www.deutschestextarchiv.de/sachs_meerwunder2_1562</a>>. Alle URLs abgerufen am 09.04.2020.</li></ol>]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/1340/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Neu im DWDS: Das ZDL-Regionalkorpus</title> <link>https://sprache.hypotheses.org/1917</link> <comments>https://sprache.hypotheses.org/1917#respond</comments> <dc:creator><![CDATA[Andreas Nolda]]></dc:creator> <pubDate>Thu, 05 Mar 2020 13:48:19 +0000</pubDate> <category><![CDATA[DWDS]]></category> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=1917</guid> <description><![CDATA[Ab dem 5. März 2020 ist auf der DWDS-Plattform das ZDL-Regionalkorpus des Zentrums für digitale Lexikographie der deutschen Sprache verfügbar, mit dessen Hilfe regionale Variation im deutschen Gebrauchsstandard untersucht werden kann. In der aktuellen Version ist das Korpus mit 6,2 Mrd. Tokens in 20,8 Mio. Dokumenten nun das größte recherchierbare Korpus auf der DWDS-Plattform. Aus lizenzrechtlichen Gründen ist das Korpus erst nach Anmeldung nutzbar; die Anmeldung ist jedoch unkompliziert und ohne Kosten. Zur Anmeldung für die Recherche im ZDL-Regionalkorpus: https://www.dwds.de/r/?corpus=regional. Das ZDL-Regionalkorpus ist ein … <a href="https://sprache.hypotheses.org/1917" class="more-link">Neu im DWDS: Das ZDL-Regionalkorpus weiterlesen →</a>]]></description> <content:encoded><![CDATA[ Ab dem 5. März 2020 ist auf der <a href="https://www.dwds.de/">DWDS-Plattform</a> das <a href="https://www.dwds.de/d/korpora/regional">ZDL-Regionalkorpus</a> des <a href="https://www.zdl.org">Zentrums für digitale Lexikographie der deutschen Sprache</a> verfügbar, mit dessen Hilfe regionale Variation im deutschen Gebrauchsstandard untersucht werden kann. In der aktuellen Version ist das Korpus mit 6,2 Mrd. Tokens in 20,8 Mio. Dokumenten nun das größte recherchierbare Korpus auf der DWDS-Plattform. Aus lizenzrechtlichen Gründen ist das Korpus erst nach <a href="https://www.dwds.de/profile/login">Anmeldung</a> nutzbar; die Anmeldung ist jedoch unkompliziert und ohne Kosten. Zur Anmeldung für die Recherche im ZDL-Regionalkorpus: <a href="https://www.dwds.de/r?corpus=regional">https://www.dwds.de/r/?corpus=regional</a>. Das ZDL-Regionalkorpus ist ein Korpus aus Lokal- und Regionalteilen deutscher Zeitungen, die in Anlehnung an das <a href="http://d-nb.info/108083964X">Variantenwörterbuch des Deutschen</a> und die <a href="http://mediawiki.ids-mannheim.de/VarGra">Variantengrammatik des Standarddeutschen</a> jeweils bestimmten Arealen zugeordnet sind. In der gegenwärtigen Version umfasst das ZDL-Regionalkorpus drei bis vier Zeitungen pro Areal in Deutschland: <ul> <li>Areal D-Nordwest: <ul> <li>Hamburger Abendblatt (ab 1999)</li> <li>Kieler Nachrichten (ab 2017)</li> <li>Neue Osnabrücker Zeitung (ab 2012)</li> </ul> </li> <li>Areal D-Nordost: <ul> <li>Norddeutsche Neueste Nachrichten (ab 2012)</li> <li>Der Prignitzer (ab 2012)</li> <li>Schweriner Volkszeitung (ab 2004)</li> </ul> </li> <li>Areal D-Mittelwest: <ul> <li>Aachener Zeitung (ab 2003)</li> <li>Allgemeine Zeitung (Mainz) (ab 2002)</li> <li>Rhein-Zeitung (ab 1997)</li> <li>Saarbrücker Zeitung (ab 1993)</li> </ul> </li> <li>Areal D-Mittelost: <ul> <li>Döbelner Allgemeine Zeitung (ab 2011)</li> <li>Dresdner Neueste Nachrichten (ab 2011)</li> <li>Leipziger Volkszeitung (ab 1997)</li> </ul> </li> <li>Areal D-Südwest: <ul> <li>Badische Zeitung (ab 2003)</li> <li>Reutlinger General-Anzeiger (ab 2007)</li> <li>Südkurier (ab 1999)</li> </ul> </li> <li>Areal D-Südost: <ul> <li>Fränkischer Tag (ab 2005)</li> <li>Landshuter Zeitung (ab 2014)</li> <li>Mittelbayerische (ab 2014)</li> <li>Münchner Merkur (ab 2016)</li> </ul> </li> </ul> Eine Erweiterung des ZDL-Regionalkorpus auf Österreich und die deutschsprachige Schweiz ist in Vorbereitung. Die einzelnen Areale und die entsprechenden Länder stehen in der <a href="https://www.dwds.de/d/korpussuche">Korpussuche</a> als Wert der Metadatenattribute <code>region</code> und <code>country</code> für die Recherche zur Verfügung, z. B. <code>D-Nordost</code> bzw. <code>DE</code>. Diese Metadaten können in der Trefferliste eingesehen werden, wenn man bei einem Treffer rechts auf das Sandwichmenü klickt. Für die statistische Auswertung der Treffer stellt die DWDS-Plattform mehrere Funktionen zur Verfügung. Die absoluten Trefferzahlen pro Areal bzw. pro Zeitung erhält man, indem man über der Trefferliste auf die Buttons „Verteilung über Areale“ bzw. „Verteilung über Zeitungen“ klickt. Dort ist ebenfalls die <a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&genres=1&slice=1&window=0">Histogrammansicht</a> des ZDL-Regionalkorpus verlinkt, in der die zeitliche Verteilung der Treffer über die Areale in normalisierter Weise (Treffer pro Million Tokens) visualisiert wird. Dabei ist der Default-Zeitraum der größte Zeitraum, in dem es Zeitungsdaten aus allen Arealen gibt; gegenwärtig ist dies der Zeitraum 2005–2020. Bei Bedarf kann der Nutzer bei der Suche einen anderen Zeitraum einstellen, zum Beispiel 2017–2020 (der größte Zeitraum, in dem es Daten aus allen Zeitungen des ZDL-Regionalkorpus gibt) oder 1993–2020 (der größte Zeitraum, in dem es Daten aus mindestens einer Zeitung des ZDL-Regionalkorpus gibt). Nachfolgend finden Sie einige Beispiele mit Links zur Histogrammansicht des ZDL-Regionalkorpus. Bitte beachten Sie, dass die Histogrammansicht des ZDL-Regionalkorpus nur für angemeldete Nutzer sichtbar ist (bei nicht-angemeldeten Nutzern wird ersatzweise die Histogrammansicht der DWDS-Referenzkorpora angezeigt). Einige der Varianten sind gemeindeutsch, andere sind arealspezifisch. Vergleichen Sie dazu auch die verlinkten Karten aus dem <a href="http://www.atlas-alltagssprache.de">Atlas zur deutschen Alltagssprache (AdA)</a>. <ul> <li>Fasching, Karneval und Fastnacht (<a href="http://www.atlas-alltagssprache.de/runde-2/f03/" target="_blank" rel="noopener noreferrer">AdA</a>): <ul> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Fasching">Fasching</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Karneval">Karneval</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Fastnacht">Fastnacht</a></li> </ul> </li> <li>Weihnachtsbaum, Tannenbaum und Christbaum (<a href="http://www.atlas-alltagssprache.de/runde-5/f01a/" target="_blank" rel="noopener noreferrer">AdA</a>): <ul> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Weihnachtsbaum">Weihnachtsbaum</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Tannenbaum">Tannenbaum</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Christbaum">Christbaum</a></li> </ul> </li> <li>Geldbeutel und Portemonnaie (<a href="http://www.atlas-alltagssprache.de/r8-f3i-j-2/" target="_blank" rel="noopener noreferrer">AdA</a>): <ul> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Geldbeutel">Geldbeutel</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=Portemonnaie">Portemonnaie</a></li> </ul> </li> <li>dieses Jahr und heuer (<a href="http://www.atlas-alltagssprache.de/r8-f4d-2/" target="_blank" rel="noopener noreferrer">AdA</a>): <ul> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=%22dieses%20Jahr%22">dieses Jahr</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=heuer">heuer</a></li> </ul> </li> <li>plaudern, schnacken, klönen, schwatzen, schwätzen, babbeln und ratschen (<a href="http://www.atlas-alltagssprache.de/runde-7/f08b/" target="_blank" rel="noopener noreferrer">AdA</a>): <ul> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=plaudern">plaudern</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=schnacken">schnacken</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=kl%C3%B6nen">klönen</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=schwatzen">schwatzen</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=schw%C3%A4tzen">schwätzen</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=babbeln">babbeln</a></li> <li><a href="https://www.dwds.de/r/plot?corpus=regional&xrange=2005%3A2020&q1=ratschen">ratschen</a></li> </ul> </li> </ul>  ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/1917/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten</title> <link>https://sprache.hypotheses.org/2196</link> <comments>https://sprache.hypotheses.org/2196#respond</comments> <dc:creator><![CDATA[Adrien Barbaresi]]></dc:creator> <pubDate>Tue, 29 Oct 2019 07:49:32 +0000</pubDate> <category><![CDATA[Tagungsberichte]]></category> <category><![CDATA[Ankündigung]]></category> <category><![CDATA[Datenkuration]]></category> <category><![CDATA[Digitalisierung]]></category> <category><![CDATA[Distant Reading]]></category> <category><![CDATA[historische Zeitungen]]></category> <category><![CDATA[Korpuslinguistik]]></category> <category><![CDATA[Workshop]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=2196</guid> <description><![CDATA[Beschreibung Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten. Der am 25.11. an … <a href="https://sprache.hypotheses.org/2196" class="more-link">Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten weiterlesen →</a>]]></description> <content:encoded><![CDATA[<h4>Beschreibung</h4> Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten. Der am 25.11. an der BBAW stattfindende Workshop bietet eine interdisziplinäre, mehrsprachige Bühne für einen wissenschaftlich fundierten Austausch. Im Blickpunkt stehen verschiedene Prozesse des Lesens, zum Beispiel die Erfassung von Keilschrift und Frakturschrift, bis hin zum tatsächlichen Einlesen mithilfe korpus- und computerlinguistischer Werkzeuge. Das breite fachliche Spektrum (u.a. Amerikanistik, Linguistik, Philosophie) und der Fokus auf junge, international aktive Forscher*innen werden dem Workshop ein besonderes Momentum verleihen. <h4>Infos</h4> Diese Veranstaltung wird von verschiedenen Projektpartnern ermöglicht, u.a. dem deutsch-französischen Forschungsverband <a href="http://www.ciera.fr">CIERA.</a> Tagungssprachen sind Deutsch, Englisch und Französisch. 25. November 2019 – 9.30 bis 17.30 Uhr Raum 228 <a href="http://wwww.bbaw.de">Berlin-Brandenburgische Akademie der Wissenschaften</a> (BBAW) Jägerstraße 22/23, 10117 Berlin Es sind noch wenige Plätze verfügbar, um Anmeldung wird gebeten: barbaresi@bbaw.de Verantwortlich für die Organisation sind <a href="http://adrien.barbaresi.eu/">Adrien Barbaresi</a> (BBAW) und <a href="https://people.epfl.ch/cgi-bin/people?id=256249&op=bio&lang=en&cvlang=en">Maud Ehrmann</a> (DHLAB – Eidgenössische Technische Hochschule Lausanne, EPFL). <h4>Programm</h4> Empfang ab 9.30 Uhr <ul> <li>9.45-10.45 Uhr: <a href="http://pageperso.univ-lr.fr/antoine.doucet/">Antoine Doucet</a> (Univ. La Rochelle): Multilingual and OCR-robust natural language processing – application to historical newspapers in the context of the NewsEye project</li> <li>10.45-11.15 Uhr: <a href="http://digitorient.com/blog/author/mberanger/">Marine Béranger</a> (Collège de France): Assessing Literacy in Mesopotamia Using Digital Technologies: A Case Study Based On The Royal Secretary</li> </ul> Kaffeepause <ul> <li>11.30-12 Uhr: <a href="https://germanistik.philol.uni-leipzig.de/mitarbeiterinnen/sprachwissenschaft/dr-naomi-truan/">Naomi Truan</a> (Univ. Leipzig): Gesprochene Sprache und Transkription: die XML-TEI Annotation von Parlamentsdebatten</li> <li>12-12.30 Uhr: <a href="http://www.bbaw.de/die-akademie/mitarbeiter/haaf">Susanne Haaf</a> (BBAW): Auswertung von TEI-Korpora für die Ermittlung von Differenzierungskriterien historischer Textsorten</li> </ul> Lunch <ul> <li>14-14.30 Uhr: <a href="https://notes.jan-oliver-ruediger.de/">Jan Oliver Rüdiger</a> (Univ. Siegen): Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer</li> <li>14.30-15 Uhr: <a href="https://www.slm.uni-hamburg.de/germanistik/personen/andresen.html">Melanie Andresen</a> (Univ. Hamburg): Data-Driven Corpus Exploration with Syntactic Annotations</li> <li>15-15.30 Uhr: <a href="http://triangle.ens-lyon.fr/spip.php?article3699">Anatole Lucet</a> (ENS Lyon – HFG Karlsruhe): Que peut le numérique en histoire de la philosophie ? L’exemple des œuvres de Gustav Landauer</li> </ul> Kaffeepause <ul> <li>15.45-16.15 Uhr: <a href="https://people.epfl.ch/raphael.barman">Raphaël Barman</a> (DHLAB, EPFL): Newspaper semantic segmentation using visual and textual features</li> <li>16.15-16.45 Uhr: <a href="https://www.ilw.uni-stuttgart.de/en/institute/team/Keck/">Jana Keck</a> (Univ. Stuttgart): Digging into America’s 19th-Century German-Language Newspapers with Text Reuse and Word Vector Models</li> <li>16.45-17.15 Uhr: <a href="https://www.lejeunegael.fr/">Gaël Lejeune</a> (STIH, Sorbonne Université): Preserving Linguistic Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach</li> </ul> 17.15 Uhr: Bilanz <hr /> Informationen auf Französisch über die Reihe von Veranstaltungen: <a href="https://digillu.hypotheses.org">https://digillu.hypotheses.org</a> Informations en francais sur la journée d’études : <a href="https://digillu.hypotheses.org/workshop">https://digillu.hypotheses.org/workshop</a> ]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/2196/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item> <title>Natural Language Processing for Historical Documents – a workshop report</title> <link>https://sprache.hypotheses.org/1790</link> <dc:creator><![CDATA[mwynne]]></dc:creator> <pubDate>Tue, 24 Sep 2019 13:40:59 +0000</pubDate> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[Tagungsberichte]]></category> <category><![CDATA[Bedeutungsgeschichte]]></category> <category><![CDATA[CLARIN]]></category> <category><![CDATA[CLARIN-D]]></category> <category><![CDATA[Historical texts]]></category> <category><![CDATA[History]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=1790</guid> <description><![CDATA[Experts on NLP tools for working with historical documents met in Berlin in September for a CLARIN workshop to exchange ideas, experiences about tools and methods. The outputs included a draft resource guide, and a plan of action to integrate more tools into the CLARIN infrastructure.]]></description> <content:encoded><![CDATA[ Experts on NLP tools for working with historical documents met in Berlin in September for a CLARIN workshop to exchange ideas, experiences about tools and methods. The outputs included a draft resource guide, and a plan of action to integrate more tools into the CLARIN infrastructure. The main goal of the workshop was produce a guide to software applications for processing historical language varieties, a document which will help users to find, understand, choose and deploy natural language processing software applications for the annotation and analysis of texts in historical language varieties. The guide will be published alongside the existing ‘Resource Families’ guides to datasets (<a href="https://www.clarin.eu/resource-families">https://www.clarin.eu/resource-families</a>). The workshop took place at the BBAW in Berlin, and was organized by Martin Wynne (<a href="https://www.bodleian.ox.ac.uk/">Bodleian Libraries</a>, University of Oxford), Bryan Jurish (<a href="https://www.zentrum-lexikographie.de">ZDL</a>, BBAW) and Christian Thomas (<a href="https://www.clarin-d.net">CLARIN-D</a>, BBAW). <img loading="lazy" class="size-medium wp-image-1792 alignleft" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/HistNLP_workshop-300x225.jpg" alt="Photograph of the Workshop" width="300" height="225" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/HistNLP_workshop-300x225.jpg 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/HistNLP_workshop-768x576.jpg 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/HistNLP_workshop-500x375.jpg 500w" sizes="(max-width: 300px) 100vw, 300px" />The workshop brought together 21 participants from 13 different European countries, who are creating or working with NLP tools such as tokenizers, normalizers, morphological analyzers, part-of-speech taggers and lemmatizers which work with historical language varieties, especially European languages in the period 1500-1800. The workshop enabled mutual sharing of expertise, know-how, tools and resources. This historical period (roughly covered by the term ‘Early Modern’ in English) was selected since it represents the time covered by many digitization programmes of early printed works, and a time when many languages were still recognizably similar in form to contemporary varieties, but with significant differences which mean that standard software tools often cannot be applied to them with acceptable levels of accuracy. This workshop discussed the adaption of NLP tools trained on or designed for modern language varieties, as well as custom tools designed specifically for particular historical varieties. <figure id="attachment_1794" aria-describedby="caption-attachment-1794" style="width: 300px" class="wp-caption alignright"><a href="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep.png"><img loading="lazy" class="wp-image-1794 size-medium" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep-300x212.png" alt="Example of a workflow diagram" width="300" height="212" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep-300x212.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep-768x543.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep-500x354.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/09/tagging_stepbystep.png 1123w" sizes="(max-width: 300px) 100vw, 300px" /></a><figcaption id="caption-attachment-1794" class="wp-caption-text">Example of a workflow diagram for the annotation of historical text</figcaption></figure> Preliminary investigation revealed two distinct approaches to dealing with historical varieties, both of which were represented and discussed in the workshop: <ol> <li> modernization: creating modernized versions of the words in the texts so that they can work with existing NLP tools for contemporary language varieties; or </li> <li> domain adaptation: developing new tools (or retraining old ones) so that they can work with historical varieties of languages, i.e. domain adaptation. </li> </ol> The workshop also generated a set of recommendations for candidate software applications for integration into the CLARIN infrastructure. While there is some considerable expertise in certain CLARIN Centres in this domain, there are currently no tools suitable for processing historical language varieties available via the <a href="https://www.clarin.eu/content/language-resource-switchboard">CLARIN Language Resources Switchboard</a>, and only very few available via web service orchestration platforms such as <a href="https://weblicht.sfs.uni-tuebingen.de">WebLicht.</a> The outputs of the workshop should help the Standing Committee on CLARIN Technical Centre find suitable candidates for integration of relevant tools into the infrastructure. As well as the software applications, the discussion considered annotated texts and lexical data, both of which are key resources required for many workflows, and some concrete proposals were made for depositing such resources in CLARIN repositories. The workshop is part of CLARIN’s mission to provide and support NLP for research in the humanities and social sciences. Implementing and improving tagging and lemmatization for historical documents is key to improving access to text collections, and as a first step towards distributional semantics and ‘big data’ approaches, and enabling new types of research. The workshop concluded with a discussion of possible next steps for CLARIN in this domain. An outline plan for a user involvement workshop was formulated, focusing on helping researchers who are manually annotating data to create complete hand-crafted datasets which can serve as ‚gold standard‘ data for training and/or evaluation purposes. A proposal will be developed for a ‘hackathon’ or ‘data carpentry’ event on this topic in 2020. <div class="wpcp">Zitierempfehlung: mwynne: „Natural Language Processing for Historical Documents – a workshop report.“ In: Im Zentrum Sprache, 24. September 2019, <a href="https://sprache.hypotheses.org/1790">https://sprache.hypotheses.org/1790</a> (Abgerufen am 19. Januar 2021).</div> ]]></content:encoded> </item> <item> <title>Neues DTAE-Korpus startet mit Frauenbriefen des frühen 18. Jahrhunderts</title> <link>https://sprache.hypotheses.org/1642</link> <comments>https://sprache.hypotheses.org/1642#respond</comments> <dc:creator><![CDATA[mprell]]></dc:creator> <pubDate>Mon, 02 Sep 2019 16:00:41 +0000</pubDate> <category><![CDATA[Korpora]]></category> <category><![CDATA[Neuigkeiten]]></category> <category><![CDATA[Ressourcen]]></category> <category><![CDATA[Web-Plattform]]></category> <category><![CDATA[Briefe]]></category> <category><![CDATA[Briefedition]]></category> <category><![CDATA[CLARIN-D]]></category> <category><![CDATA[DTABf]]></category> <category><![CDATA[DTABf-M]]></category> <category><![CDATA[DTAE]]></category> <category><![CDATA[DTAQ]]></category> <category><![CDATA[Editionsportal Thüringen]]></category> <category><![CDATA[Erdmuthe Benigna von Reuß-Ebersdorf]]></category> <category><![CDATA[ThULB]]></category> <category><![CDATA[UrMEL]]></category> <guid isPermaLink="false">https://sprache.hypotheses.org/?p=1642</guid> <description><![CDATA[Das DTAE-Korpus „UrMEL“ An der Friedrich-Schiller-Universität Jena ist in den letzten Jahren ein Editionenportal entwickelt worden, das am 10. September in einer Beta-Version online geschaltet wird.1 Das Portal wird mittelfristig alle bisherigen und zukünftigen  Quelleneditionen aus dem reichen Bestand der digitalen Bibliothek (UrMEL2) der Thüringer Universitäts- und Landesbibliothek Jena (ThULB) gemeinsam präsentieren und erforschbar machen. Es ist darüber hinaus als umfassende Editionsarbeitsumgebung angelegt, die einen breiten Workflow von der Erstellung, über die Publikation bis hin zur Erforschung und  Langzeitspeicherung abdecken wird. Ausgewählte transkribierte Quellen … <a href="https://sprache.hypotheses.org/1642" class="more-link">Neues DTAE-Korpus startet mit Frauenbriefen des frühen 18. Jahrhunderts weiterlesen →</a>]]></description> <content:encoded><![CDATA[ <h3>Das DTAE-Korpus „UrMEL“</h3> An der Friedrich-Schiller-Universität Jena ist in den letzten Jahren ein Editionenportal entwickelt worden, das am 10. September in einer Beta-Version online geschaltet wird.<a href="#ftn1">1</a> Das Portal wird mittelfristig alle bisherigen und zukünftigen  Quelleneditionen aus dem reichen Bestand der digitalen Bibliothek (<a href="http://www.urmel-dl.de/">UrMEL</a><a href="#ftn2">2</a>) der Thüringer Universitäts- und Landesbibliothek Jena (ThULB) gemeinsam präsentieren und erforschbar machen. Es ist darüber hinaus als umfassende Editionsarbeitsumgebung angelegt, die einen breiten Workflow von der Erstellung, über die Publikation bis hin zur Erforschung und  Langzeitspeicherung abdecken wird. Ausgewählte transkribierte Quellen der digitalen Bibliothek sollen in Zukunft als <a href="http://www.deutschestextarchiv.de/doku/textquellen#urmel">DTAE-Teilkorpus „UrMEL‟</a> auch im <a href="http://www.deutschestextarchiv.de/">Deutschen Textarchiv</a> verfügbar werden. Diese Kooperation wird mit einem Quellenkorpus beginnen, das pars pro toto für eine enorme Menge an in der historischen Forschung allgemein und in den Digital Humanities speziell bis dato stark vernachlässigten Zeugnissen steht, den Quellen weiblicher Verfasser.<a href="#ftn3">3</a> Die ersten Texte, aus der Feder Erdmuthe Benignas von Reuß-Ebersdorf, sind bereits im DTA verfügbar: <a href="http://www.deutschestextarchiv.de/search/metadata?corpus=urmel">http://www.deutschestextarchiv.de/search/metadata?corpus=urmel</a>. Für eine möglichst breit aufgestellte Erforschung deutscher Sprachgeschichte ist dieses Quellenkorpus noch in weiterer Hinsicht relevant. Es handelt es sich um Briefe einer hochadligen Frau aus dem frühen 18. Jahrhundert, die sich durch ein hohes Maß an fehlender sprachlicher Normiertheit, individuellen Eigenheiten und regionalen Einflüsse auszeichnen. Dadurch werden nicht zuletzt auch dringende Bedarfe in und Herausforderungen für die Digital Humanities sichtbar. <h3>Sprachliche Besonderheiten der Briefe Erdmuthe Benignas von Reuß-Ebersdorf</h3> Im Landesarchiv Thüringen – Staatsarchiv Greiz und dem Archiv der Herrnhuter Brüdergemeine haben sich rund 170 Briefe der Reichsgräfin Erdmuthe Benigna von Reuß-Ebersdorf (1670–1732) erhalten. Ein Teil dieser Briefe gewährt einen unmittelbaren Einblick in die Amtsgeschäfte einer für die Regierungstätigkeit eigentlich nicht vorgesehenen und daher auch nicht gezielt vorbereiteten Adligen. Von 1711 bis 1720 war sie aufgrund des frühen Todes ihres Ehemannes gezwungen, die Vormundschaft für ihren noch unmündigen Sohn, Heinrich XXIX. von Reuß-Ebersdorf, zu übernehmen. Der andere Teil der Briefe an ihre Tochter Erdmuthe Dorothea und ihren Schwiegersohn, Nikolaus Ludwig von Zinzendorf, zeigt die Verfasserin unter anderem in ihren Rollen als Mutter und Schwiegermutter. Die Briefe aus der Zeit ihrer Regentschaft wurden während eines zweijähriges Projektes an der Universität Jena ediert.<a href="#ftn4">4</a> Sie werden nun im Portal neu und gemeinsam mit weiteren Editionen präsentiert. Historiographisch sind sie bemerkenswert aufgrund ihres Charakters als ein zentrales Medium zur Herrschaftsausübung, waren Frauenbriefe im 18. Jahrhundert doch zumeist unpolitischer Natur. Sprachlich und quellenkundlich sind sie unter anderem bedeutsam, da hier Autografen überliefert sind, die über die Art und Weise weiblichen Schreibens in einer Zeitepoche Aufschluss geben, in der Frauen von gelehrter Bildung grundsätzlich ausgeschlossen waren. Dies hat sprachliche resp. chirographische Eigenheiten der Briefe zur Folge, die durch ein hohes Maß an Individualität geprägt sind. Einige seien nachfolgend kurz vorgestellt. Ein Merkmal der Briefe ist die Verwendung einer sehr rudimentären und willkürlichen Interpunktion. Satzpunkte fehlen nahezu gänzlich, Kommata erscheinen manchmal stellvertretend und oft stark abweichend von moderner Interpunktionsregel. Neue Sätze werden auch nicht durch Majuskelgebrauch eingeleitet. Lediglich einzelne Personennamen und die Anrede des Gegenübers mit „Erl.“ werden mit Großbuchstaben begonnen, selbst Feiertage und der Gottesname hingegen nicht. Die Identifizierung neuer Gedanken wird jedoch nicht nur durch fehlende Satzpunkte sondern auch meist fehlende Absätze erschwert. Nur sehr selten und unregelmäßig sind vergrößerte horizontale Leerräume zu erahnen, die einen Themenwechsel markieren. Ein weiteres Phänomen ist die sehr willkürliche Verwendung lateinischer Schreibweise von Buchstaben innerhalb der überwiegend kurrent geschriebenen Briefe. So begegnen innerhalb zahlreicher Wörter lateinischer Wiedergabe auch einzelne kurrente Buchstaben, ohne dass eine besondere Absicht ersichtlich ist. Aufgrund des Kontextes dürfte hier eine lateinische Schreibintention unterstellt werden, die aufgrund mangelnder Kenntnis „korrekter“ Schreibweise fehlerhaft umgesetzt ist. Auch unterschiedliche Schreibungen gleicher Buchstaben und Wörter sogar im selben Satz oder auf derselben Seite deuten in diese Richtung. <div class="wp-block-image"> <figure class="aligncenter is-resized"> <img loading="lazy" class="wp-image-1674" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/1-500x236.png" alt="" width="447" height="211" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/1-500x236.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/1-300x141.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/1.png 711w" sizes="(max-width: 447px) 100vw, 447px" /> <figcaption> Beispiel für unterschiedliche Schreibweisen des Buchstabens „v“ in lateinischen Wörtern. Quelle: Reuß-Ebersdorf, Erdmuthe Benigna von: Brief an Heinrich XXIV. von Reuß-Köstritz. Ebersdorf (Thüringen), 7. Februar 1713, Bl. 63v, <a rel="noreferrer noopener" href="https://nbn-resolving.org/urn:nbn:de:urmel-be5c5ca1-a24b-406a-812e-406bda362cc06">urn:nbn:de:urmel-be5c5ca1-a24b-406a-812e-406bda362cc06</a>.</figcaption> </figure> </div> Die Handschrift Erdmuthe Benignas hat einen hohen Wiedererkennungswert. Sie zeichnet sich durch einen weit gezogenen Schreibstil der Buchstaben und Wörter und deren sehr unregelmäßige Form aus. Sie wirkt teilweise hektisch, was in manchen Briefen durch häufige Streichungen, Überschreibungen oder nachträgliche Ergänzungen zusätzlich betont wird. Ein besonderes Wiedererkennungszeichen der Schreiberin ist zudem die deutliche Abtrennung von Silben – meist Präfixe – vom Rest des Wortes durch Spatien. <div class="wp-block-image"> <figure class="aligncenter"> <img loading="lazy" class="wp-image-1697" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/3-500x78.png" alt="" width="500" height="78" srcset="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/3-500x78.png 500w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/3-300x47.png 300w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/3-768x119.png 768w, https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/3.png 1372w" sizes="(max-width: 500px) 100vw, 500px" /> <figcaption>Beispiel für den weitgezogenen, silbentrennenden Schreibstil Erdmuthe Benignas („ge nug da mit ge west“). Quelle: Reuß-Ebersdorf, Erdmuthe Benigna von: Brief an Heinrich XXIV. von Reuß-Köstritz. Ebersdorf (Thüringen), 8. Oktober 1717, Bl. 56r, <a rel="noreferrer noopener" href="http://www.deutschestextarchiv.de/reuss_paragiatsherrschaftabiv15_1717/2">http://www.deutschestextarchiv.de/reuss_paragiatsherrschaftabiv15_1717/2</a>.</figcaption> </figure> </div> Ob dieser Schreibstil, der in der Edition auch reproduziert wurde, der Redeweise der Verfasserin entsprach, kann nur vermutet werden. Zumindest ist angesichts einer fehlenden systematischen Schreibausbildung doch davon auszugehen, dass Erdmuthe die Wörter so niederschrieb, wie sie sie aussprach. So ähnelt die Schreibung vieler Wörter bspw. stark einer Aussprache mit ostthüringischem Dialekt. Zum Verständnis der Briefe hilft es daher ungemein, diese laut zu lesen. Folglich sind die Briefe eine bedeutende Quelle auch für die gesprochene Sprache dieser Zeit und Region. Die stilistischen und orthographischen Eigenheiten erschweren das Verständnis des Inhalts aber nur selten. Schreibfehler im engeren Sinne, wie beispielsweise die Vertauschung von Buchstaben (z.B. „Secertarius“ statt Secretarius), sind ohnehin nur schwer zweifelsfrei auszumachen, da die Orthographie zu Beginn des 18. Jahrhundert noch kaum normiert war. Die Schreiberin drückt sich inhaltlich sogar sehr klar und deutlich aus. Denn zu den Abweichungen von der Schreibpraxis der männlichen Standesgenossen ihrer Zeit gehört auch, dass ihr ein barocker, formalisierter und gekünstelt erscheinender Stil fremd ist. Ihre auf eine strenge Form und Sauberkeit verzichtende Schreibweise wirkt natürlich-unverstellt, alltäglich und ungezwungen, mit nur wenigen Floskeln und geschraubten Sätzen. Nichtsdestotrotz kannte auch Erdmuthe Benigna die höfische Schreibetikette und Kunst des Komplimentierens und bedient sich dieser auch, wenngleich sehr selten. Gegenüber ihrem engen Vertrauten und Korrespondenzpartner Heinrich XXIV. von Reuß-Köstritz, den sie überwiegend mit „allerliebster vetter“ oder sogar mit „mein lieber 24ster“ anspricht, konnte sie sich den reduktionistischen Stil durchaus erlauben.  Neben der scheinbaren Natürlichkeit der Schreibweise bedient sich die Gräfin aber auch gekonnt der frühneuzeitlichen Beamten-/Kanzleibegrifflichkeiten mit lateinischer Provenienz. Damit untermauert sie ihren Anspruch als kompetente Regentin, die im Stande ist, politische Herrschaft auszuüben. Diese Selbstdarstellung ist eine bewusste Gegenstrategie zur defizitären Souveränität, die ihr aufgrund ihres Geschlechts als Frau, ihrer dynastischen Stellung als Eingeheiratete und ihrer fehlenden Bildung anhaftete.<a href="#ftn5">5</a> Das gezielte Einsetzen der Beamtensprache durch die Schreiberin kann besonders anschaulich durch die Wiedergabe von Korrekturen in den Briefen dargelegt werden. Das verdeutlicht zugleich den Mehrwert diplomatisch-genetischer Transkriptionen für die geisteswissenschaftliche Forschung. <div class="wp-block-image"><figure class="aligncenter is-resized"><img loading="lazy" src="https://f-origin.hypotheses.org/wp-content/blogs.dir/3653/files/2019/08/2.png" alt="" class="wp-image-1676" width="381" height="106"><figcaption> In diesem Beispiel begann die Gräfin zunächst „wolte“ zu schreiben, entschied sich schließlich aber für „predentirte“ (prätendierte). Quelle: Reuß-Ebersdorf, Erdmuthe Benigna von: Brief an Heinrich XXIV. von Reuß-Köstritz. Ebersdorf (Thüringen), November und Dezember 1712, Bl. 57r, <a rel="noreferrer noopener" href="https://nbn-resolving.org/urn:nbn:de:urmel-35c6148e-3d42-4b26-a4a0-0bb8da46018d6" target="_blank">urn:nbn:de:urmel-35c6148e-3d42-4b26-a4a0-0bb8da46018d6</a>.</figcaption></figure></div> <h3>Historische Quellen von Frauen als dringende Notwendigkeit für und Herausforderung der Digital Humanities</h3> Die linguistischen Eigenheiten der Briefe als Ausdruck geschlechtlich bedingter (historischer) Ungleichheit prädestinieren sie geradezu für das Deutsche Textarchiv. Sie repräsentieren einen riesigen Quellentypus, der insbesondere in den Digital Humanities kaum wahrgenommen, geschweige denn analysiert wird. Wollen die Digital Humanities nicht weiterhin auch die eklatante (heutige) Ungleichheit in den Untersuchungsgegenständen der Forschung reproduzieren und damit weiter festigen, müssen sie endlich und deutlich intensiver als bisher historische Zeugnisse von Frauen verfügbar machen. Zugleich müssen sie Instrumentarien entwickeln, mit denen Quellen, die durch historische (Ungleichheits-)Bedingungen besonders gekennzeichnet sind, mit digitalen Werkzeugen analysiert werden können. Die Briefe Erdmuthe Benignas zeigen auf, welche Herausforderungen mit der computergestützten Verarbeitung zeichengenauer Transkriptionen einhergehen können. Aufgrund der starken Unnormiertheit und Heterogenität selbst identischer Wörter müssen sie aufwändig manuell vorverarbeitet werden, möchte man derzeit existierende Werkzeuge des Natural Language Processing (NLP) nutzen. Die betrifft bereits einfache Häufigkeitszählungen und dann auch komplexere Berechnungen (bspw. im Rahmen der Sentiment Analysis, des Topic Modeling oder der Stilometrie), denen häufig Präprozessierungen wie Tokenisierung oder Lemmatisierung vorausgehen. Die durch Spatien abgetrennten Präfixe bspw. stellen für die Tokenisierung eine nur durch weitere Eingriffe (entweder in die Vor- oder Nachbereitung existierender Tokenisierungsalgorithmen) zu lösende Hürde dar. Eine von der damaligen Schreibpraxis männlicher, gebildeter Zeitgenossen abweichende, individualisierte Schreibung muss für linguistische Analysen orthographisch normiert werden. Eine automatisierte Normierung nimmt beispielsweise das von Bryan Jurish entwickelte Tool <a href="https://kaskade.dwds.de/demo/cab/">CAB</a> vor. Solche Tools müssen jedoch stärker mit jenen Daten trainiert werden, denen bisher zu wenig Aufmerksamkeit zuteilwurde, sollen sie auch für diese zuverlässiger funktionieren. Das Ausspielen entsprechender Quellen aus den UrMEL-Beständen in das Deutsche Textarchiv kann hierfür ein wichtiger Schritt sein. Neben weiteren UrMEL-Texten sei daher auch auf den umfangreichen Quellenbestand des DFG-geförderten Projektes „Frühneuzeitliche Fürstinnenkorrespondenzen im mitteldeutschen Raum“<a href="#ftn6">6</a> hingewiesen. <hr /> <a id="ftn1"></a>1 Näheres zum Projekt findet sich hier: <a href="http://www.histinst.uni-jena.de/Bereiche/Geschlechtergeschichte/Projekte/Editionsportal+Th%C3%BCringen+.html">http://www.histinst.uni-jena.de/Bereiche/Geschlechtergeschichte/Projekte/Editionsportal+Th%C3%BCringen+.html</a>. <a id="ftn2"></a>2 UrMEL ist ein Akronym für Universal Multimedia Electronic Library. <a id="ftn3"></a>3 Vgl. zur gravierenden Vernachlässigung von Quellen von Frauen als Forschungsgegenstand in den Digital Humanities bspw. den Beitrag von Mark Hall auf der DHd 2019: Hall, Mark: DH is the Study of dead Dudes (2019). DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts (Version 1.0). Frankfurt am Main, 111-114: Zenodo. <a href="http://doi.org/10.5281/zenodo.2596095">http://doi.org/10.5281/zenodo.2596095</a>. <a id="ftn4"></a>4 Zur Edition: <a href="http://erdmuthe.thulb.uni-jena.de/">http://erdmuthe.thulb.uni-jena.de/</a>. <a id="ftn5"></a>5 Vgl. zur Selbstdarstellung der Schreiberin in ihren Briefen: Prell, Martin: Selbstentwurf und Herrschaftspraxis. Die Briefe Erdmuthe Benignas von Reuß-Ebersdorf (1670-1732), in: Ruth Albrecht u.a. (Hg.): Pietismus und Adel. Genderhistorische Analysen (= Hallesche Forschungen), Halle/S. 2018, 73–95. <a id="ftn6"></a>6 Vgl. <a href="http://dwee.eu/Rosemarie_Luehr/?Projekte___DFG-Projekte___Fruehneuzeitliche_Fuerstinnenkorrespondenz_im_mitteldeutschen_Raum">http://dwee.eu/Rosemarie_Luehr/?Projekte___DFG-Projekte___Fruehneuzeitliche_Fuerstinnenkorrespondenz_im_mitteldeutschen_Raum</a>.]]></content:encoded> <wfw:commentRss>https://sprache.hypotheses.org/1642/feed</wfw:commentRss> <slash:comments>0</slash:comments> </item> </channel> </rss>