Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Page: 1 2 3 4

Hits 41 – 60 of 73

41	Data-driven identification of German phrasal compounds
	Barbaresi, Adrien (VerfasserIn); Hein, Katrin (VerfasserIn)
	In: Enthalten in: TSD (20. : 2017 : Prag): Text, speech, and dialogue (2017)
	IDS Mannheim
	Show details

42	Die Korpusplattform des "Digitalen Wörterbuchs der deutschen Sprache" (DWDS)
	Geyken, Alexander; Barbaresi, Adrien; Didakowski, Jörg...
	In: Zeitschrift für germanistische Linguistik. - Berlin [u.a.] : de Gruyter 45 (2017) 2, 327-344
	BLLDB
	Show details

43	Data-Driven Identification of German Phrasal Compounds
	Barbaresi, Adrien; Hein, Katrin
	In: Text, Speech, and Dialogue ; https://hal.archives-ouvertes.fr/hal-01575651 ; Kamil Ekštein; Václav Matoušek. Text, Speech, and Dialogue, 10415, Springer International Publishing, pp.192-200, 2017, Lecture Notes in Computer Science, 978-3-319-64205-5. ⟨10.1007/978-3-319-64206-2_22⟩ ; https://link.springer.com/bookseries/558 (2017)
	BASE
	Show details

44	Die Korpusplattform des „Digitalen Wörterbuchs der deutschen Sprache“ (DWDS)
	Geyken, Alexander; Barbaresi, Adrien; Didakowski, Jörg...
	In: ISSN: 0301-3294 ; EISSN: 1613-0626 ; Zeitschrift für Germanistische Linguistik ; https://hal.archives-ouvertes.fr/hal-01575661 ; Zeitschrift für Germanistische Linguistik, De Gruyter, 2017, Zeitschrift für Germanistische Linguistik, 45 (2), pp.327-344. ⟨10.1515/zgl-2017-0017⟩ ; https://www.degruyter.com/view/j/zfgl.2017.45.issue-2/zgl-2017-0017/zgl-2017-0017.xml (2017)
	BASE
	Show details

45	Putting Der Brenner on the map
	Barbaresi, Adrien
	In: Corpus Linguistics and Literature Workshop, 43rd Austrian Linguistics Conference ; https://hal.archives-ouvertes.fr/hal-01951848 ; Corpus Linguistics and Literature Workshop, 43rd Austrian Linguistics Conference, Dec 2017, Klagenfurt, Austria. ⟨10.1553/Brenner_map⟩ ; https://epub.oeaw.ac.at/?arp=0x003a1086 (2017)
	BASE
	Show details

46	Toponyms as Entry Points into a Digital Edition: Mapping Die Fackel (1899-1936)
	Barbaresi, Adrien
	In: Digital Humanities ; https://hal.archives-ouvertes.fr/hal-01591628 ; Digital Humanities, Aug 2017, Montréal, Canada. pp.159-161 ; https://dh2017.adho.org/ (2017)
	BASE
	Show details

47	Discriminating between Similar Languages using Weighted Subword Features
	Barbaresi, Adrien
	In: Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2017) ; https://hal.archives-ouvertes.fr/hal-01575656 ; Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2017), Association for Computational Linguistics (ACL), Apr 2017, Valence, Spain. pp.184-189, ⟨10.18653/v1/W17-1223⟩ ; http://ttg.uni-saarland.de/vardial2017/ (2017)
	BASE
	Show details

48	Towards a toolbox to map historical text collections
	Barbaresi, Adrien
	In: 11th Workshop on Geographic Information Retrieval (GIR'17) ; https://hal.archives-ouvertes.fr/hal-01654526 ; 11th Workshop on Geographic Information Retrieval (GIR'17), Nov 2017, Heidelberg, Germany. ⟨10.1145/3155902.3155905⟩ (2017)
	BASE
	Show details

49	Visualisierung von Ortsnamen im Deutschen Textarchiv ...
	Barbaresi, Adrien. - : Zenodo, 2017
	BASE
	Show details

50	Visualisierung von Ortsnamen im Deutschen Textarchiv ...
	Barbaresi, Adrien. - : Zenodo, 2017
	BASE
	Show details

51	4th Workshop on Challenges in the Management of Large Corpora. (May 28th 2016, Portorož; part of the LREC-2016 workshop structure)
	Bański, Piotr [Herausgeber]; Kupietz, Marc [Herausgeber]; Lüngen, Harald [Herausgeber]. - Mannheim : Institut für Deutsche Sprache, Bibliothek, 2016
	DNB Subject Category Language
	Show details

52	Proceedings of the 4th Workshop on Challenges in the Management of Large Corpora
	Bański, Piotr (Hrsg.); Kupietz, Marc (Hrsg.); Lüngen, Harald (Hrsg.). - 2016
	IDS Bibliografie zur deutschen Grammatik
	Show details

53	Bootstrapped OCR error detection for a less-resourced language variant
	Barbaresi, Adrien
	In: Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016) ; 13th Conference on Natural Language Processing (KONVENS 2016) ; https://hal.archives-ouvertes.fr/hal-01371689 ; 13th Conference on Natural Language Processing (KONVENS 2016), Sep 2016, Bochum, Germany. pp.21-26 ; https://www.linguistics.ruhr-uni-bochum.de/konvens16/ (2016)
	BASE
	Show details

54	An Unsupervised Morphological Criterion for Discriminating Similar Languages
	Barbaresi, Adrien
	In: 3rd Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2016) ; https://hal.archives-ouvertes.fr/hal-01575653 ; 3rd Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2016), Dec 2016, Osaka, Japan. pp.212-220 ; http://ttg.uni-saarland.de/vardial2016/ (2016)
	BASE
	Show details

55	Visualisierung von Ortsnamen im Deutschen Textarchiv
	Barbaresi, Adrien
	In: DHd 2016 ; https://halshs.archives-ouvertes.fr/halshs-01287931 ; DHd 2016, Mar 2016, Leipzig, Germany. pp.264-267 ; http://dhd2016.de/ (2016)
	Abstract: International audience ; 1. Textarchiv und Umfang der StudieDas DFG-geförderte Projekt „DeutschesTextarchiv“ (DTA, www.deutschestextarchiv.de) der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) stellt deutschsprachige Drucke als Bilddigitalisate und TEI-XML-annotierte Volltexte aus mehr als 300 Jahren, vom Beginn des 17. bis zum frühen 20. Jahrhundert, über das Internet zur freien Nutzung bereit. Das DTA mit seinen Erweiterungskorpora umfasst derzeit knapp 2800 Dokumente mit mehr als 630 000 digitalisierten Seiten und ca. 1,1 Mrd. Zeichen (Stand: 7.10.2015). Neben dem Anspruch, vielseitig nutzbare und qualitativ hochwertige Primärquellen frei verfügbar zumachen, liegt der Fokus des DTA-Projekts auf der korpus- bzw. computerlinguistischen Analyse der elektronischen Volltexte. Alle Quellen stehen in verschiedenen Formaten zum Herunterladen und auch zum „Harvesten“ über eine API bereit (www.deutschestextarchiv.de/api).Im Rahmen des DTA wurden in den letzten beiden Jahren verschiedene automatische und semiautomatische Ansätze zur Erkennung von Personen- und Ortsnamen evaluiert. Immer wieder bedeuteten dabei die Heterogenität des Korpus und die große sprachliche Varianz innerhalb des Textkorpus eine Herausforderung für die Tools: Je früher die Entstehungszeit eines Textes liegt, desto größer werden sprachliche und sachliche Differenz bei der Benennung von Eigennamen. Der Fokus wird im Folgenden auf Ortsnamen in historischen Texten des DTA liegen.Das Ziel der Studie besteht darin, die Verteilung der im DTA erwähnten Ortsnamen darzustellen, um ein synthetisches Bild der Sammlung zusammenzustellen und gleichzeitig Rückschlüsse auf den Inhalt zu ermöglichen. Sie erfolgt im Rahmen einer Kooperation zwischen der Berlin-Brandenburgischen Akademie der Wissenschaften (Zentrum Sprache) und der Österreichischen Akademie der Wissenschaften (ICLTT, Institut für Corpuslinguistik und Texttechnologie), beide Zentren verfügen über digitalisierte historische Textkorpora.2. Erkennung von OrtsnamenSpezialisierte Werkzeuge aus dem Gebiet der Computerlinguistik werden im Rahmen dieser Studie eingesetzt. Erstens wird für die Tokenisierung (Segmentierung in Wortformen) die Software WASTE (Jurish und Würzner 2013) benutzt, die speziell für Texte verschiedener Epochen im Rahmen des DTA entwickelt worden ist. So lassen sich Sprachqualitäten besser annähern, die von den heutigen Standards abweichen.Die deutsche Version des „Wikiwörterbuchs“ Wiktionary der Wikimedia Stiftung, das von Internetnutzern gepflegt wird, wird verwendet, um lexikalische Informationen über Wörtern zu sammeln. Ziel dieses Vorgehens ist es unter anderem, solche Token zu erkennen, die mit Sicherheit keine Eigennamen sind. Ein weiteres mögliches Problem besteht bei Eigennamen, die keine Ortsnamen sind, jedoch aus verschiedenen Gründen als solche ausgezeichnet worden sind, u. a. Namen von bekannten Autoren so wie fiktive Namen und Vornamen. Listen werden also benutzt, um bereits bekannte Eigennamen auszugrenzen.Die Erkennung von Ortsnamen beruht oft auf Verfahren aus der künstlichen Intelligenz sowie named-entity recognition (Leidner und Lieberman 2011). Wissensbasierte Methoden zeigen jedoch auch versprechend Ergebnisse, so wie zum Beispiel anhand von Datenbanken aus Wikipedia (Hu et al. 2014).Unsere Erkennung der Ortsnamen erfolgt über Datenbanken, die die Vorteile von geisteswissenschaftliche Sorgfalt und Opportunismus aus Big Data Herangehensweisen kombiniert. Über ein gleitendes Fenster wird nach Treffern (einschließlich Mehrwortausdrücken) gesucht. Aus der passenden Datenbank werden Koordinaten und gegebenenfalls weitere geographisch relevante Informationen extrahiert, diese Daten werden wiederum in einer weiteren für das gesamte Verfahren angelegten Datenbank zusammengefasst. Falls mehrere Möglichkeiten bestehen, ist ein Disambiguierungsverfahren nötig, das Informationen wie Distanz, Kontext und aktuelle Bevölkerungszahlen benutzt.Die Erkennung erfolgt über die Durchsuchung von Listen unterschiedlichen Ranges: als Erstes wird nach aktuellen sowie ehemaligen Ländern und vergleichbaren Hoheitsgebieten gesucht (z.B. Österreich-Ungarn), dann wird die Suchanfrage um Regionen oder regionale Landschaften erweitert (z.B. Schwaben), bei einem negativen Ergebnis wird anschließend nach Städten und schließlich nach geographischen Merkmalen wie Flüssen oder Bergen gesucht. Die dafür nötigen Informationen wurden zum Teil händisch (Staaten und Regionen) und zum Teil automatisch gesammelt und händisch zusammengefasst oder überprüft (Städte und Geographie). Da mancherorts die Staatsgrenzen bis ins 20. Jahrhundert instabil geblieben sind und da gewisse Staaten sich durchaus als multinational verstehen lassen, wurden insbesondere für Mitteleuropa Listen einschließlich der aktuellen oder ehemaligen deutschen Namen erstellt, u.a. anhand von bereits im Web auffindbaren Listen wie zum Beispiel Kategorien oder Listen von Wikipedia.Jedem eindeutigen Ortsnamen wurden dann Koordinaten hinzugefügt, entweder durch automatische Abfrage von Wikipedia und Wikidata oder händisch unter Heranziehungen historischer Beschreibungen oder Atlanten. Bei politischen Entitäten wurde bisher Europa im 19. und 20. Jahrhundert in Betracht gezogen. Die Listen werden regelmäßig erweitert, sie umfassen derzeit 78 Hoheitsgebiete, 858 Regionen, 9.846 Städte und 13.962 geographische Merkmale.Wenn kein Treffer in den Listen gefunden wird, werden größere, automatisch erstellte Ortsregister in Betracht gezogen. Geographische Informationen über Orte stammen dann aus den Geonames-Datenbanken, die zum Beispiel von dem Openstreetmap Projekt benutzt werden, und dessen Creative Commons Attribution Lizenz eine Wiederverwendung der Daten ermöglicht. Alle Datenbanken für aktuelle europäische Länder sind gesammelt und verarbeitet worden: gewisse Ortstypen (nämlich Region und bewohnter Ort) sind ausgewählt worden, und existierende Varianten in diversen europäischen Alphabeten sind extrahiert worden, um mögliche Änderungen im Laufe der Geschichte zu reflektieren.3. Projektion auf einer KarteSchließlich werden die Ergebnisse auf eine Karte Europas projiziert, die die tatsächliche politische Lage dieser Zeit spiegelt. Dafür werden die Grenzen von 1914 gezeigt. Der quantitative Schwerpunkt des Korpus liegt nämlich auf dem 19. Jahrhundert liegt und der Stand vor dem ersten Weltkrieg gibt ein vernünftiges Bild von Europa während des 'langen 19. Jahrhunderts'. Die Qualität der Daten so wie des graphischen Resultats wurde in mehreren Durchläufen geprüft, dabei wurden jeweils verbliebene Fehler eliminiert: die Karte bzw. die Projektion der Daten wird so sukzessive verbessert und feiner justiert.Zur Projektion wird die Kartographieumgebung TileMill benutzt, die eine Anpassung anhand der Stylesheet-Sprache CartoCSS ermöglicht. So können wichtige Punkte im Graphen hervorgehoben werden. Die Wahl verschiedener Farben erleichtert den Überblick über das visualisierte Ergebnis und dessen Interpretation, da im Feld der Visualisierungsstudien bekannt ist, dass das menschliche Auge instinktiv unterscheiden und klassifizieren kann (Bertin 1967).4. Karte[Bilder]5. DiskussionWir hegen die Hoffnung, dass solche Visualisierungsstudien den Weg nach einer größeren Sichtbarkeit von digitalem Kulturerbe und von literarischer Forschung im digitalen Zeitalter ebnen. Genauer betrachtet glauben wir, dass detailreiche Annäherungsweisen gefragt werden, die sowohl auf technischer Kompetenz als auch auf historisches und literarisches Wissen aufbauen. In diesem Sinne planen wir, mehr Metadaten einzubeziehen sowie vielseitige Visualisierungen zu erzeugen.Es sollte immer berücksichtigt werden, dass die linguistischen Korpora, die als Basis für die Karte benutzt werden, immer schon ein Konstrukt sind, woraus folgt, dass die auf diesen Daten basierenden Projektionen ebenso Konstrukte sind: Auch wenn sie unmittelbar interpretierbar scheinen, spielen Qualität der Daten, Spezialisierungsgrad der Verarbeitungskette und Qualitätsprüfung eine maßgebende Rolle. Deswegen sind wir der Meinung, dass eine gewisse Dekonstruktion des Prozesses nötig ist, im Sinne einer Öffnung der black box, die dem Betrachter das originelle Moment der Entzückung vielleicht wegnimmt, aus wissenschaftlicher Sicht jedoch wünschenswert ist. So möchten wir keine Fehler kaschieren, eventuelle Verzerrungen nicht verschweigen, und für die Reproduzierbarkeit des gesamten Prozesses sorgen, einerseits durch detailreiche Dokumentierung des Prozesses, andererseits durch die Herausgabe möglichst aller dabei verwendeten Tools und Komponenten als Open Source Software.So können unmögliche, in diesem Kontext falsche Verbindungen vermieden werden: es gibt zum Beispiel einen Ort namens "Hermann" in Norwegen, was Fakt und Datum zugleich ist. Es ist jedoch nötig, sich nicht allein auf diese Datengrundlage zu verlassen, wenn man nach Orten sucht, sonst wird das Endprodukt – d.h. die Karte – verfälscht.Interessanterweise bietet die Karte für einen möglichen Hermeneuten genau diese Fälle in Perspektive, die Existenz eines möglicherweise falschen Knotens bleibt nicht unbemerkt und wirft Fragen auf. Auf dieser Weise ist uns zum Beispiel ein systematischer Fehler mit den Vornamen aufgefallen. Durch diese hermeneutische Schleife wird die Analyse nach und nach verschärft.Die Säuberung der Daten ist in dieser Hinsicht entscheidend, die Anzahl und Vielfalt von Filtern, die eingesetzt werden, erheben unsere Arbeit von einer massiven Datensammlung und -Analyse auf das Niveau einer Studie in Digital Humanities, die Rücksicht auf Besonderheiten einer Sprache und einer Epoche nimmt.Bibliographische AngabenBertin, J., Sémiologie graphique, Paris, Mouton/Gauthier-Villars, 1967.Hu, Y. und Janowicz, K. und Prasad, S. Improving Wikipedia-Based Place Name Disambiguation in Short Texts Using Structured Data from Dbpedia. In Proceedings of the 8th Workshop on Geographic Information Retrieval, pages 8–16. ACM, 2014.Jurish, B. und Würzner, K.-M. Word and Sentence Tokenization with Hidden Markov Models. JLCL, 28(2):61–83, 2013.Leidner, J.L. und Lieberman, M.D. Detecting Geographical References in the Form of Place Names and Associated Spatial Natural Language. SIGSPATIAL Special, 3(2):5–11, 2011.
	Keyword: [SHS.LANGUE]Humanities and Social Sciences/Linguistics; [SHS.LITT]Humanities and Social Sciences/Literature; [SHS.STAT]Humanities and Social Sciences/Methods and statistics; German Text Archive; NER; toponym extraction; visualization
	URL: https://halshs.archives-ouvertes.fr/halshs-01287931 https://halshs.archives-ouvertes.fr/halshs-01287931/file/ABarbaresi_Dhd2016.pdf https://halshs.archives-ouvertes.fr/halshs-01287931/document
	BASE
	Hide details

56	APIs in Digital Humanities: The Infrastructural Turn
	Tasovac, Toma; Barbaresi, Adrien; Clérice, Thibault...
	In: Digital Humanities 2016 ; https://hal.archives-ouvertes.fr/hal-01348706 ; Digital Humanities 2016, Jul 2016, Cracovie, Poland. pp.93-96 ; http://dh2016.adho.org/ (2016)
	BASE
	Show details

57	Collection and Indexing of Tweets with a Geographical Focus
	Barbaresi, Adrien
	In: Tenth International Conference on Language Resources and Evaluation (LREC 2016) ; https://hal.archives-ouvertes.fr/hal-01323274 ; Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 2016, Portorož, Slovenia. pp.24-27 (2016)
	BASE
	Show details

58	Extraction and Visualization of Toponyms in Diachronic Text Corpora
	Barbaresi, Adrien; Biber, Hanno
	In: Digital Humanities 2016 ; https://hal.archives-ouvertes.fr/hal-01348696 ; Digital Humanities 2016, Jul 2016, Cracovie, Poland. pp.732-734 ; http://dh2016.adho.org/ (2016)
	BASE
	Show details

59	Efficient construction of metadata-enhanced web corpora
	Barbaresi, Adrien
	In: Proceedings of the 10th Web as Corpus Workshop ; 10th Web as Corpus Workshop ; https://hal.archives-ouvertes.fr/hal-01371704 ; 10th Web as Corpus Workshop, Association for Computational Linguistics (ACL SIGWAC), Aug 2016, Berlin, Germany. pp.7-16, ⟨10.18653/v1/W16-2602⟩ (2016)
	BASE
	Show details

60	Efficient Exploration of Translation Variants in Large Multiparallel Corpora Using a Relational Database
	Graën, Johannes; Clematide, Simon; Volk, Martin
	In: Graën, Johannes; Clematide, Simon; Volk, Martin (2016). Efficient Exploration of Translation Variants in Large Multiparallel Corpora Using a Relational Database. In: 4th Workshop on the Challenges in the Management of Large Corpora, Portorož, 28 May 2016 - 28 May 2016, 20-23. (2016)
	BASE
	Show details

Page: 1 2 3 4

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern