Menu

Projekt

Das Lin|gu|is|tik-Portal

Das Lin|gu|is|tik-Portal ist ein Fachportal für die allgemeine und vergleichende Sprachwissenschaft sowie die Linguistiken der europäischen und außereuropäischen Einzelphilologien. Hier finden Sie fachspezifische, wissenschaftliche Ressourcen aller Art – sowohl konventionelle, gedruckte und elektronische Sekundärliteratur als auch digitale Informationsressourcen einschließlich Forschungsdaten.

Neben einschlägigen Suchfunktionen bietet das Lin|gu|is|tik-Portal auch Zugang zu Services in den Bereichen Linked Open Data und elektronisches Publizieren sowie Dienstleistungen in den Bereichen Literaturerwerb und Lizenzierung von Online-Ressourcen.

Das Lin|gu|is|tik-Portal wird mit Unterstützung der Deutschen Forschungsgemeinschaft (DFG) an der Universitätsbibliothek Johann Christian Senckenberg (UB Frankfurt) aufgebaut und weiterentwickelt. Das Portal ist die zentrale Onlineplattform des Fachinformationsdienstes Linguistik.

Das Lin|gu|is|tik-Portal als Virtuelle Fachbibliothek

Die Einrichtung des Lin|gu|is|tik-Portals geht zurück auf das Sondersammelgebiet 7.11 "Allgemeine und Vergleichende Sprachwissenschaft, Allgemeine Linguistik", das von 1950 bis 2015 im Auftrag der DFG an der UB Frankfurt betreut wurde und dessen Aufgabe es war, die wissenschaftliche Literatur zur allgemeinen Linguistik einschließlich ihrer Grenz- und Nachbardisziplinen so vollständig wie möglich zu sammeln.

Das Lin|gu|is|tik-Portal entstand aus dem Bestreben, die Sammlungen des Sondersammelgebietes überregional besser verfügbar zu machen. Das Portal wurde als eine Virtuelle Fachbibliothek konzipiert und im Rahmen des DFG-Förderprogramms "Überregionale Literaturversorgung" entwickelt.

Das Projekt der UB Frankfurt startete 2012 in Kooperation mit dem Leibniz-Institut für Deutsche Sprache (IDS) Mannheim und dem Linguistik-Server Essen (LinseLinks) der Universität Duisburg-Essen. In den Jahren 2012-2014 wurden mehrere Module aufgebaut. Verzeichnisse wurden erstellt zu thematischen Webseiten, Forschungsprojekten und Online-Wörterbüchern. Linguistisch relevante, elektronische Zeitschriften und Online-Datenbanken wurden intellektuell aus der Elektronischen Zeitschriftenbibliothek (EZB) bzw. aus dem Datenbank-Infosystem (DBIS) selektiert und hinsichtlich behandelter Sprache und linguistischer Thematik erschlossen. Die Verzeichnisse der Online-Quellen flossen gemeinsam mit Bibliothekskatalogen, Repositorien und Bibliografien in eine indexbasierte Metasuche ein.

In der zweiten Förderphase (2015-2017) wurde der Aufbau der Virtuellen Fachbibliothek fortgesetzt: Die unterschiedlichen Verzeichnisse wurden gepflegt und selektiv erweitert; der virtuelle Katalog wurde um zwölf Kataloge und Bibliografien ergänzt. Verbunden mit der Gewinnung eines neuen Partners – Prof. Chiarcos aus dem Bereich Angewandte Computerlinguistik (ACoLi) am Institut für Informatik der Goethe-Universität Frankfurt am Main – bekam das Projekt eine grundsätzlich neue Ausrichtung: Das Lin|gu|is|tik-Portal öffnete sich für Semantic-Web-Technologien.

In dieser Phase wurden die Voraussetzungen geschaffen, um das Lin|gu|is|tik-Portal mit Linked Open Data (LOD) zu vernetzen. Durch diese Vernetzung wurde es möglich, linguistisch relevante LOD-Ressourcen in den Suchindex zu integrieren.

Das Lin|gu|is|tik-Portal und Linked Open Data

Die Verbreitung und die Akzeptanz von LOD steigt kontinuierlich. Immer mehr freie, linguistisch relevante Ressourcen werden nach Linked-Data-Prinzipien gemäß den entsprechenden W3C-Standards aufbereitet. So entstand auch die Linguistic Linked Open Data Cloud (LLOD-Cloud), die auf eine Initiative der Open Linguistics Working Group der Open Knowledge Foundation zurückgeht und Ressourcen wie Wörterbücher, Terminologie-Repositorien, Sprachkorpora oder fachspezifische Datenbanken zusammenfasst. Die LLOD-Cloud zielt darauf ab, durch die Interoperabilität vieler Ressourcen eine automatisierte Informationsgewinnung zu ermöglichen.

Zwischen dem Lin|gu|is|tik-Portal und der LLOD-Cloud wurde eine Verbindung hergestellt, indem der Schlagwort-Thesaurus der Bibiography of Linguistic Literature (BLL-Thesaurus) mit einem Metadaten-Repositorium in der Cloud verknüpft wurde. Der BLL-Thesaurus liefert die Grundlage sowohl für die thematische Klassifikation als auch für die normierten Schlagwörter, die der intellektuellen Erschließung in den Modulen dienen. Auf Seiten der LLOD-Cloud fungieren die Ontologies of Linguistic Annotations (OLiA) als Anknüpfungspunkt. Ein zentraler Bestandteil dieses modular aufgebauten Repositoriums ist das OLiA-Referenzmodell, das Terminologie-Definitionen enthält und als Mediator zwischen verschiedenen Annotationsschemata dient.

Für die Anbindung an die Cloud wurde der BLL-Thesaurus nach LOD-Prinzipien aufbereitet und – durch intellektuelle Zuordnung von BLL-Schlagwörtern zu einzelnen OliA-Begriffen – mit dem OLiA-Referenzmodell verknüpft. Damit war die Grundlage für die Implementierung einer LOD-basierten Suchfunktion im Lin|gu|is|tik-Portal geschaffen.

Die LLOD-Cloud wurde zunächst nach relevanten Datensätzen durchsucht. Dabei wurden alle LLOD-Ressourcen indiziert, die eine Verknüpfung mit dem OLiA-Referenzmodell aufweisen. Die Ressourcen wurden dann auf entsprechende BLL-Begriffe hin geprüft. Das Ergebnis wurde nahtlos in die bestehende Katalogsuche integriert. Dadurch wurde ein niederschwelliger Zugriff auf LLOD-Ressourcen ermöglicht.

Als Abschluss des Projekts Virtuelle Fachbibliothek wurden alle erstellten Datenbanken (Details siehe BLL LOD Edition) veröffentlicht und somit für die Nachnutzung durch die LOD-Community zur Verfügung gestellt.

Das Lin|gu|is|tik-Portal und der Fachinformationsdienst (FID) Linguistik

Seit 2017 wird das Lin|gu|is|tik-Portal im Rahmen des DFG-Förderprogramms Fachinformationsdienste für die Wissenschaft weiter ausgebaut. Der FID Linguistik ist ein Projekt der UB Frankfurt in Kooperation mit der Forschungsgruppe Angewandte Computerlinguistik (AcoLi).

In enger Verbindung mit der Fachcommunity entwickeln die Fachinformationsdienste auf den Bedarf der Forscher*innen ausgerichtete Informations- und Serviceangebote. Das Ziel des FID Linguistik ist, die bestehende Infrastruktur auszubauen, die Funktionalitäten und Dienstleistungen zu erweitern und dadurch ein leistungsstarkes System der Informationsversorgung für die linguistische Forschung in Deutschland zu etablieren.

FID Linguistik (2017-2019)

In der ersten Förderphase (2017-2019) lag der Schwerpunkt auf den Bereichen Forschungsdaten und Open Access. Verschiedene Maßnahmen wurden durchgeführt, um die Recherche nach benötigten Forschungsdaten zu optimieren, ihre Sichtbarkeit zu erhöhen und die Verfügbarkeit von lizenzpflichtigen Forschungsdaten zu unterstützen.

Die Arbeiten im Bereich LOD wurden konsequent fortgesetzt: Die Vernetzung des Lin|gu|is|tik-Portals mit der LLOD-Cloud wurde ausgebaut; die LOD-Suche wurde erweitert und optimiert. Zum einen wurden die im BLL-Thesaurus enthaltenen Sprachbezeichner für LOD aufbereitet und mit den LLOD-Repositorien Lexvo und Glottolog verknüpft. Zum anderen wurden Routinen entwickelt, die es ermöglichen, frei verfügbare elektronische Korpora und Wörterbücher automatisch durch Schlagwörter anzureichern. Der Fokus liegt dabei auf Sprachressourcen, deren formale Metadaten (Titel, Autor usw.) als LOD vorhanden sind und auf Portalen wie Datahub, Linghub oder CLARIN Virtual Language Observatory nachgewiesen werden. Mithilfe von NLP-Techniken und LOD-Methoden werden diese Ressourcen hinsichtlich Objektsprache und Annotationsschema (Tagset oder Vokabular) analysiert. Die gewonnenen Erkenntnisse werden in einem neu eingerichteten Metadaten-Repositorium (Annohub) gespeichert. Annohub dient als Basis für die Indexierung: Für die Begriffe aus den ermittelten Tagsets / Vokabularien und für die Sprachen werden anhand der bestehenden Verknüpfungen zu OLiA, Lexvo und Glottolog jeweils Entsprechungen im BLL-Thesaurus gesucht. Die Metadaten der Sprachressourcen werden dann um diese BLL-Schlagwörter ergänzt und dadurch für die Suche im Lin|gu|is|tik-Portal erschlossen. Diese Maßnahmen führten zu einer sowohl qualitativen als auch quantitativen Erweiterung des Suchraums.

Zur Verbesserung der Sichtbarkeit von linguistischen Forschungsdaten und ihrer wissenschaftlichen Analyse wurde ein bibliografisches Teilprojekt aufgesetzt: Einschlägige Publikationen aus der Bibliography of Linguistic Literature werden auf Metadatenebene mit den jeweils behandelten Sprachkorpora verknüpft. Zu diesem Zweck werden für die betreffenden Sprachressourcen jeweils Normdatensätze erstellt, die direkt auf die Webpräsenz des Korpus verlinken. Dadurch wird es auch möglich, zu einer gewählten Ressource unmittelbar die dazugehörige Sekundärliteratur anzuzeigen.

Im Rahmen des FID Linguistik wurden auch Maßnahmen im Bereich Verfügbarkeit von Forschungsdaten ergriffen. In Kooperation mit der European Language Resources Association (ELRA) wurde ein Pilotprojekt gestartet mit dem Ziel, Lizenzen für kostenpflichtige Korpora an Forscher*innen innerhalb Deutschlands zu vermitteln. Für diesen Service wurde im Lin|gu|is|tik-Portal ein neues Modul (Korpus-Lizenzen) eingerichtet: Hier finden sich allgemeine Informationen zum Angebot, zu Voraussetzungen und Finanzierung, zum Lizenzierungsverfahren sowie ein Webformular für individuelle Korpus-Anfragen.

Ein Bestandteil des Serviceangebots des FID Linguistik ist auch der Erwerb von gedruckter oder elektronischer Literatur jenseits der Grundversorgung – unter besonderer Berücksichtigung des aktuellen Bedarfs der Fachcommunity. Zur Unterstützung des bedarfsorientierten Erwerbs wurde ein Webformular für Kaufvorschläge eingerichtet, das auch überregional unmittelbaren Einfluss auf den Literaturerwerb im Rahmen des FID erlaubt.

Der FID Linguistik setzt sich für Open Access als Publikationsmodell ein. Zur Stärkung der Open-Access-Infrastruktur wurde eine neue Dienstleistung eingeführt: das Hosting von elektronischen Zeitschriften. Der FID Linguistik unterstützt wissenschaftliche Redaktionen bei der Publikation von linguistisch relevanten Open-Access-Zeitschriften durch die kostenlose Bereitstellung der technischen Plattform, die langfristige Speicherung der Inhalte sowie die Verankerung in relevanten Datenbanken und Nachweissystemen. Das Hosting-Angebot des FID Linguistik wurde bereits von mehreren Zeitschriften in Anspruch genommen – darunter das neu gegründete Journal für Medienlinguistik sowie das International Journal of Literary Linguistics.

Forscher*innen weltweit erhalten darüber hinaus über das Linguistik-Repository die Möglichkeit, Veröffentlichungen aus allen Bereichen der Sprachwissenschaft in elektronischer Form nach den Grundsätzen des Open Access verfügbar zu machen. Dieser Dokumentenserver wurde in den letzten Jahren mit Unterstützung der DFG aufgebaut.

Seit dem Beginn des Projekts "Fachinformationsdienst Linguistik" wächst die Anzahl der Service- und Informationsangebote, die über das Lin|gu|is|tik-Portal zur Verfügung gestellt werden. Gleichzeitig ändern sich die Ansprüche der Nutzer - gerade auch im Hinblick auf den Einsatz mobiler Endgeräte. Um diesen Anforderungen gerecht zu werden, wurde zuletzt eine technische und visuelle Revision der Weboberfläche vollzogen, die in einen Relaunch des Lin|gu|is|tik-Portals mündete.

FID Linguistik (2020-2022)

Für die Jahre 2020-2022 wurde mit DFG-Unterstützung ein Folgeprojekt aufgesetzt. In dieser zweiten Förderphase werden die Informationsangebote und das Serviceportfolio des FID Linguistik weiter ausgebaut.

Die inhaltliche und technische Entwicklung des Lin|gu|is|tik-Portals stellt nach wie vor einen zentralen Arbeitsschwerpunkt dar. Dies geschieht u.a. durch die Implementierung einer semantisch gestützten Suche. Geplant ist auch die Einrichtung neuer Module mit themenspezifischen Funktionalitäten zu Sprachen und Korpora. Darüber hinaus wird der Export aller Nachweise ermöglicht – sowohl für Endnutzer als auch für andere interessierte Portale oder verwandte Fachinformationsdienste.

Die bereits vorhandene LOD-Vernetzung soll auf weitere Ressourcen ausgedehnt werden. Dafür bietet sich zum Beispiel PHOIBLE an – ein Repositorium von Phoneminventaren aus über 2.000 unterschiedlichen Sprachen.

Vorangetrieben wird auch die automatische Erschließung von digitalen Ressourcen – sowohl von Forschungsdaten als auch von Sekundärliteratur: Der Nachweis von Forschungsdaten soll vor allem quantitativ erweitert werden durch den Einsatz der bestehenden Verfahren in Verbindung mit URL-Extraktion auf neue Quellen wie Mailinglisten, Suchmaschinen, Online-Proceedings etc. Für Sekundärliteratur werden Verfahren zur automatischen Erschließung der formalen Metadaten sowie zur inhaltlichen Klassifikation (d.h. algorithmischen Verschlagwortung) eingesetzt und weiterentwickelt.

Fortgesetzt werden die Arbeiten zur Verknüpfung von Forschungsdaten mit der sie behandelnden Sekundärliteratur: Neben Sprachkorpora werden zukünftig auch Ressourcentypen wie lexikalische Datenbanken, elektronische Wörterbücher und Tools zur Bearbeitung von Korpora berücksichtigt.

Der FID Linguistik plant auch weitere Maßnahmen im Bereich Open Access: zum einen die Fortführung des Hosting-Angebots für Online-Journals, zum anderen die verstärkte Einbeziehung von frei verfügbaren E-Books. So soll zum Beispiel in Kooperation mit verantwortlichen Verlagen ein gebündelter Nachweis von linguistisch relevanten E-Books entstehen.

Darüber hinaus sollen überregionale FID-Lizenzen für ausgewählte, hochspezielle Datenbanken und Zeitschriften eingerichtet werden.