DE eng

Search in the Catalogues and Directories

Page: 1 2
Hits 1 – 20 of 33

1
Enhancing the Reasoning Capabilities of Natural Language Inference Models with Attention Mechanisms and External Knowledge
GAJBHIYE, AMIT. - 2020
BASE
Show details
2
On the use of prior and external knowledge in neural sequence models
BASE
Show details
3
Evaluation of Changes in Speech Production Induced by Conventional and Level-Dependent Hearing Protectors and Noise Characteristics ...
Vaziri, Ghazaleh. - : Université d'Ottawa / University of Ottawa, 2018
BASE
Show details
4
Evaluation of Changes in Speech Production Induced by Conventional and Level-Dependent Hearing Protectors and Noise Characteristics
Vaziri, Ghazaleh. - : Université d'Ottawa / University of Ottawa, 2018
BASE
Show details
5
Learning from Noisy Data in Statistical Machine Translation
Mediani, Mohammed. - : KIT-Bibliothek, Karlsruhe, 2017
Abstract: In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des Lernprozesses behandelt: Bei der Vorverarbeitung und während der Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt. Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten. Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen, wobei jeder Satz einer Sprache mit dem entsprechenden Satz der anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind. Um diese zu erkennen wird ein kleiner und fehlerfreier paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen lexikalischen Eigenschaften werden zuverlässig False-Positives vor der Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei ist das vom Clean Corpus erzeugte bilinguale Lexikon. In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen. Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten. Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine. Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes. Da solche Tuning Daten typischerweise beschränkte Größe haben, werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern. Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch bei beschränkten Daten möglich, indem auch monolinguale Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem vorgegebenen Sprachpaar teilen. Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die Trainingsdaten anhand der Güte des Corpus gewichtet werden. Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen Sequenzen zu finden und ihre Gewichtung zu reduzieren. Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln. Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt. Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet. Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher. Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt. Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt. Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher.
Keyword: DATA processing & computer science; Data Selection; Data Weighting; ddc:004; External Memory; Hybrid Parallel Scoring; info:eu-repo/classification/ddc/004; Language Model Smoothing; Large Corpora; Noise Removal; Noisy Data; Semantic Word Associations; Statistical Machine Translation
URL: https://publikationen.bibliothek.kit.edu/1000072805/4277990
https://doi.org/10.5445/IR/1000072805
https://publikationen.bibliothek.kit.edu/1000072805
http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:swb:90-728051
BASE
Hide details
6
Le fil d´Ariane - le français à la Cour de justice de l´Union européenne à Luxembourg
BASE
Show details
7
Linguistic Innovations in Chinese: Internal and External Factors
Peng, Xinjia. - : University of Oregon, 2017
BASE
Show details
8
External evaluation of French as a foreign language: the DELF-DALF diplomas within multilingual contexts
BASE
Show details
9
Bare nouns in Persian
Modarresi, Fereshteh. - : Humboldt-Universität zu Berlin, Philosophische Fakultät II, 2015
BASE
Show details
10
Análise variacionista da ditongação como processo de sândi externo na fala de Lages/Santa Catarina
BASE
Show details
11
Acoustic Analysis of Internally versus Externally Guided Speech in Parkinson's Disease
BASE
Show details
12
Lideranças curriculares intermédias no contexto da avaliação externa das escolas em Portugal
BASE
Show details
13
Bare Nouns in Persian: Interpretation, Grammar, and Prosody
BASE
Show details
14
Bare Nouns in Persian: Interpretation, Grammar, and Prosody ...
Modarresi, Fereshteh. - : Université d'Ottawa / University of Ottawa, 2014
BASE
Show details
15
The material imagination ; poetic itineraries from Bradstreet to Olson
Hussey, Joshua. - : uga, 2014
BASE
Show details
16
Knowledge organization with multiple external representations in a computer-supported collaborative learning environment for arguing on a socio-scientific issue
Namdar, Bahadir. - : uga, 2014
BASE
Show details
17
Unveiling linguistic competence by facilitating performance
Kim, Kitaek. - : [Honolulu] : [University of Hawaii at Manoa], [May 2014], 2014
BASE
Show details
18
Vergleich der Terminologie des österreichischen Hochschul-Qualitätssicherungsgesetzes mit Schweden und Spanien
BASE
Show details
19
Bare Nouns in Persian: Interpretation, Grammar, and Prosody
Modarresi, Fereshteh. - : Université d'Ottawa / University of Ottawa, 2014
BASE
Show details
20
Evaluation of Mandibular Anterior Alveolus in Different Skeletal Patterns
Hoang, Nga Thu. - : eScholarship, University of California, 2013
In: Hoang, Nga Thu. (2013). Evaluation of Mandibular Anterior Alveolus in Different Skeletal Patterns. UC San Francisco: Oral and Craniofacial Sciences. Retrieved from: http://www.escholarship.org/uc/item/0kz0h9g1 (2013)
BASE
Show details

Page: 1 2

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
33
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern