Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Page: 1 2 3 4 5 6 7 8 9...15

Hits 81 – 100 of 296

81	Learning from Noisy Data in Statistical Machine Translation
	Mediani, Mohammed. - : KIT-Bibliothek, Karlsruhe, 2017
	Abstract: In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des Lernprozesses behandelt: Bei der Vorverarbeitung und während der Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt. Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten. Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen, wobei jeder Satz einer Sprache mit dem entsprechenden Satz der anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind. Um diese zu erkennen wird ein kleiner und fehlerfreier paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen lexikalischen Eigenschaften werden zuverlässig False-Positives vor der Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei ist das vom Clean Corpus erzeugte bilinguale Lexikon. In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen. Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten. Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine. Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes. Da solche Tuning Daten typischerweise beschränkte Größe haben, werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern. Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch bei beschränkten Daten möglich, indem auch monolinguale Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem vorgegebenen Sprachpaar teilen. Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die Trainingsdaten anhand der Güte des Corpus gewichtet werden. Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen Sequenzen zu finden und ihre Gewichtung zu reduzieren. Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln. Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt. Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet. Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher. Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt. Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt. Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher.
	Keyword: DATA processing & computer science; Data Selection; Data Weighting; ddc:004; External Memory; Hybrid Parallel Scoring; info:eu-repo/classification/ddc/004; Language Model Smoothing; Large Corpora; Noise Removal; Noisy Data; Semantic Word Associations; Statistical Machine Translation
	URL: https://publikationen.bibliothek.kit.edu/1000072805/4277990 https://doi.org/10.5445/IR/1000072805 https://publikationen.bibliothek.kit.edu/1000072805 http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:swb:90-728051
	BASE
	Hide details

82	Re-examining the relationship: urban economic performance and external economies
	Frost, I. L.. - : Уральский федеральный университет, 2017
	BASE
	Show details

83	Le fil d´Ariane - le français à la Cour de justice de l´Union européenne à Luxembourg
	Dürmayer, Evelyn. - 2017
	BASE
	Show details

84	Linguistic Innovations in Chinese: Internal and External Factors
	Peng, Xinjia. - : University of Oregon, 2017
	BASE
	Show details

85	External evaluation of French as a foreign language: the DELF-DALF diplomas within multilingual contexts
	Moracho-Baquedano, Iosu. - 2017
	BASE
	Show details

86	Possessor dissension: agreement mismatch in Ngumpin-Yapa possessive constructions
	Meakins, Felicity; Nordlinger, Rachel. - : De Gruyter Mouton, 2017
	BASE
	Show details

87	The functions of external voices in hard news Appraisal: A dialogic perspective
	Nádraská Zuzana
	In: Topics in Linguistics, Vol 18, Iss 2, Pp 63-80 (2017) (2017)
	BASE
	Show details

88	Aspect and Argument structure in adjectival passives
	Alfredo García-Pardo
	In: Borealis: An International Journal of Hispanic Linguistics, Vol 6, Iss 1 (2017) (2017)
	BASE
	Show details

89	Genesis of spatial terms
	Claude Vandeloise
	In: Corela (2017) (2017)
	BASE
	Show details

90	On the modal functions of Lithuanian verbs of coming
	Erika Jasionytė-Mikučionienė
	In: Kalbotyra, Vol 69 (2017) (2017)
	BASE
	Show details

91	Speech production planning affects phonological variability: a case study in French liaison
	Kilbourn-Ceron, Oriana
	In: Proceedings of the Annual Meetings on Phonology; Proceedings of the 2016 Annual Meeting on Phonology ; 2377-3324 (2017)
	BASE
	Show details

92	Atypical Argument Structure in French: from Metaphorical uses to atypical ones
	Girard-Gillet, Geneviève
	In: Atypical Predicate-Argument Relations ; https://halshs.archives-ouvertes.fr/halshs-01459872 ; Atypical Predicate-Argument Relations, 33, John Benjamins Publishing Company, pp.181-201, 2016, Lingvisticae Investigationes Supplementa, 9789027266255. ⟨10.1075/lis.33⟩ (2016)
	BASE
	Show details

93	МЕТОДИКА И МОДЕЛЬ ОЦЕНКИ РИСКОВ МАКРОСРЕДЫ ИНТЕГРИРОВАННОЙ ПРОИЗВОДСТВЕННОЙ СИСТЕМЫ АПК НА ОСНОВЕ ИНТЕГРАЛЬНОГО ПОКАЗАТЕЛЯ1
	ЛОЙКО ВАЛЕРИЙ ИВАНОВИЧ; КУРНОСОВ СЕРГЕЙ АНДРЕЕВИЧ; ЕФАНОВА НАТАЛЬЯ ВЛАДИМИРОВНА. - : Федеральное государственное образовательное учреждение высшего профессионального образования Кубанский государственный аграрный университет, 2016
	BASE
	Show details

94	МОТИВАЦИИ В ФОРМИРОВАНИИ ПРОФЕССИОНАЛЬНО-КОММУНИКАТИВНОЙ КОМПЕТЕНТНОСТИ СТУДЕНТА НЕЯЗЫКОВОГО ВУЗА
	КАЛУГИНА ОЛЬГА АНАТОЛЬЕВНА. - : Общество с ограниченной ответственностью Издательство Грамота, 2016
	BASE
	Show details

95	Faster External Memory LCP Array Construction
	Kempa, Dominik. - : Schloss Dagstuhl - Leibniz-Zentrum fuer Informatik, 2016. : LIPIcs - Leibniz International Proceedings in Informatics. 24th Annual European Symposium on Algorithms (ESA 2016), 2016
	BASE
	Show details

96	Covariance Of Cubic Sets ...
	V. Chinnadurai; A. Swaminathan; K. Suganya. - : Zenodo, 2016
	BASE
	Show details

97	Prostate Cancer and External Beam Therapy
	Solis, Jordyn; Kuang, PhD, Yu
	In: Journal of Health Disparities Research and Practice (2016)
	BASE
	Show details

98	Why *John can´t contribute mary money. Constructional behavior of contribute verbs
	Rosca, Andreea. - : Universidad de Almería, 2016
	BASE
	Show details

99	Phi-Agreement in Past Participle Constructions
	Castillo, Concha. - : Universidad de Alicante. Departamento de Filología Inglesa, 2016
	BASE
	Show details

100	Hacia una caracterización de una disciplina lingüística (casi) olvidada: la etnolingüística ; Towards a characterization of an (almost) ignored linguistic discipline: Ethnolinguistics
	Martín Camacho, José Carlos. - : Universidad de Alicante. Departamento de Filología Española, Lingüística General y Teoría de la Literatura, 2016
	BASE
	Show details

Page: 1 2 3 4 5 6 7 8 9...15

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern