DE eng

Search in the Catalogues and Directories

Page: 1 2
Hits 1 – 20 of 24

1
Discovering structure in speech recordings: Unsupervised learning of word and phoneme like units for automatic speech recognition
Walter, Oliver. - 2021
In: Fraunhofer IAIS (2021)
BASE
Show details
2
Unsupervised word discovery for computational language documentation ; Découverte non-supervisée de mots pour outiller la linguistique de terrain
Godard, Pierre. - : HAL CCSD, 2019
In: https://tel.archives-ouvertes.fr/tel-02286425 ; Artificial Intelligence [cs.AI]. Université Paris Saclay (COmUE), 2019. English. ⟨NNT : 2019SACLS062⟩ (2019)
BASE
Show details
3
Seeking robustness in a multilingual world: from pipelines to embeddings ; Buscando robustez nun mundo multilingüe: de pipelines a embeddings
Doval, Yerai. - 2019
Abstract: Programa Oficial de Doutoramento en Computación. 5009V01 ; [Abstract] In this dissertation, we study two approaches to overcome the challenges posed by processing user-generated non-standard multilingual text content as it is found on the Web nowadays. Firstly, we present a traditional discrete pipeline approach where we preprocess the input text so that it can be more easily handled later by other systems. This implies dealing first with the multilinguality concern by identifying the language of the input and, next, managing the language-specific non-standard writing phenomena involved by means of text normalization and word (re-)segmentation techniques. Secondly, we analyze the inherent limitations of this type of discrete models, taking us to an approach centred on the use of continuous word embedding models. In this case, the explicit preprocessing of the input is replaced by the encoding of the linguistic characteristics and other nuances of non-standard texts in the embedding space. We aim to obtain continuous models that not only overcome the limitations of discrete models but also align with the current state of the art in Natural Language Processing (NLP), dominated by systems based on neural networks. The results obtained after extensive experimentation showcase the capabilities of word embeddings to effectively support the multilingual and non-standard phenomena of usergenerated texts. Furthermore, all this is accomplished within a conceptually simple and modular framework which does not sacrifice system integration. Such embedding models can be readily used as a fundamental building block for state-of-the-art neural networks which are, in turn, used in virtually any NLP task. ; [Resumen] En esta tesis estudiamos dos enfoques para abordar los desafíos planteados de cara al procesamiento de contenidos textuales no estándar y multilingües generados por los usuarios del tipo que se pueden encontrar en la Web a día de hoy. En primer lugar, presentamos un enfoque tradicional basado en pipelines discretos en el que el texto de entrada es preprocesado para facilitar su ulterior tratamiento por otros sistemas. Esto implica abordar el problema del multilingüismo, primero, identificando el idioma de la entrada para, seguidamente, tratar los fenómenos de escritura no estándar específicos de dicho idioma presentes en la entrada. Para ello se aplicarán técnicas de normalización del texto y (re-)segmentación de palabras. En segundo lugar, analizamos las limitaciones inherentes a este tipo de modelos discretos, lo cual nos conduce a un enfoque centrado en el empleo de modelos continuos basados en word embeddings (i.e., representaciones vectoriales). En este caso, el preprocesamiento expíıcito de la entrada es sustituido por la codificación de las características lingüísticas y demás matices propios de los textos no estándar en el propio espacio de embedding (un espacio vectorial). Nuestro objetivo es obtener modelos continuos que no sólo superen las limitaciones de los modelos discretos, sino que también se alineen con el estado del arte actual del Procesamiento de Lenguaje Natural (PLN), dominado por sistemas basados en redes neuronales. Los resultados obtenidos después de una extensa experimentación muestran la capacidad de las word embeddings para dar un soporte efectivo por sí mismas a los fenómenos multilingües y no estándar propios de los textos generados por usuarios. Además, todo esto se logra dentro de un marco conceptual simple y modular que no necesita sacrificar la integración de sistemas. Dichos modelos de word embeddings pueden emplearse fácilmente como un elemento fundamental en redes neuronales de última generación que, a su vez, son utilizadas en prácticamente cualquier tarea de PLN. ; [Resumo] Nesta tese estudamos dous enfoques para abordar os desafíos que presenta o procesamento de contidos textuais non estándar e multilingües xerado polos usuarios do tipo que se atopar na Web a día de hoxe. En primeiro lugar, presentamos un enfoque tradicional baseado en pipelines discretos nos que preprocesamos o texto de entrada para facilitar a seu posterior tratamento por outros sistemas. Isto implica abordar o problema do multilingüismo, primeiro, identificando a lingua de entrada para, seguidamente, tratar o resto dos fenómenos de escritura non estándar específicos da lingua involucrados mediante técnicas de normalización do texto e (re-)segmentación de palabras. En segundo lugar, analizamos as limitacións inherentes a este tipo de modelos discretos, o cal nos leva a un enfoque centrado no emprego de modelos continuos baseados en word embeddings (i.e., representacións vectoriais). Neste caso, o preprocesamento explícito da entrada substitúese pola codificación das características lingüísticas e demais matices propios dos textos non estándar no espazo de embedding mesmo (un espazo vectorial). O noso obxectivo é obter modelos continuos que non so superen as limitacións dos modelos discretos, senón que tamén se aliñen co estado da arte actual do Procesamento da Linguaxe Natural (PLN), dominado por sistemas baseados en redes neurais. Os resultados obtidos tras unha ampla experimentación amosan a capacidade das word embeddings para dar un soporte efectivo por si mesmas aos fenómenos multilingües e non estándar propios de textos xerados por usuarios. Ademais, todo isto acádase dentro dun marco conceptual simple e modular que non precisa sacrificar a integración de sistemas. Estes modelos de word embeddings poden empregarse facilmente como un elemento fundamental en redes neurais de ´ultima xeración que, á súa vez, utilízanse en practicamente calquera tarefa de PLN.
Keyword: Ensamblado de palabras; Natural language processing; Procesamiento en lenguaje natural (Informática); Word segmentation
URL: http://hdl.handle.net/2183/24535
BASE
Hide details
4
Statistical Learning in a Bilingual Environment ...
Tsui, Sin Mei. - : Université d'Ottawa / University of Ottawa, 2018
BASE
Show details
5
Statistical Learning in a Bilingual Environment
Tsui, Sin Mei. - : Université d'Ottawa / University of Ottawa, 2018
BASE
Show details
6
Crowdsourcing lexical semantic judgements from bilingual dictionary users
BASE
Show details
7
Understanding Patterns in Infant-Directed Speech in Context: An Investigation of Statistical Cues to Word Boundaries
Hartman, Rose. - : University of Oregon, 2017
BASE
Show details
8
Zeitungsarabisch
Prokosch, Erich. - Graz : Treffpunkt Sprachen der Karl-Franzens-Univ., Forschungsbereich Plurilingualismus, 2015
BLLDB
UB Frankfurt Linguistik
Show details
9
Methods for Text Segmentation from Scene Images
Kumar, Deepak. - 2014
BASE
Show details
10
Word learning in the first year of life
Saksida, Amanda. - : SISSA, 2014
BASE
Show details
11
Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
BASE
Show details
12
Analysis of language variation and word segmentation for a corpus of Vietnamese blogs ; a sociolinguistic approach
Mello, Heather Lee. - : uga, 2013
BASE
Show details
13
Segmentation of vowel-initial words is facilitated by function words
Kim, Yun Jung. - : eScholarship, University of California, 2012
In: Kim, Yun Jung. (2012). Segmentation of vowel-initial words is facilitated by function words. UCLA: Linguistics 0510. Retrieved from: http://www.escholarship.org/uc/item/7v8573tk (2012)
BASE
Show details
14
Development of phonologically specified word forms
Mulak, Karen E.. - 2012
BASE
Show details
15
Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
BASE
Show details
16
Lexicon-Free Recognition Strategies For Online Handwritten Tamil Words
BASE
Show details
17
Quantitative Anlaysis of Italian texts
Popescu, Ioan-Iovitz; Altmann, Gabriel; Tuzzi, Arjuna. - Lüdenscheid : RAM-Verl., 2010
BLLDB
UB Frankfurt Linguistik
Show details
18
Construction of a syntactic component based on tree adjoining grammars for Vietnamese ; Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien
Le-Hong, Phuong. - : HAL CCSD, 2010
In: https://tel.archives-ouvertes.fr/tel-00529657 ; Interface homme-machine [cs.HC]. Université Nancy II, 2010. Français (2010)
BASE
Show details
19
Aspects of cognitive ethnolinguistics
Bartmiński, Jerzy. - London [u.a.] : Equinox, 2009
BLLDB
UB Frankfurt Linguistik
Show details
20
Extending Phone Prediction Models of Word Segmentation to a More Realistic Representation of Prosody
Pate, John. - : The Ohio State University, 2009
BASE
Show details

Page: 1 2

Catalogues
3
0
0
0
0
0
0
Bibliographies
3
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
21
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern