Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Page: 1 2

Hits 1 – 20 of 24

1	Discovering structure in speech recordings: Unsupervised learning of word and phoneme like units for automatic speech recognition
	Walter, Oliver. - 2021
	In: Fraunhofer IAIS (2021)
	BASE
	Show details

2	Unsupervised word discovery for computational language documentation ; Découverte non-supervisée de mots pour outiller la linguistique de terrain
	Godard, Pierre. - : HAL CCSD, 2019
	In: https://tel.archives-ouvertes.fr/tel-02286425 ; Artificial Intelligence [cs.AI]. Université Paris Saclay (COmUE), 2019. English. ⟨NNT : 2019SACLS062⟩ (2019)
	BASE
	Show details

3	Seeking robustness in a multilingual world: from pipelines to embeddings ; Buscando robustez nun mundo multilingüe: de pipelines a embeddings
	Doval, Yerai. - 2019
	Abstract: Programa Oficial de Doutoramento en Computación. 5009V01 ; [Abstract] In this dissertation, we study two approaches to overcome the challenges posed by processing user-generated non-standard multilingual text content as it is found on the Web nowadays. Firstly, we present a traditional discrete pipeline approach where we preprocess the input text so that it can be more easily handled later by other systems. This implies dealing first with the multilinguality concern by identifying the language of the input and, next, managing the language-specific non-standard writing phenomena involved by means of text normalization and word (re-)segmentation techniques. Secondly, we analyze the inherent limitations of this type of discrete models, taking us to an approach centred on the use of continuous word embedding models. In this case, the explicit preprocessing of the input is replaced by the encoding of the linguistic characteristics and other nuances of non-standard texts in the embedding space. We aim to obtain continuous models that not only overcome the limitations of discrete models but also align with the current state of the art in Natural Language Processing (NLP), dominated by systems based on neural networks. The results obtained after extensive experimentation showcase the capabilities of word embeddings to effectively support the multilingual and non-standard phenomena of usergenerated texts. Furthermore, all this is accomplished within a conceptually simple and modular framework which does not sacrifice system integration. Such embedding models can be readily used as a fundamental building block for state-of-the-art neural networks which are, in turn, used in virtually any NLP task. ; [Resumen] En esta tesis estudiamos dos enfoques para abordar los desafíos planteados de cara al procesamiento de contenidos textuales no estándar y multilingües generados por los usuarios del tipo que se pueden encontrar en la Web a día de hoy. En primer lugar, presentamos un enfoque tradicional basado en pipelines discretos en el que el texto de entrada es preprocesado para facilitar su ulterior tratamiento por otros sistemas. Esto implica abordar el problema del multilingüismo, primero, identificando el idioma de la entrada para, seguidamente, tratar los fenómenos de escritura no estándar específicos de dicho idioma presentes en la entrada. Para ello se aplicarán técnicas de normalización del texto y (re-)segmentación de palabras. En segundo lugar, analizamos las limitaciones inherentes a este tipo de modelos discretos, lo cual nos conduce a un enfoque centrado en el empleo de modelos continuos basados en word embeddings (i.e., representaciones vectoriales). En este caso, el preprocesamiento expíıcito de la entrada es sustituido por la codificación de las características lingüísticas y demás matices propios de los textos no estándar en el propio espacio de embedding (un espacio vectorial). Nuestro objetivo es obtener modelos continuos que no sólo superen las limitaciones de los modelos discretos, sino que también se alineen con el estado del arte actual del Procesamiento de Lenguaje Natural (PLN), dominado por sistemas basados en redes neuronales. Los resultados obtenidos después de una extensa experimentación muestran la capacidad de las word embeddings para dar un soporte efectivo por sí mismas a los fenómenos multilingües y no estándar propios de los textos generados por usuarios. Además, todo esto se logra dentro de un marco conceptual simple y modular que no necesita sacrificar la integración de sistemas. Dichos modelos de word embeddings pueden emplearse fácilmente como un elemento fundamental en redes neuronales de última generación que, a su vez, son utilizadas en prácticamente cualquier tarea de PLN. ; [Resumo] Nesta tese estudamos dous enfoques para abordar os desafíos que presenta o procesamento de contidos textuais non estándar e multilingües xerado polos usuarios do tipo que se atopar na Web a día de hoxe. En primeiro lugar, presentamos un enfoque tradicional baseado en pipelines discretos nos que preprocesamos o texto de entrada para facilitar a seu posterior tratamento por outros sistemas. Isto implica abordar o problema do multilingüismo, primeiro, identificando a lingua de entrada para, seguidamente, tratar o resto dos fenómenos de escritura non estándar específicos da lingua involucrados mediante técnicas de normalización do texto e (re-)segmentación de palabras. En segundo lugar, analizamos as limitacións inherentes a este tipo de modelos discretos, o cal nos leva a un enfoque centrado no emprego de modelos continuos baseados en word embeddings (i.e., representacións vectoriais). Neste caso, o preprocesamento explícito da entrada substitúese pola codificación das características lingüísticas e demais matices propios dos textos non estándar no espazo de embedding mesmo (un espazo vectorial). O noso obxectivo é obter modelos continuos que non so superen as limitacións dos modelos discretos, senón que tamén se aliñen co estado da arte actual do Procesamento da Linguaxe Natural (PLN), dominado por sistemas baseados en redes neurais. Os resultados obtidos tras unha ampla experimentación amosan a capacidade das word embeddings para dar un soporte efectivo por si mesmas aos fenómenos multilingües e non estándar propios de textos xerados por usuarios. Ademais, todo isto acádase dentro dun marco conceptual simple e modular que non precisa sacrificar a integración de sistemas. Estes modelos de word embeddings poden empregarse facilmente como un elemento fundamental en redes neurais de ´ultima xeración que, á súa vez, utilízanse en practicamente calquera tarefa de PLN.
	Keyword: Ensamblado de palabras; Natural language processing; Procesamiento en lenguaje natural (Informática); Word segmentation
	URL: http://hdl.handle.net/2183/24535
	BASE
	Hide details

4	Statistical Learning in a Bilingual Environment ...
	Tsui, Sin Mei. - : Université d'Ottawa / University of Ottawa, 2018
	BASE
	Show details

5	Statistical Learning in a Bilingual Environment
	Tsui, Sin Mei. - : Université d'Ottawa / University of Ottawa, 2018
	BASE
	Show details

6	Crowdsourcing lexical semantic judgements from bilingual dictionary users
	Fothergill, Richard James. - 2017
	BASE
	Show details

7	Understanding Patterns in Infant-Directed Speech in Context: An Investigation of Statistical Cues to Word Boundaries
	Hartman, Rose. - : University of Oregon, 2017
	BASE
	Show details

8	Zeitungsarabisch
	Prokosch, Erich. - Graz : Treffpunkt Sprachen der Karl-Franzens-Univ., Forschungsbereich Plurilingualismus, 2015
	BLLDB
	UB Frankfurt Linguistik
	Show details

9	Methods for Text Segmentation from Scene Images
	Kumar, Deepak. - 2014
	BASE
	Show details

10	Word learning in the first year of life
	Saksida, Amanda. - : SISSA, 2014
	BASE
	Show details

11	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
	Trabelsi, Chiheb. - 2013
	BASE
	Show details

12	Analysis of language variation and word segmentation for a corpus of Vietnamese blogs ; a sociolinguistic approach
	Mello, Heather Lee. - : uga, 2013
	BASE
	Show details

13	Segmentation of vowel-initial words is facilitated by function words
	Kim, Yun Jung. - : eScholarship, University of California, 2012
	In: Kim, Yun Jung. (2012). Segmentation of vowel-initial words is facilitated by function words. UCLA: Linguistics 0510. Retrieved from: http://www.escholarship.org/uc/item/7v8573tk (2012)
	BASE
	Show details

14	Development of phonologically specified word forms
	Mulak, Karen E.. - 2012
	BASE
	Show details

15	Traduction statistique vers une langue à morphologie riche : combinaison d’algorithmes de segmentation morphologique et de modèles statistiques de traduction automatique
	Trabelsi, Chiheb. - 2012
	BASE
	Show details

16	Lexicon-Free Recognition Strategies For Online Handwritten Tamil Words
	Sundaram, Suresh. - 2011
	BASE
	Show details

17	Quantitative Anlaysis of Italian texts
	Popescu, Ioan-Iovitz; Altmann, Gabriel; Tuzzi, Arjuna. - Lüdenscheid : RAM-Verl., 2010
	BLLDB
	UB Frankfurt Linguistik
	Show details

18	Construction of a syntactic component based on tree adjoining grammars for Vietnamese ; Elaboration d'un composant syntaxique à base de grammaires d'arbres adjoints pour le vietnamien
	Le-Hong, Phuong. - : HAL CCSD, 2010
	In: https://tel.archives-ouvertes.fr/tel-00529657 ; Interface homme-machine [cs.HC]. Université Nancy II, 2010. Français (2010)
	BASE
	Show details

19	Aspects of cognitive ethnolinguistics
	Bartmiński, Jerzy. - London [u.a.] : Equinox, 2009
	BLLDB
	UB Frankfurt Linguistik
	Show details

20	Extending Phone Prediction Models of Word Segmentation to a More Realistic Representation of Prosody
	Pate, John. - : The Ohio State University, 2009
	BASE
	Show details

Page: 1 2

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern