Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Page: 1 2

Hits 1 – 20 of 23

1	Big Data analytics to assess personality based on voice analysis
	Morales Ramírez, Rodrigo. - 2022
	BASE
	Show details

2	Reconocimiento de voz basado en características DNN Bottleneck
	Martín Calle, Irene. - 2019
	Abstract: Máster en Ingeniería de Telecomunicación ; En este Trabajo Fin de Master se ha llevado a cabo el desarrollo e implementación de un sistema de reconocimiento automático de voz (Automatic Speech Recognition, ASR) que obtiene de forma automática la transcripción de un segmento de voz determinado. La base de datos empleada para el entrenamiento y la evaluación del sistema es Switchboard-1 Release 2, que pertenece al Consorcio de Datos Lingüísticos (Linguistic Data Consortium, LDC). Por un lado, se ha entrenado un sistema ASR de referencia basado en HMMs (Hidden Markov Models, HMM) utilizando las características acústicas MFCC (Mel Frequency Cepstral Coefficients) con la herramienta Kaldi. Dicha herramienta es una de las más populares en ASR para desarrollar reconocedores de voz y es ampliamente utilizada en el sector industrial y en investigación. Se han entrenado modelos basados en monofonemas ( + ), trifonemas ( + ), LDA + MLLT, SAT, MMI y fMMI además de utilizar un sistema híbrido HMM-DNN, que es una de las técnicas en el estado del arte en reconocimiento del habla. En procesamiento de voz, las Redes Neuronales Profundas (Deep Neural Network, DNN) han mostrado ser capaces de aprender de forma automática una representación de la información contenida en la voz. En este trabajo se representa mediante las características Bottleneck que se utilizan para el entrenamiento del mismo sistema base, extraídas de una DNN implementada en Keras (librería de Python) con la finalidad de reemplazar a las tradicionales características de los enfoques convencionales como los MFCCs. Keras es una de las librerías más poderosas actualmente para evaluar y desarrollar modelos de aprendizaje profundo. Para evaluar el rendimiento del sistema, se han realizado distintos experimentos cuyos resultados y conclusiones inferidas se reflejan en este trabajo. Se han analizado los resultados obtenidos del sistema basado en características MFCCs y del sistema basado en características Bottleneck. Distintas técnicas como transformaciones del espacio de características o adaptación al locutor han permitido mejorar el rendimiento del sistema inicial, siendo la técnica MMI la que proporciona mejores tasas de error de palabra (WER). Además, el sistema híbrido HMM-DNN, que reemplaza los GMMs en los sistemas tradicionales para el cálculo de los alineamientos, ha permitido mejorar los resultados iniciales aún más. En este escenario experimental, el estudio muestra que las características Bottleneck permiten un rendimiento tan bueno como los MFCCs originales pero no se obtiene una mejora significativa en las tasas de reconocimiento con respecto al sistema basado en MFCCs.
	Keyword: Bottleneck; Reconocimiento Automático de Voz; Redes Neuronales Profundas; Telecomunicaciones
	URL: http://hdl.handle.net/10486/688634
	BASE
	Hide details

3	Implementación y evaluación de un sistema QbE-STD (Query-by-Example Spoken Term Detection)
	Cabello Aguilar, María. - 2018
	BASE
	Show details

4	An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
	Lozano-Diez, Alicia; Zazo, Rubén; Toledano, Doroteo T.. - : Public Library of Science, 2018
	BASE
	Show details

5	ALBAYZIN Query-by-example Spoken Term Detection 2016 evaluation
	García-Granada, Fernando; Perdigão, Fernando; Docio-Fernandez, Laura. - : Springer (Biomed Central Ltd.), 2018
	BASE
	Show details

6	An end-to-end approach to language identification in short utterances using convolutional neural networks
	Lozano-Díez, Alicia; Zazo Candil, Rubén; González Domínguez, Javier. - : International Speech and Communication Association, 2016
	BASE
	Show details

7	Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
	Gonzalez-Rodriguez, Joaquin; Rose, Philip; Ramos, Daniel...
	In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
	BASE
	Show details

8	Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
	Gonzalez-Rodriguez, Joaquin; Rose, Philip; Ramos, Daniel...
	In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
	BASE
	Show details

9	Speech Signal and Facial Image Processing for Obstructive Sleep Apnea Assessment
	Espinoza-Cuadros, Fernando; Fernández-Pozo, Rubén; Toledano, Doroteo T.. - : Hindawi Publishing Corporation, 2015
	BASE
	Show details

10	Acoustic-phonetic decoding of different types of spontaneous speech in Spanish
	Toledano, Doroteo T.; Moreno Sandoval, Antonio; Colás, José. - : ISCA, 2015
	BASE
	Show details

11	Severe apnoea detection using speaker recognition techniques
	Fernández Pozo, Rubén; Blanco, José Luis; Hernández, Luis Alberto. - : Institute for Systems and Technologies of Information, Control and Communication, 2015
	BASE
	Show details

12	Using data-driven and phonetic units for speaker verification
	El Hannani, Asmaa; Toledano, Doroteo T.; Petrovska-Delacrétaz, Dijana. - : IEEE, 2015
	BASE
	Show details

13	Multivariate cepstral feature compensation on band-limited data for robust speech recognition
	Morales Mombiela, Nicolás; Toledano, Doroteo T.; Hansen, John H. L.. - : University of Tartu, 2015
	BASE
	Show details

14	Acoustic Event Recognition for Low Cost Language Identification
	Spada, Danilo; López Moreno, Ignacio; Toledano, Doroteo T.. - : Universidad del País Vasco, 2015
	BASE
	Show details

15	On the relationship between phonetic modeling precision and phonetic speaker recognition accuracy
	Toledano, Doroteo T.; Fombella Mourelle, Carlos; González-Rodríguez, Joaquín. - : International Speech Communication Association, 2015
	BASE
	Show details

16	Inventario de frecuencias fonémicas y silábicas del castellano espontáneo y escrito
	Moreno Sandoval, Antonio; Toledano, Doroteo T.; Curto, Natalia. - 2015
	BASE
	Show details

17	Improved language recognition using better phonetic decoders and fusion with MFCC and SDC features
	Toledano, Doroteo T.; González Domínguez, Javier; Abejón González, Alejandro. - : International Speech Communication Association, 2015
	BASE
	Show details

18	Analysis of voice features related to obstructive sleep apnoea and their application in diagnosis support
	Montero Benavides, Ana; Fernández Pozo, Rubén; Toledano, Doroteo T....
	In: Computer speech and language. - Amsterdam [u.a.] : Elsevier 28 (2014) 2, 434-452
	OLC Linguistik
	Show details

19	Feature analysis for discriminative confidence estimation in spoken term detection
	Tejedor Noguerales, Javier; Toledano, Doroteo T.; Wang, Dong. - : Elsevier B.V., 2014
	BASE
	Show details

20	Assessment of severe apnoea through voice analysis, automatic speech, and speaker recognition techniques
	Fernández Pozo, Rubén; Blanco, José Luis; Hernández Gómez, Luis. - : SpringerOpen Journal, 2014
	BASE
	Show details

Page: 1 2

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern