DE eng

Search in the Catalogues and Directories

Page: 1 2
Hits 1 – 20 of 23

1
Big Data analytics to assess personality based on voice analysis
BASE
Show details
2
Reconocimiento de voz basado en características DNN Bottleneck
Abstract: Máster en Ingeniería de Telecomunicación ; En este Trabajo Fin de Master se ha llevado a cabo el desarrollo e implementación de un sistema de reconocimiento automático de voz (Automatic Speech Recognition, ASR) que obtiene de forma automática la transcripción de un segmento de voz determinado. La base de datos empleada para el entrenamiento y la evaluación del sistema es Switchboard-1 Release 2, que pertenece al Consorcio de Datos Lingüísticos (Linguistic Data Consortium, LDC). Por un lado, se ha entrenado un sistema ASR de referencia basado en HMMs (Hidden Markov Models, HMM) utilizando las características acústicas MFCC (Mel Frequency Cepstral Coefficients) con la herramienta Kaldi. Dicha herramienta es una de las más populares en ASR para desarrollar reconocedores de voz y es ampliamente utilizada en el sector industrial y en investigación. Se han entrenado modelos basados en monofonemas ( + ), trifonemas ( + ), LDA + MLLT, SAT, MMI y fMMI además de utilizar un sistema híbrido HMM-DNN, que es una de las técnicas en el estado del arte en reconocimiento del habla. En procesamiento de voz, las Redes Neuronales Profundas (Deep Neural Network, DNN) han mostrado ser capaces de aprender de forma automática una representación de la información contenida en la voz. En este trabajo se representa mediante las características Bottleneck que se utilizan para el entrenamiento del mismo sistema base, extraídas de una DNN implementada en Keras (librería de Python) con la finalidad de reemplazar a las tradicionales características de los enfoques convencionales como los MFCCs. Keras es una de las librerías más poderosas actualmente para evaluar y desarrollar modelos de aprendizaje profundo. Para evaluar el rendimiento del sistema, se han realizado distintos experimentos cuyos resultados y conclusiones inferidas se reflejan en este trabajo. Se han analizado los resultados obtenidos del sistema basado en características MFCCs y del sistema basado en características Bottleneck. Distintas técnicas como transformaciones del espacio de características o adaptación al locutor han permitido mejorar el rendimiento del sistema inicial, siendo la técnica MMI la que proporciona mejores tasas de error de palabra (WER). Además, el sistema híbrido HMM-DNN, que reemplaza los GMMs en los sistemas tradicionales para el cálculo de los alineamientos, ha permitido mejorar los resultados iniciales aún más. En este escenario experimental, el estudio muestra que las características Bottleneck permiten un rendimiento tan bueno como los MFCCs originales pero no se obtiene una mejora significativa en las tasas de reconocimiento con respecto al sistema basado en MFCCs.
Keyword: Bottleneck; Reconocimiento Automático de Voz; Redes Neuronales Profundas; Telecomunicaciones
URL: http://hdl.handle.net/10486/688634
BASE
Hide details
3
Implementación y evaluación de un sistema QbE-STD (Query-by-Example Spoken Term Detection)
BASE
Show details
4
An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
Lozano-Diez, Alicia; Zazo, Rubén; Toledano, Doroteo T.. - : Public Library of Science, 2018
BASE
Show details
5
ALBAYZIN Query-by-example Spoken Term Detection 2016 evaluation
García-Granada, Fernando; Perdigão, Fernando; Docio-Fernandez, Laura. - : Springer (Biomed Central Ltd.), 2018
BASE
Show details
6
An end-to-end approach to language identification in short utterances using convolutional neural networks
Lozano-Díez, Alicia; Zazo Candil, Rubén; González Domínguez, Javier. - : International Speech and Communication Association, 2016
BASE
Show details
7
Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
BASE
Show details
8
Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
BASE
Show details
9
Speech Signal and Facial Image Processing for Obstructive Sleep Apnea Assessment
Espinoza-Cuadros, Fernando; Fernández-Pozo, Rubén; Toledano, Doroteo T.. - : Hindawi Publishing Corporation, 2015
BASE
Show details
10
Acoustic-phonetic decoding of different types of spontaneous speech in Spanish
BASE
Show details
11
Severe apnoea detection using speaker recognition techniques
Fernández Pozo, Rubén; Blanco, José Luis; Hernández, Luis Alberto. - : Institute for Systems and Technologies of Information, Control and Communication, 2015
BASE
Show details
12
Using data-driven and phonetic units for speaker verification
BASE
Show details
13
Multivariate cepstral feature compensation on band-limited data for robust speech recognition
BASE
Show details
14
Acoustic Event Recognition for Low Cost Language Identification
Spada, Danilo; López Moreno, Ignacio; Toledano, Doroteo T.. - : Universidad del País Vasco, 2015
BASE
Show details
15
On the relationship between phonetic modeling precision and phonetic speaker recognition accuracy
Toledano, Doroteo T.; Fombella Mourelle, Carlos; González-Rodríguez, Joaquín. - : International Speech Communication Association, 2015
BASE
Show details
16
Inventario de frecuencias fonémicas y silábicas del castellano espontáneo y escrito
BASE
Show details
17
Improved language recognition using better phonetic decoders and fusion with MFCC and SDC features
Toledano, Doroteo T.; González Domínguez, Javier; Abejón González, Alejandro. - : International Speech Communication Association, 2015
BASE
Show details
18
Analysis of voice features related to obstructive sleep apnoea and their application in diagnosis support
In: Computer speech and language. - Amsterdam [u.a.] : Elsevier 28 (2014) 2, 434-452
OLC Linguistik
Show details
19
Feature analysis for discriminative confidence estimation in spoken term detection
BASE
Show details
20
Assessment of severe apnoea through voice analysis, automatic speech, and speaker recognition techniques
BASE
Show details

Page: 1 2

Catalogues
1
0
1
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
21
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern