1 |
Big Data analytics to assess personality based on voice analysis
|
|
|
|
BASE
|
|
Show details
|
|
2 |
Reconocimiento de voz basado en características DNN Bottleneck
|
|
|
|
Abstract:
Máster en Ingeniería de Telecomunicación ; En este Trabajo Fin de Master se ha llevado a cabo el desarrollo e implementación de un sistema de reconocimiento automático de voz (Automatic Speech Recognition, ASR) que obtiene de forma automática la transcripción de un segmento de voz determinado. La base de datos empleada para el entrenamiento y la evaluación del sistema es Switchboard-1 Release 2, que pertenece al Consorcio de Datos Lingüísticos (Linguistic Data Consortium, LDC). Por un lado, se ha entrenado un sistema ASR de referencia basado en HMMs (Hidden Markov Models, HMM) utilizando las características acústicas MFCC (Mel Frequency Cepstral Coefficients) con la herramienta Kaldi. Dicha herramienta es una de las más populares en ASR para desarrollar reconocedores de voz y es ampliamente utilizada en el sector industrial y en investigación. Se han entrenado modelos basados en monofonemas ( + ), trifonemas ( + ), LDA + MLLT, SAT, MMI y fMMI además de utilizar un sistema híbrido HMM-DNN, que es una de las técnicas en el estado del arte en reconocimiento del habla. En procesamiento de voz, las Redes Neuronales Profundas (Deep Neural Network, DNN) han mostrado ser capaces de aprender de forma automática una representación de la información contenida en la voz. En este trabajo se representa mediante las características Bottleneck que se utilizan para el entrenamiento del mismo sistema base, extraídas de una DNN implementada en Keras (librería de Python) con la finalidad de reemplazar a las tradicionales características de los enfoques convencionales como los MFCCs. Keras es una de las librerías más poderosas actualmente para evaluar y desarrollar modelos de aprendizaje profundo. Para evaluar el rendimiento del sistema, se han realizado distintos experimentos cuyos resultados y conclusiones inferidas se reflejan en este trabajo. Se han analizado los resultados obtenidos del sistema basado en características MFCCs y del sistema basado en características Bottleneck. Distintas técnicas como transformaciones del espacio de características o adaptación al locutor han permitido mejorar el rendimiento del sistema inicial, siendo la técnica MMI la que proporciona mejores tasas de error de palabra (WER). Además, el sistema híbrido HMM-DNN, que reemplaza los GMMs en los sistemas tradicionales para el cálculo de los alineamientos, ha permitido mejorar los resultados iniciales aún más. En este escenario experimental, el estudio muestra que las características Bottleneck permiten un rendimiento tan bueno como los MFCCs originales pero no se obtiene una mejora significativa en las tasas de reconocimiento con respecto al sistema basado en MFCCs.
|
|
Keyword:
Bottleneck; Reconocimiento Automático de Voz; Redes Neuronales Profundas; Telecomunicaciones
|
|
URL: http://hdl.handle.net/10486/688634
|
|
BASE
|
|
Hide details
|
|
3 |
Implementación y evaluación de un sistema QbE-STD (Query-by-Example Spoken Term Detection)
|
|
|
|
BASE
|
|
Show details
|
|
4 |
An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
|
|
|
|
BASE
|
|
Show details
|
|
5 |
ALBAYZIN Query-by-example Spoken Term Detection 2016 evaluation
|
|
|
|
BASE
|
|
Show details
|
|
6 |
An end-to-end approach to language identification in short utterances using convolutional neural networks
|
|
|
|
BASE
|
|
Show details
|
|
7 |
Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
|
|
|
|
In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
|
|
BASE
|
|
Show details
|
|
8 |
Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition
|
|
|
|
In: IEEE Transactions on Audio, Speech, and Language Processing (2015)
|
|
BASE
|
|
Show details
|
|
9 |
Speech Signal and Facial Image Processing for Obstructive Sleep Apnea Assessment
|
|
|
|
BASE
|
|
Show details
|
|
10 |
Acoustic-phonetic decoding of different types of spontaneous speech in Spanish
|
|
|
|
BASE
|
|
Show details
|
|
11 |
Severe apnoea detection using speaker recognition techniques
|
|
|
|
BASE
|
|
Show details
|
|
12 |
Using data-driven and phonetic units for speaker verification
|
|
|
|
BASE
|
|
Show details
|
|
13 |
Multivariate cepstral feature compensation on band-limited data for robust speech recognition
|
|
|
|
BASE
|
|
Show details
|
|
14 |
Acoustic Event Recognition for Low Cost Language Identification
|
|
|
|
BASE
|
|
Show details
|
|
15 |
On the relationship between phonetic modeling precision and phonetic speaker recognition accuracy
|
|
|
|
BASE
|
|
Show details
|
|
16 |
Inventario de frecuencias fonémicas y silábicas del castellano espontáneo y escrito
|
|
|
|
BASE
|
|
Show details
|
|
17 |
Improved language recognition using better phonetic decoders and fusion with MFCC and SDC features
|
|
|
|
BASE
|
|
Show details
|
|
19 |
Feature analysis for discriminative confidence estimation in spoken term detection
|
|
|
|
BASE
|
|
Show details
|
|
20 |
Assessment of severe apnoea through voice analysis, automatic speech, and speaker recognition techniques
|
|
|
|
BASE
|
|
Show details
|
|
|
|