Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Page: 1 2 3 4 5 6 7...114

Hits 41 – 60 of 2.272

41	Voice Conversion Challenge 2020 Listening Test Data ...
	Yi, Zhao; Wen-Chin Huang; Xiaohai Tian. - : Zenodo, 2021
	BASE
	Show details

42	An Experimental Approach to the Perception of Empathy in Speech ...
	McHugh, Amanda. - : Zenodo, 2021
	BASE
	Show details

43	Ressources for End-to-End French Text-to-Speech Blizzard challenge ...
	Bailly, Gérard; Perrotin, Olivier; Lenglet, Martin. - : Zenodo, 2021
	BASE
	Show details

44	Ressources for End-to-End French Text-to-Speech Blizzard challenge ...
	Bailly, Gérard; Perrotin, Olivier; Lenglet, Martin. - : Zenodo, 2021
	BASE
	Show details

45	An Experimental Approach to the Perception of Empathy in Speech ...
	McHugh, Amanda. - : Zenodo, 2021
	BASE
	Show details

46	Generative Adversarial Networks for Cross-Lingual Voice Conversion
	Ankaräng, Fredrik. - : KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021
	Abstract: Speech synthesis is a technology that increasingly influences our daily lives, in the form of smart assistants, advanced translation systems and similar applications. In this thesis, the phenomenon of making one’s voice sound like the voice of someone else is explored. This topic is called voice conversion and needs to be done without altering the linguistic content of speech. More specifically, a Cycle-Consistent Adversarial Network that has proven to work well in a monolingual setting, is evaluated in a multilingual environment. The model is trained to convert voices between native speakers from the Nordic countries. In the experiments no parallel, transcribed or aligned speech data is being used, forcing the model to focus on the raw audio signal. The goal of the thesis is to evaluate if performance is degraded in a multilingual environment, in comparison to monolingual voice conversion, and to measure the impact of the potential performance drop. In the study, performance is measured in terms of naturalness and speaker similarity between the generated speech and the target voice. For evaluation, listening tests are conducted, as well as objective comparisons of the synthesized speech. The results show that voice conversion between a Swedish and Norwegian speaker is possible and also that it can be performed without performance degradation in comparison to Swedish-to-Swedish conversion. Furthermore, conversion between Finnish and Swedish speakers, as well as Danish and Swedish speakers show a performance drop for the generated speech. However, despite the performance decrease, the model produces fluent and clearly articulated converted speech in all experiments. These results are noteworthy, especially since the network is trained on less than 15 minutes of nonparallel speaker data for each speaker. This thesis opens up for further areas of research, for instance investigating more languages, more recent Generative Adversarial Network architectures and devoting more resources to tweaking the hyperparameters to further optimize the model for multilingual voice conversion. ; Talsyntes är ett område som allt mer influerar vår vardag, exempelvis genom smarta assistenter, avancerade översättningssystem och liknande användningsområden. I det här examensarbetet utforskas fenomenet röstkonvertering, som innebär att man får en talare att låta som någon annan, utan att det som sades förändras. Mer specifikt undersöks ett Cycle-Consistent Adversarial Network som fungerat väl för röstkonvertering inom ett enskilt språk för röstkonvertering mellan olika språk. Det neurala nätverket tränas för konvertering mellan röster från olika modersmålstalare från de nordiska länderna. I experimenten används ingen parallell eller transkriberad data, vilket tvingar modellen att endast använda sig av ljudsignalen. Målet med examensarbetet är att utvärdera om modellens prestanda försämras i en flerspråkig kontext, jämfört med en enkelspråkig sådan, samt mäta hur stor försämringen i sådant fall är. I studien mäts prestanda i termer av kvalitet och talarlikhet för det genererade talet och rösten som efterliknas. För att utvärdera detta genomförs lyssningstester, samt objektiva analyser av det genererade talet. Resultaten visar att röstkonvertering mellan en svensk och norsk talare är möjlig utan att modellens prestanda försämras, jämfört med konvertering mellan svenska talare. För konvertering mellan finska och svenska talare, samt danska och svenska talare försämrades däremot kvaliteten av det genererade talet. Trots denna försämring producerade modellen tydligt och sammanhängande tal i samtliga experiment. Det här är anmärkningsvärt eftersom modellen tränades på mindre än 15 minuter icke-parallel data för varje talare. Detta examensarbete öppnar upp för nya framtida studier, exempelvis skulle fler språk kunna inkluderas eller nyare varianter av typen Generative Adversarial Network utvärderas. Mer resurser skulle även kunna läggas på att optimera hyperparametrarna för att ytterligare optimera den undersökta modellen för flerspråkig röstkonvertering.
	Keyword: Computer and Information Sciences; Cross-Lingual Voice Conversion; CycleGAN; Data- och informationsvetenskap; Generative Adversarial Network; Machine Learning; Speech Synthesis
	URL: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-299560
	BASE
	Hide details

47	Sequence-to-Sequence Acoustic Modeling with Semi-Stepwise Monotonic Attention for Speech Synthesis
	Xiao Zhou; Zhenhua Ling; Yajun Hu...
	In: Applied Sciences ; Volume 11 ; Issue 21 (2021)
	BASE
	Show details

48	Acoustic Word Embeddings for End-to-End Speech Synthesis
	Feiyu Shen; Chenpeng Du; Kai Yu
	In: Applied Sciences ; Volume 11 ; Issue 19 (2021)
	BASE
	Show details

49	Challenges to Internationalisation of University Programmes: A Systematic Thematic Synthesis of Qualitative Research on Learner-Centred English Medium Instruction (EMI) Pedagogy
	Murod Ismailov; Thomas K. F. Chiu; Julie Dearden...
	In: Sustainability ; Volume 13 ; Issue 22 (2021)
	BASE
	Show details

50	Discriminative Multi-Stream Postfilters Based on Deep Learning for Enhancing Statistical Parametric Speech Synthesis
	Marvin Coto-Jiménez
	In: Biomimetics ; Volume 6 ; Issue 1 (2021)
	BASE
	Show details

51	Korean Prosody Phrase Boundary Prediction Model for Speech Synthesis Service in Smart Healthcare
	Minho Kim; Youngim Jung; Hyuk-Chul Kwon
	In: Electronics ; Volume 10 ; Issue 19 (2021)
	BASE
	Show details

52	Integrating a voice analysis-synthesis system with a TTS framework for controlling affect and speaker identity ; 2021 32nd Irish Signals and Systems Conference (ISSC)
	Yanushevskaya, Irena; Gobl, Christer; Ni Chasaide, Ailbhe. - 2021
	BASE
	Show details

53	Intercultural competence in teacher preparation programs in the United States and Canada: A meta-synthesis study
	Silva-Enos, Sandra
	In: University of South Florida M3 Center Publishing (2021)
	BASE
	Show details

54	Acoustic analysis and measurements of distorted speech in the NZ population
	Erfanian Sabaee, Maryam; Sharifzadeh, Hamid; Ardekani, Iman. - 2021
	BASE
	Show details

55	Acoustic analysis and measurements of distorted speech in the NZ population
	Erfanian Sabaee, Maryam; Sharifzadeh, Hamid; Ardekani, Iman. - 2021
	BASE
	Show details

56	Acoustic analysis and measurements of distorted speech in the NZ population
	Erfanian Sabaee, Maryam; Sharifzadeh, Hamid; Ardekani, Iman. - 2021
	BASE
	Show details

57	“Song-advantage” or “Cost of Singing”? : A Research Synthesis of Classroom-based Intervention Studies Applying Lyrics-based Language Teaching (1972–2019)
	Werner, Valentin. - : Otto-Friedrich-Universität, 2021. : Bamberg, 2021
	BASE
	Show details

58	“Song-advantage” or “Cost of Singing”? A Research Synthesis of Classroom-based Intervention Studies Applying Lyrics-based Language Teaching (1972–2019)
	Werner, Valentin. - : University of Central Lancashire, 2021. : Preston, 2021
	BASE
	Show details

59	Thirty years of data-driven learning: Taking stock and charting new directions over time
	Boulton, Alex; Vyatkina, Nina. - : University of Hawaii National Foreign Language Resource Center, 2021. : Center for Language & Technology, 2021. : (co-sponsored by Center for Open Educational Resources and Language Learning, University of Texas at Austin), 2021
	BASE
	Show details

60	CONTINUOUS AMERICAN SIGN LANGUAGE TRANSLATION WITH ENGLISH SPEECH SYNTHESIS USING ENCODER-DECODER APPROACH
	Ganesh, Preetham. - 2021
	BASE
	Show details

Page: 1 2 3 4 5 6 7...114

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern