Home Catalogue search

eng

Refine your search:

Search in the Catalogues and Directories






	Sort by
Simple Search

Hits 1 – 11 of 11

1	Convolutional Neural Network-Based Age Estimation Using B-Mode Ultrasound Tongue Image ...
	Xu, Kele; Csapó, Tamas Gábor; Feng, Ming. - : arXiv, 2021
	BASE
	Show details

2	Quantification of Transducer Misalignment in Ultrasound Tongue Imaging ...
	Csapó, Tamás Gábor; Xu, Kele. - : arXiv, 2020
	BASE
	Show details

3	Predicting tongue motion in unlabeled ultrasound videos using convolutional LSTM neural network ...
	Zhao, Chaojie; Zhang, Peng; Zhu, Jian. - : arXiv, 2019
	BASE
	Show details

4	An Articulatory-Based Singing Voice Synthesis Using Tongue and Lips Imaging
	Jaumard-Hakoun, Aurore; Xu, Kele; Leboullenger, Clémence...
	In: Interspeech 2016 ; ISCA Interspeech 2016 ; https://hal.archives-ouvertes.fr/hal-01529630 ; ISCA Interspeech 2016, Sep 2016, San Francisco, United States. pp.1467 - 1471, ⟨10.21437/Interspeech.2016-385⟩ (2016)
	BASE
	Show details

5	3D tongue motion visualization based on the B-mode ultrasound tongue images ; Visualisation tridimensionnelle de la langue basée sur des séquences d'image échographique en mode-B
	Xu, Kele. - : HAL CCSD, 2016
	In: https://tel.archives-ouvertes.fr/tel-01529771 ; Computer Aided Engineering. Université Pierre et Marie Curie - Paris VI, 2016. English. ⟨NNT : 2016PA066498⟩ (2016)
	Abstract: A silent speech interface (SSI) is a system to enable speech communication with non-audible signal, that employs sensors to capture non-acoustic features for speech recognition and synthesis. Extracting robust articulatory features from such signals, however, remains a challenge. As the tongue is a major component of the vocal tract, and the most important articulator during speech production, a realistic simulation of tongue motion in 3D can provide a direct, effective visual representation of speech production. This representation could in turn be used to improve the performance of speech recognition of an SSI, or serve as a tool for speech production research and the study of articulation disorders. In this thesis, we explore a novel 3D tongue visualization framework, which combines the 2D ultrasound imaging and 3D physics-based modeling technique. Firstly, different approaches are employed to follow the motion of the tongue in the ultrasound image sequences, which can be divided into two main types of methods: speckle tracking and contour tracking. The methods to track speckles include deformation registration, optical-flow, and local invariant features-based method. Moreover, an image-based tracking re-initialization method is proposed to improve the robustness of speckle tracking. Compared to speckle tracking, the extraction of the contour of the tongue surface from ultrasound images exhibits superior performance and robustness. In this thesis, a novel contour-tracking algorithm is presented for ultrasound tongue image sequences, which can follow the motion of tongue contours over long durations with good robustness. To cope with missing segments caused by noise, or by the tongue midsagittal surface being parallel to the direction of ultrasound wave propagation, active contours with a contour-similarity constraint are introduced, which can be used to provide “prior” shape information. Experiments on synthetic data and on real 60 frame per second data from different subjects demonstrate that the proposed method gives good contour tracking for ultrasound image sequences even over durations of minutes, which can be useful in applications such as speech recognition where very long sequences must be analyzed in their entirety… ; Une interface vocale silencieuse (SSI) est un système permettant une communication vocale à partir d’un signal non audible. Un tel système emploie des capteurs qui enregistrent des données non-acoustiques, pour la reconnaissance et la synthèse vocales. Cependant, l’extraction des caractéristiques articulatoires robustes à partir de ces signaux reste un défi. La langue est une composante majeure de l'appareil vocal, et l'articulateur le plus important dans la production de parole. Une simulation réaliste du mouvement de la langue en 3D peut fournir une représentation visuelle directe et efficace de la production de parole. Cette représentation pourrait à son tour être utilisée pour améliorer les performances de reconnaissance vocale d'un SSI, ou servir d'outil dans le cadre de recherches sur la production de parole et de l'étude des troubles de l'articulation. Dans cette thèse, nous explorons un nouveau cadre de visualisation en trois dimensions de la langue, qui combine l'imagerie échographique 2D et une technique de modélisation tridimensionnelle fondée sur la physique. Tout d'abord, différentes approches sont utilisées pour suivre le mouvement de la langue dans les séquences d'images échographiques, qui peuvent être regroupées en deux principaux types de méthodes : le suivi de la granularité et le suivi de contour. Les méthodes de suivi du chatoiement (speckle tracking) comprennent le recalage de déformations (deformation registration), le flux optique, et la méthode de transformation de caractéristiques visuelles invariante à l'échelle (Scale-invariant feature transform, ou SIFT). En outre, une méthode de suivi réinitialisation basée sur l'image est proposée afin d'améliorer la robustesse du suivi du chatoiement. En comparaison avec le suivi de chatoiement, l'extraction du contour de la surface de la langue à partir d'images échographiques présente des performances supérieures et une meilleure robustesse. Dans cette thèse, un nouvel algorithme de suivi de contour est présenté pour des séquences d'images échographiques de la langue. Cet algorithme permet de suivre le mouvement des contours de la langue sur de longues durées avec une bonne robustesse. Pour résoudre la difficulté causée par les segments manquants dus au bruit ou celle causée par la surface mi-sagittale de la langue qui est parallèle à la direction de propagation de l'onde ultrasonore, nous proposons d’utiliser des contours actifs avec une contrainte de similitude de contour, qui fournissent des informations a priori sur la forme de la langue. Des expériences sur des données synthétiques et sur des images réelles acquises sur différents sujets à la cadence de 60 images par seconde montrent que la méthode proposée donne un bon contour de suivi pour ultrasons des séquences d'images, même sur des durées de quelques minutes. Cette technique peut par conséquent être utile dans des applications telles que la reconnaissance vocale où de très longues séquences doivent être analysées dans leur intégralité…
	Keyword: 3D tongue motion visualization; [INFO.INFO-IA]Computer Science [cs]/Computer Aided Engineering; B-mode ultrasound image sequences; Interface vocale silencieuse; Langue; Mode-B; Séquences d'image échographique; Speckle tracking; Suivi du chatoiement; Visualisation tridimensionnelle
	URL: https://tel.archives-ouvertes.fr/tel-01529771/document https://tel.archives-ouvertes.fr/tel-01529771 https://tel.archives-ouvertes.fr/tel-01529771/file/2016PA066498.pdf
	BASE
	Hide details

6	Contour-based 3d tongue motion visualization using ultrasound image sequences ...
	Xu, Kele; Yang, Yin; Leboullenger, Clémence. - : arXiv, 2016
	BASE
	Show details

7	Development of a 3D tongue motion visualization platform based on ultrasound image sequences ...
	Xu, Kele; Yang, Yin; Jaumard-Hakoun, Aurore. - : arXiv, 2016
	BASE
	Show details

8	Tongue contour extraction from ultrasound images based on deep neural network ...
	Jaumard-Hakoun, Aurore; Xu, Kele; Roussel-Ragot, Pierre. - : arXiv, 2016
	BASE
	Show details

9	Acoustic Data Analysis from Multi-Sensor Capture in Rare Singing ; Acoustic Data Analysis from Multi-Sensor Capture in Rare Singing: Cantu in Paghjella Case Study
	Crevier-Buchman, Lise; Amelot, Angelique; Al Kork, Samer K....
	In: ISSN: 2047-4970 ; EISSN: 2047-4989 ; International Journal of Heritage in the Digital Era ; https://halshs.archives-ouvertes.fr/halshs-01251181 ; International Journal of Heritage in the Digital Era, SAGE Journals, 2015, 4 (1), pp.121-132 ⟨10.1260/2047-4970.4.1.121⟩ (2015)
	BASE
	Show details

10	3D Tongue motion visualization based on ultrasound image sequences
	Xu, Kele; Yang, Yin; Jaumard-Hakoun, Aurore...
	In: Interspeech 2014 ; https://halshs.archives-ouvertes.fr/halshs-01404834 ; Interspeech 2014, Sep 2014, Singapour, Singapore (2014)
	BASE
	Show details

11	Acoustic Data Analysis from Multi-Sensor Capture in Rare Singing: Cantu in Paghjella Case Study
	Crevier-Buchman, Lise; Fux, Thibaut; Amelot, Angelique...
	In: in Proc. 1st Workshop on ICT for the Preservation and Transmission of Intangible Cultural Heritage, International Euro-Mediterranean Conference on Cultural Heritage (Euromed2014) ; https://halshs.archives-ouvertes.fr/halshs-01130325 ; in Proc. 1st Workshop on ICT for the Preservation and Transmission of Intangible Cultural Heritage, International Euro-Mediterranean Conference on Cultural Heritage (Euromed2014), Nov 2014, Lemessos, Cyprus (2014)
	BASE
	Show details

© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern