61 |
An integrative platform to capture the orchestration of gesture and speech
|
|
|
|
In: GeSpIn 2019 - Gesture and Speech in Interaction ; https://hal.inria.fr/hal-02278345 ; GeSpIn 2019 - Gesture and Speech in Interaction, Sep 2019, Paderborn, Germany (2019)
|
|
BASE
|
|
Show details
|
|
62 |
MODALISA une plateforme intégrative pour capturer l’orchestration des gestes et de la parole
|
|
|
|
In: Défi Instrumentation aux Limites, Colloque de restitution ; https://hal.archives-ouvertes.fr/hal-02375011 ; Défi Instrumentation aux Limites, Colloque de restitution, CNRS, Sep 2019, Paris, France ; https://www.cnrs.fr/mi/spip.php?article1478 (2019)
|
|
BASE
|
|
Show details
|
|
63 |
Modeling Labial Coarticulation with Bidirectional Gated Recurrent Networks and Transfer Learning
|
|
|
|
In: INTERSPEECH 2019 - 20th Annual Conference of the International Speech Communication Association ; https://hal.inria.fr/hal-02175780 ; INTERSPEECH 2019 - 20th Annual Conference of the International Speech Communication Association, Sep 2019, Graz, Austria (2019)
|
|
BASE
|
|
Show details
|
|
64 |
Conditional Variational Auto-Encoder for Text-Driven Expressive AudioVisual Speech Synthesis
|
|
|
|
In: INTERSPEECH 2019 - 20th Annual Conference of the International Speech Communication Association ; https://hal.inria.fr/hal-02175776 ; INTERSPEECH 2019 - 20th Annual Conference of the International Speech Communication Association, Sep 2019, Graz, Austria (2019)
|
|
BASE
|
|
Show details
|
|
65 |
Proceedings of the 6th Gesture and Speech in Interaction Conference / An integrative platform to capture the orchestration of gesture and speech
|
|
|
|
BASE
|
|
Show details
|
|
66 |
Phoneme-to-Articulatory mapping using bidirectional gated RNN
|
|
|
|
In: Interspeech 2018 - 19th Annual Conference of the International Speech Communication Association ; https://hal.inria.fr/hal-01862587 ; Interspeech 2018 - 19th Annual Conference of the International Speech Communication Association, Sep 2018, Hyderabad, India (2018)
|
|
BASE
|
|
Show details
|
|
67 |
Dynamic Lip Animation from a Limited number of Control Points: Towards an Effective Audiovisual Spoken Communication
|
|
|
|
In: ISSN: 0167-6393 ; EISSN: 1872-7182 ; Speech Communication ; https://hal.inria.fr/hal-01631397 ; Speech Communication, Elsevier : North-Holland, 2018, 96, pp.49-57. ⟨10.1016/j.specom.2017.11.006⟩ (2018)
|
|
BASE
|
|
Show details
|
|
68 |
A French-Spanish Multimodal Speech Communication Corpus Incorporating Acoustic Data, Facial, Hands and Arms Gestures Information
|
|
|
|
In: Interspeech 2018 - 19th Annual Conference of the International Speech Communication Association ; https://hal.inria.fr/hal-01862585 ; Interspeech 2018 - 19th Annual Conference of the International Speech Communication Association, Sep 2018, Hyderabad, India (2018)
|
|
BASE
|
|
Show details
|
|
69 |
The proceedings of the 14th International Conference on Auditory-Visual Speech Processing
|
|
|
|
In: The 14th International Conference on Auditory-Visual Speech Processing (AVSP2017) ; https://hal.inria.fr/hal-01596625 ; The 14th International Conference on Auditory-Visual Speech Processing (AVSP2017), Aug 2017, Stockholm, Sweden. 2017 ; http://avsp2017.loria.fr (2017)
|
|
BASE
|
|
Show details
|
|
70 |
Using deep neural networks to estimate tongue movements from speech face motion
|
|
|
|
BASE
|
|
Show details
|
|
71 |
Acoustic and Visual Analysis of Expressive Speech: A Case Study of French Acted Speech
|
|
|
|
In: Interspeech 2016 ; https://hal.inria.fr/hal-01398528 ; Interspeech 2016, ISCA, Nov 2016, San Francisco, United States. pp.580 - 584, ⟨10.21437/Interspeech.2016-730⟩ ; http://www.interspeech2016.org (2016)
|
|
BASE
|
|
Show details
|
|
72 |
Is markerless acquisition of speech production accurate ?
|
|
|
|
In: ISSN: 0001-4966 ; EISSN: 1520-8524 ; Journal of the Acoustical Society of America ; https://hal.inria.fr/hal-01315579 ; Journal of the Acoustical Society of America, Acoustical Society of America, 2016, EL234, 139 (6), ⟨10.1121/1.4954497⟩ ; http://scitation.aip.org/content/asa/journal/jasael (2016)
|
|
BASE
|
|
Show details
|
|
74 |
Tongue control and its implication in pronunciation training
|
|
|
|
In: ISSN: 0958-8221 ; Computer Assisted Language Learning ; https://hal.inria.fr/hal-00834554 ; Computer Assisted Language Learning, Taylor & Francis (Routledge), 2014, 27 (5), pp.439-453. ⟨10.1080/09588221.2012.761637⟩ (2014)
|
|
BASE
|
|
Show details
|
|
75 |
Investigating the effects of posture and noise on speech production
|
|
|
|
In: 10th International Seminar on Speech Production (ISSP) ; https://hal.archives-ouvertes.fr/hal-01086066 ; 10th International Seminar on Speech Production (ISSP), Susanne Fuchs, Martine Grice, Anne Hermes, Leonardo Lancia, Doris Mücke, May 2014, Cologne, Germany (2014)
|
|
BASE
|
|
Show details
|
|
76 |
3D Visual Speech Animation from Image Sequences
|
|
|
|
In: Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP) ; https://hal.archives-ouvertes.fr/hal-01086073 ; Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP), Dec 2014, Bangalore, India (2014)
|
|
BASE
|
|
Show details
|
|
77 |
Acoustic-visual synthesis technique using bimodal unit-selection
|
|
|
|
In: ISSN: 1687-4714 ; EISSN: 1687-4722 ; EURASIP Journal on Audio, Speech, and Music Processing ; https://hal.inria.fr/hal-00835854 ; EURASIP Journal on Audio, Speech, and Music Processing, SpringerOpen, 2013, ⟨10.1186/1687-4722-2013-16⟩ ; http://asmp.eurasipjournals.com/content/2013/1/16 (2013)
|
|
BASE
|
|
Show details
|
|
78 |
Automatic Feature Selection for Acoustic-Visual Concatenative Speech Synthesis: Towards a Perceptual Objective Measure
|
|
|
|
In: AVSP - Audio Visual Speech Processing ; https://hal.inria.fr/hal-00925115 ; AVSP - Audio Visual Speech Processing, Sep 2013, Annecy, France (2013)
|
|
BASE
|
|
Show details
|
|
79 |
Multimodal Speech: from articulatory speech to audiovisual speech ; Parole Multimodale : de la parole articulatoire à la parole audiovisuelle
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-00927119 ; Machine Learning [cs.LG]. Université de Lorraine, 2013 (2013)
|
|
Abstract:
La communication parlée est par essence multimodale. Le signal acoustique véhicule la modalité auditive, et l'image la modalité visuelle et gestuelle (déformations du visage). Le signal de parole est en effet la conséquence des déformations du conduit vocal sous l'effet du mouvement de la mâchoire, des lèvres, de la langue, etc. pour moduler le signal d'excitation produit par les cordes vocales ou les turbulences aérodynamiques. Ces déformations sont visibles au niveau du visage (lèvres, joues, mâchoire) grâce à la coordination des différents muscles orofaciaux et de la déformation de la peau induite par ces derniers. La modalité visuelle permet de fournir des informations complémentaires au signal acoustique, et elle devient indispensable dans le cas où le signal acoustique est dégradé, comme c'est le cas chez les malentendants, ou en milieu bruité. D'autres modalités peuvent être liées à la parole, comme les mouvements des sourcils et les différents gestes qui expriment l'émotion. Cette dernière modalité suprasegmentale peut, comme la modalité visuelle, compléter le message acoustique ou acoustique-visuel. Cet exposé présentera les travaux que je mène sur la parole multimodale. Ce caractère multimodal de la communication parlée est traité de deux façons différentes : (1) étudier les deux composantes articulatoire et acoustique de la parole. En effet, je m'intéresse à la caractérisation articulatoire des sons et à l'étude du lien entre l'espace articulatoire et l'espace acoustique. En particulier, je m'intéresse à la récupération de l'évolution temporelle du conduit vocal à partir du signal acoustique (aussi appelée inversion acoustique-articulatoire) et à l'étude de la caractérisation articulatoire de la parole par l'analyse de corpus de données articulatoires. (2) étudier les deux composantes acoustique et visuelle. Dans ce cadre, je m'intéresse à l'effet de la déformation du conduit vocal sur l'apparence du visage qui véhicule le message visuel. La synthèse acoustique-visuelle est un cadre qui permet d'étudier cet aspect. De plus, l'étude de l'intelligibilité audiovisuelle permet de mieux comprendre les mécanismes de la communication audiovisuelle, mais également d'évaluer le système de synthèse acoustique-visuelle. Enfin, je présenterai mon programme de recherche qui porte sur la parole multimodale expressive que je propose d'étudier globalement, c.-à-d. en considérant les composantes articulaire, acoustique et visuelle ainsi que l'expressivité intrinsèque de celles-ci, simultanément. Je propose en particulier d'aborder la modélisation de la dynamique articulatoire et faciale de la parole pour produire de la parole combinée avec les expressions faciales.
|
|
Keyword:
[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]; [INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing; [SCCO.COMP]Cognitive science/Computer science; [SHS.LANGUE]Humanities and Social Sciences/Linguistics; [SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing; acoustic; acoustic articulatory inversion; acoustique; articulatoire; Audiovisual speech synthesis; inversion acoustique articulatoire; Parole; production de la parole; Speech; speech production; synthèse de la parole audiovisuelle
|
|
URL: https://tel.archives-ouvertes.fr/tel-00927119/file/hdr-slim-29-11-2013.pdf https://tel.archives-ouvertes.fr/tel-00927119 https://tel.archives-ouvertes.fr/tel-00927119/document
|
|
BASE
|
|
Hide details
|
|
80 |
Speech animation using electromagnetic articulography as motion capture data
|
|
|
|
In: AVSP - 12th International Conference on Auditory-Visual Speech Processing - 2013 ; https://hal.inria.fr/hal-00835856 ; AVSP - 12th International Conference on Auditory-Visual Speech Processing - 2013, Aug 2013, Annecy, France. pp.55-60 (2013)
|
|
BASE
|
|
Show details
|
|
|
|