1 |
Evolution of human computer interaction
|
|
|
|
In: Sci. Visualization ; Scientific Visualization (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Using Spoken Dialogue Technology for L2 Speaking Practice: What Do Teachers Think?
|
|
|
|
In: Applied Linguistics Faculty Publications and Presentations (2020)
|
|
BASE
|
|
Show details
|
|
3 |
Fourteen-channel EEG with Imagined Speech (FEIS) dataset ...
|
|
|
|
BASE
|
|
Show details
|
|
4 |
Fourteen-channel EEG with Imagined Speech (FEIS) dataset ...
|
|
|
|
BASE
|
|
Show details
|
|
5 |
Usability of Automatic Speech Recognition Systems for Individuals with Speech Disorders: Past, Present, Future, and A Proposed Model
|
|
|
|
BASE
|
|
Show details
|
|
6 |
New Directions in Treatments Targeting Stroke Recovery.
|
|
|
|
In: Stroke, vol 49, iss 12 (2018)
|
|
BASE
|
|
Show details
|
|
7 |
EXPLORING THE ACCESSIBILITY OF HOME-BASED, VOICE-CONTROLLED INTELLIGENT PERSONAL ASSISTANTS ...
|
|
Pradhan, Alisha. - : Digital Repository at the University of Maryland, 2018
|
|
BASE
|
|
Show details
|
|
8 |
Geração de prosódia para o português brasileiro em sistemas text-to-speech ; Prosody generation for Brazilian Portuguese in text-to-speech systems
|
|
Sá, Felipe Cortez de. - : Universidade Federal do Rio Grande do Norte, 2018. : Brasil, 2018. : UFRN, 2018. : Ciência da Computação, 2018
|
|
BASE
|
|
Show details
|
|
9 |
Speech Emotion Recognition using Convolutional Neural Networks
|
|
|
|
In: Computer Science and Engineering: Theses, Dissertations, and Student Research (2018)
|
|
BASE
|
|
Show details
|
|
10 |
EXPLORING THE ACCESSIBILITY OF HOME-BASED, VOICE-CONTROLLED INTELLIGENT PERSONAL ASSISTANTS
|
|
|
|
BASE
|
|
Show details
|
|
11 |
ENHANCING EXPRESSIVITY OF DOCUMENT-CENTERED COLLABORATION WITH MULTIMODAL ANNOTATIONS
|
|
|
|
BASE
|
|
Show details
|
|
12 |
Paralinguistic Speech Recognition: Classifying Emotion in Speech with Deep Learning Neural Networks
|
|
|
|
In: Senior Projects Spring 2016 (2016)
|
|
BASE
|
|
Show details
|
|
13 |
Empirical evidence for a diminished sense of agency in speech interfaces
|
|
|
|
BASE
|
|
Show details
|
|
14 |
ДВУЯЗЫЧНАЯ МНОГОМОДАЛЬНАЯ СИСТЕМА ДЛЯ АУДИОВИЗУАЛЬНОГО СИНТЕЗА РЕЧИ И ЖЕСТОВОГО ЯЗЫКА ПО ТЕКСТУ
|
|
КАРПОВ АЛЕКСЕЙ АНАТОЛЬЕВИЧ; ЖЕЛЕЗНЫ МИЛОШ. - : Федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики», 2014
|
|
Abstract:
Представлена концептуальная модель, архитектура и программная реализация многомодальной системы аудиовизуального синтеза речи и жестового языка по входному тексту. Основными компонентами разработанной многомодальной системы синтеза (жестовый аватар) являются: текстовый процессор анализа входного текста; имитационная трехмерная модель головы человека; компьютерный синтезатор звучащей речи; система синтеза аудиовизуальной речи; имитационная модель верхней части тела и рук человека; многомодальный пользовательский интерфейс, интегрирующий компоненты генерации звучащей, визуальной и жестовой речи по тексту. Предложенная система выполняет автоматическое преобразование входной текстовой информации в речевую (аудиоинформацию) и жестовую (видеоинформацию), объединение и вывод ее в виде мультимедийной информации. На вход системы подается произвольный грамматически корректный текст на русском или чешском языке, который анализируется текстовым процессором для выделения предложений, слов и букв. Далее полученная текстовая информация преобразуется в символы жестовой нотации (используется международная «Гамбургская система нотации» HamNoSys, которая описывает основные дифференциальные признаки каждого жеста рук: форму кисти, ориентацию руки, место и характер движения), на основе которых трехмерный жестовый аватар воспроизводит элементы жестового языка. Виртуальная трехмерная модель головы и верхней части тела человека реализована на языке моделирования виртуальной реальности VRML и управляется программно средствами графической библиотеки OpenGL. Предложенная многомодальная система синтеза является универсальной, она предназначена как для обычных пользователей, так и для людей с ограниченными возможностями здоровья (в частности, глухих и незрячих людей) и служит для целей мультимедийного аудиовизуального вывода вводимой текстовой информации. ; We present a conceptual model, architecture and software of a multimodal system for audio-visual speech and sign language synthesis by the input text. The main components of the developed multimodal synthesis system (signing avatar) are: automatic text processor for input text analysis; simulation 3D model of human's head; computer text-to-speech synthesizer; a system for audio-visual speech synthesis; simulation 3D model of human’s hands and upper body; multimodal user interface integrating all the components for generation of audio, visual and signed speech. The proposed system performs automatic translation of input textual information into speech (audio information) and gestures (video information), information fusion and its output in the form of multimedia information. A user can input any grammatically correct text in Russian or Czech languages to the system; it is analyzed by the text processor to detect sentences, words and characters. Then this textual information is converted into symbols of the sign language notation. We apply international «Hamburg Notation System» HamNoSys, which describes the main differential features of each manual sign: hand shape, hand orientation, place and type of movement. On their basis the 3D signing avatar displays the elements of the sign language. The virtual 3D model of human’s head and upper body has been created using VRML virtual reality modeling language, and it is controlled by the software based on OpenGL graphical library. The developed multimodal synthesis system is a universal one since it is oriented for both regular users and disabled people (in particular, for the hard-of-hearing and visually impaired), and it serves for multimedia output (by audio and visual modalities) of input textual information.
|
|
Keyword:
МНОГОМОДАЛЬНЫЕ ИНТЕРФЕЙСЫ ПОЛЬЗОВАТЕЛЯ,MULTIMODAL USER INTERFACES,ЧЕЛОВЕКО-МАШИННОЕ ВЗАИМОДЕЙСТВИЕ,HUMAN-COMPUTER INTERACTION,ЖЕСТОВЫЙ ЯЗЫК,SIGN LANGUAGE,СИНТЕЗ РЕЧИ,SPEECH SYNTHESIS,ТРЕХМЕРНЫЕ МОДЕЛИ,АССИСТИВНЫЕ ТЕХНОЛОГИИ,ASSISTIVE TECHNOLOGIES,ЖЕСТОВЫЙ АВАТАР,SIGNING AVATAR,3D MODELS
|
|
URL: http://cyberleninka.ru/article_covers/16405803.png http://cyberleninka.ru/article/n/dvuyazychnaya-mnogomodalnaya-sistema-dlya-audiovizualnogo-sinteza-rechi-i-zhestovogo-yazyka-po-tekstu
|
|
BASE
|
|
Hide details
|
|
15 |
The additive effect of turn-taking cues in human and synthetic voice
|
|
: Elsevier, 2012
|
|
BASE
|
|
Show details
|
|
16 |
Modeling Coarticulation in EMG-based Continuous Speech Recognition
|
|
|
|
In: Speech Communication, 52 (4), 341-353 ; ISSN: 0167-6393 (2012)
|
|
BASE
|
|
Show details
|
|
17 |
Impact of different speech interfaces of personal devices on users' perception
|
|
|
|
BASE
|
|
Show details
|
|
18 |
Modeling Coarticulation in EMG-based Continuous Speech Recognition
|
|
: Elsevier, 2011
|
|
BASE
|
|
Show details
|
|
19 |
The additive effect of turn-taking cues in human and synthetic voice
|
|
|
|
In: ISSN: 0167-6393 ; EISSN: 1872-7182 ; Speech Communication ; https://hal.archives-ouvertes.fr/hal-00699045 ; Speech Communication, Elsevier : North-Holland, 2010, 53 (1), pp.23. ⟨10.1016/j.specom.2010.08.003⟩ (2010)
|
|
BASE
|
|
Show details
|
|
20 |
Small-vocabulary speech recognition for resource-scarce languages
|
|
|
|
In: http://www.cs.cmu.edu/~roni/papers/sigdev2010-final7.pdf (2010)
|
|
BASE
|
|
Show details
|
|
|
|