1 |
Tone realization in Mandarin speech: a large corpus based study of disyllabic words
|
|
|
|
In: The 12th International Symposium on Chinese Spoken Language Processing (ISCSLP 2021) ; https://hal.archives-ouvertes.fr/hal-03153413 ; The 12th International Symposium on Chinese Spoken Language Processing (ISCSLP 2021), Jan 2021, Hong Kong, China (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Synchronic Fortition in Five Romance Languages? A Large Corpus-Based Study of Word-Initial Devoicing
|
|
|
|
In: Proceedings of Interspeech ; Interspeech 2021 ; https://hal.sorbonne-universite.fr/hal-03339852 ; Interspeech 2021, Aug 2021, Brno, Czech Republic. pp.996-1000, ⟨10.21437/Interspeech.2021-939⟩ (2021)
|
|
BASE
|
|
Show details
|
|
3 |
A corpus-based study of the distribution of word-final schwa in Standard French and what it teaches us about its phonological status
|
|
|
|
BASE
|
|
Show details
|
|
4 |
Frequency-Dependent Regularization in Syntactic Constructions
|
|
|
|
In: Proceedings of the Society for Computation in Linguistics (2021)
|
|
BASE
|
|
Show details
|
|
5 |
Distribution and deletion of /ʁ/ in fluent speech
|
|
|
|
In: Studii de Lingvistica, Vol 11, Pp 39-53 (2021) (2021)
|
|
BASE
|
|
Show details
|
|
6 |
Mandarin Lexical Tones: A Corpus-Based Study of Word Length, Syllable Position and Prosodic Position on Duration
|
|
|
|
In: Interspeech 2020 ; https://hal.archives-ouvertes.fr/hal-03153402 ; Interspeech 2020, Oct 2020, Shanghai, China. pp.1908-1912, ⟨10.21437/Interspeech.2020-1614⟩ (2020)
|
|
BASE
|
|
Show details
|
|
7 |
Is word-final schwa in Standard French a “phonetic lubricant”? ; Le schwa final en français standard est-il un «lubrifiant phonétique»?
|
|
|
|
In: Actes du 7e Congrès Mondial de Linguistique Française ; 7e Congrès Mondial de Linguistique Française - CMLF 2020 ; https://hal.archives-ouvertes.fr/hal-02931786 ; 7e Congrès Mondial de Linguistique Française - CMLF 2020, Jul 2020, Montpellier, France. pp.id. 09004, ⟨10.1051/shsconf/20207809004⟩ ; https://www.linguistiquefrancaise.org/ (2020)
|
|
BASE
|
|
Show details
|
|
8 |
Lénition et fortition des occlusives en coda finale dans deux langues romanes : le français et le roumain
|
|
|
|
In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole ; https://hal.archives-ouvertes.fr/hal-02798551 ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.289-298 (2020)
|
|
BASE
|
|
Show details
|
|
9 |
Ongoing phonologization of word-final voicing alternations in two Romance languages: Romanian and French
|
|
|
|
In: Interspeech 2020 ; https://hal.archives-ouvertes.fr/hal-02977812 ; Interspeech 2020, Oct 2020, Shanghai, China. ⟨10.21437/Interspeech.2020-1460⟩ (2020)
|
|
BASE
|
|
Show details
|
|
11 |
POST-CONSONANTAL WORD-FINAL /ʁ/ REALIZATION IN FRENCH: CONTRIBUTIONS OF LARGE CORPORA
|
|
|
|
In: Proceedings of the International Congress of Phonetic Sciences ICPhS 2019 ; International Congress of Phonetic Sciences ICPhS 2019 ; https://hal.archives-ouvertes.fr/hal-03171147 ; International Congress of Phonetic Sciences ICPhS 2019, Aug 2019, Melbourne, Australia (2019)
|
|
BASE
|
|
Show details
|
|
12 |
"Gra[f]e!" Word-final devoicing of obstruents in Standard French: An acoustic study based on large corpora
|
|
|
|
In: Annual Conference of the International Speech Communication Association ; https://hal.archives-ouvertes.fr/hal-02336119 ; Annual Conference of the International Speech Communication Association, ISCA, Sep 2019, Graz, Austria. DOI:10.21437/Interspeech.2019-2329 (2019)
|
|
BASE
|
|
Show details
|
|
13 |
Speech Style Effects on Local and Non-local Coarticulation in French
|
|
|
|
In: Studies on Speech Production (11th International Seminar, ISSP 2017, Tianjin, China, October 16-19, 2017, Revised Selected Papers) ; https://hal.archives-ouvertes.fr/hal-02427702 ; Studies on Speech Production (11th International Seminar, ISSP 2017, Tianjin, China, October 16-19, 2017, Revised Selected Papers), pp.121-133, 2018, ⟨10.1007/978-3-030-00126-1_12⟩ (2018)
|
|
BASE
|
|
Show details
|
|
14 |
Schwa Realization in French: Using Automatic Speech Processing to Study Phonological and Socio-linguistic Factors in Large Corpora
|
|
|
|
In: Annual Conference of the International Speech Communication Association ; https://hal.archives-ouvertes.fr/hal-01837179 ; Annual Conference of the International Speech Communication Association , ISCA, Aug 2017, Stockholm, Sweden (2017)
|
|
BASE
|
|
Show details
|
|
15 |
Learning from Noisy Data in Statistical Machine Translation
|
|
|
|
Abstract:
In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des Lernprozesses behandelt: Bei der Vorverarbeitung und während der Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt. Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten. Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen, wobei jeder Satz einer Sprache mit dem entsprechenden Satz der anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind. Um diese zu erkennen wird ein kleiner und fehlerfreier paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen lexikalischen Eigenschaften werden zuverlässig False-Positives vor der Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei ist das vom Clean Corpus erzeugte bilinguale Lexikon. In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen. Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten. Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine. Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes. Da solche Tuning Daten typischerweise beschränkte Größe haben, werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern. Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch bei beschränkten Daten möglich, indem auch monolinguale Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem vorgegebenen Sprachpaar teilen. Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die Trainingsdaten anhand der Güte des Corpus gewichtet werden. Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen Sequenzen zu finden und ihre Gewichtung zu reduzieren. Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln. Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt. Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet. Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher. Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt. Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt. Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher.
|
|
Keyword:
DATA processing & computer science; Data Selection; Data Weighting; ddc:004; External Memory; Hybrid Parallel Scoring; info:eu-repo/classification/ddc/004; Language Model Smoothing; Large Corpora; Noise Removal; Noisy Data; Semantic Word Associations; Statistical Machine Translation
|
|
URL: https://publikationen.bibliothek.kit.edu/1000072805/4277990 https://doi.org/10.5445/IR/1000072805 https://publikationen.bibliothek.kit.edu/1000072805 http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:swb:90-728051
|
|
BASE
|
|
Hide details
|
|
16 |
Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus
|
|
|
|
In: 31èmes Journées d'Etudes sur la Parole ; https://halshs.archives-ouvertes.fr/halshs-01401348 ; 31èmes Journées d'Etudes sur la Parole, Jul 2016, Paris, France. pp.633-641 (2016)
|
|
BASE
|
|
Show details
|
|
17 |
On Very Large Corpora of French
|
|
|
|
In: History of Quantitative Linguistics in France ; https://hal.univ-cotedazur.fr/hal-01362713 ; Jacqueline Léon; Sylvain Loiseau. History of Quantitative Linguistics in France, RAM Verlag, pp.137-156, 2016, Studies in Quantitative Linguistics, 978-3-942303-48-4 (2016)
|
|
BASE
|
|
Show details
|
|
18 |
Phoneme deletion and fusion in conversational speech
|
|
|
|
In: Experimental Approaches to Perception and Production of Language Variation 2013 ; https://hal.archives-ouvertes.fr/hal-01510214 ; Experimental Approaches to Perception and Production of Language Variation 2013, Mar 2013, Copenhague, Denmark (2013)
|
|
BASE
|
|
Show details
|
|
19 |
Dynamics, causation, duration in the predicate-argument structure of verbs : a computational approach based on parallel corpora ...
|
|
|
|
BASE
|
|
Show details
|
|
20 |
Dynamics, causation, duration in the predicate-argument structure of verbs : a computational approach based on parallel corpora
|
|
|
|
BASE
|
|
Show details
|
|
|
|