DE eng

Search in the Catalogues and Directories

Hits 1 – 13 of 13

1
Neural MT and Human Post-editing : a Method to Improve Editorial Quality
In: ISSN: 1134-8941 ; Interlingüística ; https://halshs.archives-ouvertes.fr/halshs-03603590 ; Interlingüística, Alacant [Spain] : Universitat Autònoma de Barcelona, 2022, pp.15-36 (2022)
BASE
Show details
2
Machine Translation and Gender biases in video game localisation: a corpus-based analysis
In: https://hal.archives-ouvertes.fr/hal-03540605 ; 2022 (2022)
BASE
Show details
3
Multi-domain Neural Machine Translation ; Traduction automatique neuronale multidomaine
Pham, Minh-Quang. - : HAL CCSD, 2021
In: https://tel.archives-ouvertes.fr/tel-03546910 ; Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2021. English. ⟨NNT : 2021UPASG109⟩ (2021)
Abstract: Today, neural machine translation (NMT) systems constitute state-of-the-art systems in machine translation. However, such translation models require relatively large train data and struggle to handle a specific domain text. A domain may consist of texts from a particular topic or texts written for a particular purpose. While NMT systems can be adapted for better translation quality in a target domain given a representative train corpus, this technique has adverse side-effects, including brittleness against out-of-domain examples and "catastrophic forgetting" of previous domains represented in the train data. Moreover, one translation system must cope with many possible domains in real applications, making the "one domain one model" impractical. A promising solution is to build multi-domain NMT systems trained from many domains and adapted to multiple target domains. The rationale behind this is twofold. First, large train corpora improve the generalization of the NMT system. Secondly, texts from one domain can be valuable for adapting an NMT model to a similar domain. The scarcity of data and the hypothetical positive transfer effect are also two main reasons for building multilingual NMT systems. Maintaining multiple bilingual MT systems requires lots of hardware resources as the number of language pairs grows quadratically with the increasing number of languages. Both multi-domain and multilingual NMT systems are essential for saving resources for the MT industry and improving the quality of the MT service. This thesis first unifies domain adaptation and multi-domain adaptation in one mathematical framework. In addition, we review the literature of (multi-)domain adaptation through a structural approach by pointing out four principal cases and matching previous methods to each application case. Secondly, we propose a novel multi-criteria evaluation of multi-domain approaches. We point out the requirements for a multi-domain system and perform an exhaustive comparison of a large set of methods. We also propose new methods for multi-domain adaptation, including sparse word embeddings, sparse layers, and gated residual adapters, which are cheap and able to handle many domains. To balance the heterogeneity in the train data, we explore and study techniques relating to dynamic data sampling, which iteratively adapt the train distribution to a pre-determined testing distribution. Finally, we are interested in context augmented translation approaches, which reuse similar translation memories to improve the prediction of a sentence. We carefully analyze and compare several methods in this line and demonstrate that they are suitable for adapting our NMT system to an unknown domain at the expense of additional computational costs. ; Aujourd'hui, les systèmes de traduction automatique neuronale (NMT) constituent des systèmes de pointe en traduction automatique (TA). Cependant, ces modèles de traduction nécessitent des données d'entraînement relativement volumineuses et ont de la difficulté à traduire des textes de domaine spécifique. Un domaine peut être constitué de textes d'un sujet particulier ou de textes écrits dans un but particulier. Bien que les systèmes NMT puissent être adaptés pour une meilleure qualité de traduction dans un domaine cible étant donné un corpus de train représentatif, cette technique a des effets secondaires négatifs, notamment une fragilité contre des exemples hors domaine et un « oubli catastrophique » des domaines précédents représentés dans les données d'entraînement. De plus, un système de traduction doit faire face à de nombreux domaines possibles dans des applications réelles, ce qui rend impraticable le « un domaine un modèle ». Une solution prometteuse consiste à construire des systèmes NMT multi-domaines formés à partir des données de nombreux domaines et adaptés à plusieurs domaines cibles. Il y a deux motivations. Premièrement, les grands corpus de trains améliorent la généralisation du système NMT. Deuxièmement, les textes d'un domaine peuvent être utiles pour adapter un modèle NMT à un domaine similaire. La pénurie des données et l'effet de transfert positif hypothétique sont également deux raisons principales pour le développement des systèmes NMT multilingues. Maintenir plusieurs systèmes de traduction automatique bilingues nécessite de nombreuses ressources matérielles, car le nombre de paires de langues augmente de façon quadratique avec l'augmentation du nombre de langues. Les systèmes NMT multi-domaines et multilingues sont essentiels pour économiser des ressources pour l'industrie TA et améliorer la qualité du service TA. Cette thèse unifie d'abord l'adaptation de domaine et l'adaptation multi-domaine dans un cadre mathématique. De plus, nous passons en revue la littérature sur l'adaptation aux (multi-)domaines à travers une approche structurelle en montrant quatre cas principaux et en associant les méthodes proposées à chaque cas d'application. Deuxièmement, nous proposons une nouvelle évaluation multicritères des approches multi-domaines. Nous soulignons les exigences d'un système multi-domaines et réalisions une comparaison exhaustive d'un large ensemble de méthodes. Nous proposons également de nouvelles méthodes pour l'adaptation aux multi-domaines, y compris les plongements de mot parcimonieux, les couches parcimonieux et les adaptateurs résiduels, qui sont relativement légers et capables d'adapter un NMT modèle aux nombreux domaines. Pour équilibrer l'hétérogénéité des données d'entraînement, nous explorons et étudions les techniques à l'échantillonnage dynamique des données, qui adaptent de manière itérative la distribution de l'entraînement à une distribution de test prédéterminée. Enfin, nous nous intéressons aux approches de traduction avec des contextes augmentés, qui réutilisent des mémoires de traduction similaires pour améliorer la prédiction d'une phrase. Nous analysons et comparons plusieurs méthodes de cette ligne et démontrons qu'elles conviennent pour adapter notre système NMT à un domaine inconnu au détriment de coûts de calcul supplémentaires.
Keyword: [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]; Adaptation au domaine; Apprentissage multi-tâche (MTL); Domain adaptation; Multi-task learning (MTL); Neural machine translation (NMT); Traduction neuronale (NMT)
URL: https://tel.archives-ouvertes.fr/tel-03546910/file/105007_PHAM_2021_archivage.pdf
https://tel.archives-ouvertes.fr/tel-03546910/document
https://tel.archives-ouvertes.fr/tel-03546910
BASE
Hide details
4
A Transformer-Based Neural Machine Translation Model for Arabic Dialects That Utilizes Subword Units
In: Sensors ; Volume 21 ; Issue 19 (2021)
BASE
Show details
5
A Reception Study of Machine-Translated Easy Language Text by Individuals with Reading Difficulties
In: 3rd International Conference on Translation, Interpreting and Cognition (ICTIC3) (2021) (2021)
BASE
Show details
6
Cadlaws - An Enlgish-French parallel corpus of legally equivalent documents
Solé-Mauri, Francina; Sánchez-Gijón, Pilar; Oliver González, Antoni. - : Mutatis Mutandis. Revista Latinoamericana de Traducción, 2021
BASE
Show details
7
Cadlaws – An English–French Parallel Corpus of Legally Equivalent Documents
In: Mutatis Mutandis: Revista Latinoamericana de Traducción, ISSN 2011-799X, Vol. 14, Nº. 2, 2021 (Ejemplar dedicado a: Nuevas perspectivas de investigación en la traducción especializada en lenguas románicas: aspectos comparativos, léxicos, fraseológicos, discursivos y didácticos), pags. 494-508 (2021)
BASE
Show details
8
Traducción multilingüe neuronal
Cuevas Muñoz, Jorge Alejandro. - : Universitat Politècnica de València, 2021
BASE
Show details
9
Machine Translation for the Normalisation of 17th c. French ; Traduction automatique pour la normalisation du français du XVII e siècle
In: TALN 2020 ; https://hal.archives-ouvertes.fr/hal-02596669 ; TALN 2020, ATALA, Jun 2020, Nancy, France (2020)
BASE
Show details
10
Bridging the “gApp”: improving neural machine translation systems for multiword expression detection
In: 11 ; 1 ; 61 ; 80 (2020)
BASE
Show details
11
Neural MT and Human Post-editing: a Method to Improve Editorial Quality
In: Symposium Translation and Knowledge Transfer: News trends in the theory and practice of translation and interpreting ; https://hal.univ-rennes2.fr/hal-02495919 ; Symposium Translation and Knowledge Transfer: News trends in the theory and practice of translation and interpreting, Mar Ogea-Pozo, Carmen Expósito-Castro, Oct 2019, Cordoue, Spain (2019)
BASE
Show details
12
Measuring the Impact of Neural Machine Translation on Easy-to-Read Texts: An Exploratory Study
In: Conference on Easy-to-Read Language Research (Klaara 2019) (2019) (2019)
BASE
Show details
13
Preferences of end-users for raw and post-edited NMT in a business environment
In: ISBN: 978-2970-10957-0 ; Proceedings of the 41st Conference Translating and the Computer pp. 47-59 (2019)
BASE
Show details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
13
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern