DE eng

Search in the Catalogues and Directories

Hits 1 – 6 of 6

1
Automatic creation of linguistic tools and resources from parallel corpora ; Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles
Zennaki, Othman. - : HAL CCSD, 2019
In: https://tel.archives-ouvertes.fr/tel-02173773 ; Linguistique. Université Grenoble Alpes, 2019. Français. ⟨NNT : 2019GREAM006⟩ (2019)
Abstract: This thesis focuses on the automatic construction of linguistic tools and resources for analyzing texts of low-resource languages. We propose an approach using Recurrent Neural Networks (RNN) and requiring only a parallel or multi-parallel corpus between a well-resourced language and one or more low-resource languages. This parallel or multi-parallel corpus is used to construct a multilingual representation of words of the source and target languages. We used this multilingual representation to train our neural models and we investigated both uni and bidirectional RNN models. We also proposed a method to include external information (for instance, low-level information from Part-Of-Speech tags) in the RNN to train higher level taggers (for instance, SuperSenses taggers and Syntactic dependency parsers). We demonstrated the validity and genericity of our approach on several languages and we conducted experiments on various NLP tasks: Part-Of-Speech tagging, SuperSenses tagging and Dependency parsing. The obtained results are very satisfactory. Our approach has the following characteristics and advantages: (a) it does not use word alignment information, (b) it does not assume any knowledge about target languages (one requirement is that the two languages (source and target) are not too syntactically divergent), which makes it applicable to a wide range of low-resource languages, (c) it provides authentic multilingual taggers (one tagger for N languages). ; Cette thèse porte sur la construction automatique d’outils et de ressources pour l’analyse linguistique de textes des langues peu dotées. Nous proposons une approche utilisant des réseaux de neurones récurrents (RNN - Recurrent Neural Networks) et n'ayant besoin que d'un corpus parallèle ou mutli-parallele entre une langue source bien dotée et une ou plusieurs langues cibles moins bien ou peu dotées. Ce corpus parallèle ou mutli-parallele est utilisé pour la construction d'une représentation multilingue des mots des langues source et cible. Nous avons utilisé cette représentation multilingue pour l’apprentissage de nos modèles neuronaux et nous avons exploré deux architectures neuronales : les RNN simples et les RNN bidirectionnels. Nous avons aussi proposé plusieurs variantes des RNN pour la prise en compte d'informations linguistiques de bas niveau (informations morpho-syntaxiques) durant le processus de construction d'annotateurs linguistiques de niveau supérieur (SuperSenses et dépendances syntaxiques). Nous avons démontré la généricité de notre approche sur plusieurs langues ainsi que sur plusieurs tâches d'annotation linguistique. Nous avons construit trois types d'annotateurs linguistiques multilingues: annotateurs morpho-syntaxiques, annotateurs en SuperSenses et annotateurs en dépendances syntaxiques, avec des performances très satisfaisantes. Notre approche a les avantages suivants : (a) elle n'utilise aucune information d'alignement des mots, (b) aucune connaissance concernant les langues cibles traitées n'est requise au préalable (notre seule supposition est que, les langues source et cible n'ont pas une grande divergence syntaxique), ce qui rend notre approche applicable pour le traitement d'un très grand éventail de langues peu dotées, (c) elle permet la construction d'annotateurs multilingues authentiques (un annotateur pour N langages).
Keyword: [INFO.EIAH]Computer Science [cs]/Technology for Human Learning; [SCCO.LING]Cognitive science/Linguistics; Annotation linguistique; Comparable corpora; Corpus comparable; Corpus parallèle; Cross-Language projection of annotations; Induction; Linguistic annotation; Parallel corpora; Projection interlingue d’annotations
URL: https://tel.archives-ouvertes.fr/tel-02173773/document
https://tel.archives-ouvertes.fr/tel-02173773
https://tel.archives-ouvertes.fr/tel-02173773/file/ZENNAKI_2019_diffusion.pdf
BASE
Hide details
2
Projection Interlingue d'Étiquettes pour l'Annotation Sémantique Non Supervisée
In: Actes de la conférence conjointe JEP-TALN-RECITAL ; TALN 2016 ; https://hal.archives-ouvertes.fr/hal-01350117 ; TALN 2016, Jul 2016, Paris, France (2016)
BASE
Show details
3
Inducing Multilingual Text Analysis Tools Using Bidirectional Recurrent Neural Networks
In: COLING 2016 ; https://hal.archives-ouvertes.fr/hal-01374205 ; COLING 2016, ANLP, Dec 2016, Osaka, Japan ; http://coling2016.anlp.jp (2016)
BASE
Show details
4
Inducing Multilingual Text Analysis Tools Using Bidirectional Recurrent Neural Networks ...
BASE
Show details
5
Utilisation des réseaux de neurones récurrents pour la projection interlingue d'étiquettes morpho-syntaxiques à partir d'un corpus parallèle
In: Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles ; TALN 2015 ; https://hal.archives-ouvertes.fr/hal-01350115 ; TALN 2015, Jul 2015, Caen, France (2015)
BASE
Show details
6
Unsupervised and Lightly Supervised Part-of-Speech Tagging Using Recurrent Neural Networks
In: The 29th Pacific Asia Conference on Language, Information and Computation ; 29th Pacific Asia Conference on Language, Information and Computation (PACLIC) ; https://hal.archives-ouvertes.fr/hal-01350113 ; 29th Pacific Asia Conference on Language, Information and Computation (PACLIC), Oct 2015, Shangai, China (2015)
BASE
Show details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
6
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern