Home
Catalogue search
Refine your search:
Keyword
Creator / Publisher:
Department of Algorithms, Computation, Image and Geometry (LORIA - ALGO) (2)
Gaschi, Félix (2)
Inria Nancy - Grand Est (2)
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD) (2)
Knowledge representation, reasonning (ORPAILLEUR) (2)
Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) (2)
Machine Learning and Computational Biology (ABC) (2)
Posos (2)
Rastin, Parisa (2)
Toussaint, Yannick (2)
more
Year:
2022 (1)
2021 (1)
Medium:
Online (2)
Type:
Article (2)
BLLDB-Access:
free (2)
subject to license (0)
Search in the Catalogues and Directories
All fields
Title
Creator / Publisher
Keyword
Year
AND
OR
AND NOT
All fields
Title
Creator / Publisher
Keyword
Year
AND
OR
AND NOT
All fields
Title
Creator / Publisher
Keyword
Year
AND
OR
AND NOT
All fields
Title
Creator / Publisher
Keyword
Year
AND
OR
AND NOT
All fields
Title
Creator / Publisher
Keyword
Year
Sort by
creator [A → Z]
'
creator [Z → A]
'
publishing year ↑ (asc)
'
publishing year ↓ (desc)
'
title [A → Z]
'
title [Z → A]
'
Simple Search
Hits 1 – 2 of 2
1
Évaluation des propriétés multilingues d'un embedding contextualisé
Gaschi, Félix
;
Joutard, Alexandre
;
Rastin, Parisa
;
Toussaint, Yannick
In: EGC 2022 - Conférence francophone sur l'Extraction et la Gestion des Connaissances ; https://hal.archives-ouvertes.fr/hal-03578480 ; EGC 2022 - Conférence francophone sur l'Extraction et la Gestion des Connaissances, Jan 2022, Blois, France (2022)
Abstract:
International audience ; Deep learning models like BERT, a stack of attention layers with an unsupervised pretraining on large corpora, have become the norm in NLP. mBERT, a multilingual version of BERT, is capable of learning a task in one language and of generalizing it to another. This generalization ability opens the perspective of having efficient models in languages with few annotated data, but remains still largely unexplained. We propose a new method based on in-context translated words rather than translated Sentences in order to analyze the similarity between contextualized representations across languages. We show that the representations learned by mBERT are closer for deep layers, outperforming other representations that were specifically trained to be aligned. ; Les modèles d'apprentissage profond comme BERT, un empilement de couches d'attention avec un pré-entraînement non supervisé sur de larges corpus, sont devenus la norme en NLP. mBERT, une version pré-entraînée sur des corpus monolingues dans 104 langues, est ensuite capable d'apprendre une tâche dans une langue et de la généraliser à une autre. Cette capacité de généralisation ouvre la perspective de modèles efficaces dans des langues avec peu de données annotées, mais reste encore largement inexpliquée. Nous proposons une nouvelle méthode fondée sur des mots traduits en contexte plutôt que des phrases pour analyser plus finement la similarité de représentations contextualisées à travers les langues. Nous montrons que les représentations de différentes langues apprises par mBERT sont plus proches pour des couches profondes, et dépassent les modèles spécifiquement entraînés pour être alignés.
Keyword:
[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
;
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
URL:
https://hal.archives-ouvertes.fr/hal-03578480
https://hal.archives-ouvertes.fr/hal-03578480/file/submission_33.pdf
https://hal.archives-ouvertes.fr/hal-03578480/document
BASE
Hide details
2
Unsupervised Word embedding Alignment in the biomedical domain ; Alignement non supervisé d'embeddings de mots dans le domaine biomédical
Gaschi, Félix
;
Rastin, Parisa
;
Toussaint, Yannick
In: CIFSD - Conférence Internationale Francophone sur la Science des Données ; https://hal.archives-ouvertes.fr/hal-03259987 ; CIFSD - Conférence Internationale Francophone sur la Science des Données, Jun 2021, Marseille/Virtuel, France (2021)
BASE
Show details
Mobile view
All
Catalogues
UB Frankfurt Linguistik
0
IDS Mannheim
0
OLC Linguistik
0
UB Frankfurt Retrokatalog
0
DNB Subject Category Language
0
Institut für Empirische Sprachwissenschaft
0
Leibniz-Centre General Linguistics (ZAS)
0
Bibliographies
BLLDB
0
BDSL
0
IDS Bibliografie zur deutschen Grammatik
0
IDS Bibliografie zur Gesprächsforschung
0
IDS Konnektoren im Deutschen
0
IDS Präpositionen im Deutschen
0
IDS OBELEX meta
0
MPI-SHH Linguistics Collection
0
MPI for Psycholinguistics
0
Linked Open Data catalogues
Annohub
0
Online resources
Link directory
0
Journal directory
0
Database directory
0
Dictionary directory
0
Open access documents
BASE
2
Linguistik-Repository
0
IDS Publikationsserver
0
Online dissertations
0
Language Description Heritage
0
© 2013 - 2024 Lin|gu|is|tik
|
Imprint
|
Privacy Policy
|
Datenschutzeinstellungen ändern