1 |
From FreEM to D'AlemBERT ; From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French
|
|
|
|
In: Proceedings of the 13th Language Resources and Evaluation Conference ; https://hal.inria.fr/hal-03596653 ; Proceedings of the 13th Language Resources and Evaluation Conference, European Language Resources Association, Jun 2022, Marseille, France (2022)
|
|
Abstract:
8 pages, 2 figures, 4 tables ; International audience ; Language models for historical states of language are becoming increasingly important to allow the optimal digitisation and analysis of old textual sources. Because these historical states are at the same time more complex to process and more scarce in the corpora available, specific efforts are necessary to train natural language processing (NLP) tools adapted to the data. In this paper, we present our efforts to develop NLP tools for Early Modern French (historical French from the 16th to the 18th centuries). We present the FreEMmax corpus of Early Modern French and D'AlemBERT, a RoBERTa-based language model trained on FreEMmax. We evaluate the usefulness of D'AlemBERT by fine-tuning it on a part-of-speech tagging task, outperforming previous work on the test set. Importantly, we find evidence for the transfer learning capacity of the language model, since its performance on lesser-resourced time periods appears to have been boosted by the more resourced ones. We release D'AlemBERT and the open-sourced subpart of the FreEMmax corpus.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; Corpus creation; Création de corpus; Digital humanities; Early Modern French; Français classique; Humanités Numériques; Language modelling; Langues peu dotées; Less-resourced languages; Modèle de langue neuronal; Modélisation linguistique; Neural language representation models; Partie du discours; POS tagging
|
|
URL: https://hal.inria.fr/hal-03596653
|
|
BASE
|
|
Hide details
|
|
2 |
Rapport et Bilan Scientifique - 2e Symposium sur la Politique Linguistique Familiale 2021
|
|
|
|
In: https://hal-inalco.archives-ouvertes.fr/hal-03525635 ; [Rapport de recherche] INALCO, Sorbonne Paris-Cité (SPC). 2022 (2022)
|
|
BASE
|
|
Show details
|
|
3 |
Le kazakh ; Le kazakh: Quelques contrastes pertinents pour l'acquisition du Français Langue Seconde pour les locuteurs du kazakh
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03545830 ; 2022 (2022)
|
|
BASE
|
|
Show details
|
|
4 |
Le basque ; Le basque: Quelques contrastes pertinents pour l'acquisition du Français Langue Seconde par les locuteurs du basque
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03545793 ; 2022 (2022)
|
|
BASE
|
|
Show details
|
|
5 |
From Tamajaght to French. To translate is to betray, but how far? ; De la tamajaght au français. Traduire, c’est trahir, mais jusqu’où ?
|
|
|
|
In: IFS. Tasɣunt n wannas d tɣerma tamaziɣt / Revue de culture et de civilisation amazighe ; https://halshs.archives-ouvertes.fr/halshs-03650005 ; IFS. Tasɣunt n wannas d tɣerma tamaziɣt / Revue de culture et de civilisation amazighe, Criniere du lion, A paraître, pp.7-28 (2022)
|
|
BASE
|
|
Show details
|
|
6 |
Adopter une approche diachronique et contextualisante pour explorer le rapport à l’écrit : l’intérêt d’une prise en compte des répertoires langagiers et des environnements de socialisation.
|
|
|
|
In: ISSN: 2706-6312 ; EISSN: 2708-0633 ; Akofena - Revue scientifique des Sciences du Langage, Lettres, Langues & Communication, ; https://hal.archives-ouvertes.fr/hal-03551355 ; Akofena - Revue scientifique des Sciences du Langage, Lettres, Langues & Communication, , L3DL-CI, Université Félix Houphouët-Boigny, 2022 (2022)
|
|
BASE
|
|
Show details
|
|
7 |
Rapport et Bilan Scientifique - 2e Symposium sur la Politique Linguistique Familiale 2021
|
|
|
|
In: https://hal-inalco.archives-ouvertes.fr/hal-03525635 ; [Rapport de recherche] INALCO, Sorbonne Paris-Cité (SPC). 2022 (2022)
|
|
BASE
|
|
Show details
|
|
8 |
LMOOC para la integración de personas desplazadas ; LMOOCs to integration of displaced people
|
|
|
|
BASE
|
|
Show details
|
|
9 |
The use of extracts in the teaching of literature in Russia ; L’extrait dans l’enseignement de la littérature, en russe et en français, dans la Russie d’aujourd’hui
|
|
|
|
In: ISSN: 0755-7817 ; EISSN: 2263-5947 ; Repères : Recherches en didactique du français langue maternelle ; https://hal.archives-ouvertes.fr/hal-03607741 ; Repères : Recherches en didactique du français langue maternelle, ENS Lyon, 2021, Lire des œuvres en extraits, quels enjeux pour l’enseignement de la littérature ?, Anissa Belhadjin et Marie-France Bishop (dir.), 64, pp.179-195. ⟨10.4000/reperes.4634⟩ ; https://journals.openedition.org/reperes/4634 (2021)
|
|
BASE
|
|
Show details
|
|
10 |
Lire la littérature en français. Литература на французском языке. ; Литература на французском языке. Первый год изучения. Учебное пособие по литературе на французском языке
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03085408 ; 1, Prosveshchenie, 2021, 978-5-09-078180-0 ; https://shop.prosv.ru/literatura-na-francuzskom-yazyke--pervyj-god-izucheniya--uchebnoe-posobie-po-literature-na-francuzskom-yazyke18023 (2021)
|
|
BASE
|
|
Show details
|
|
11 |
Enseignement des émotions : quel lexique ?
|
|
|
|
In: Séminaire LLL - Laboratoire Ligérien de Linguistique ; https://hal.archives-ouvertes.fr/hal-03171004 ; Séminaire LLL - Laboratoire Ligérien de Linguistique, Jacqueline Lafont-Terranova, Feb 2021, Orléans, France ; https://lll.cnrs.fr/evenement/seminaire-plcsl-cristelle-cavalla/ (2021)
|
|
BASE
|
|
Show details
|
|
12 |
Les praticiens du droit et la langue : catégorisations et représentations
|
|
|
|
In: Stéréotypes de la langue juridique et dans la langue juridique ; https://hal-univ-bourgogne.archives-ouvertes.fr/hal-03272683 ; Stéréotypes de la langue juridique et dans la langue juridique, Centre de Recherche sur les Identités, les Nations et l'Interculturalité (CRINI) - Université de Nantes; Université de Bourgogne, Mar 2021, Nantes, France ; https://crini.univ-nantes.fr/activites/seminaire-francophone-tournant-de-jurilinguistique-%C2%AB-stereotypes-de-la-langue-juridique-et-dans-la-langue-juridique-%C2%BB-seance-2 (2021)
|
|
BASE
|
|
Show details
|
|
13 |
Book review : John Humbley, La néologie terminologique, Limoges, Lambert-Lucas. ; recension: John Humbley, La néologie terminologique, Limoges, Lambert-Lucas.
|
|
|
|
In: ISSN: 1951-6215 ; EISSN: 1951-6215 ; Lexis. Journal in English Lexicology ; https://hal.archives-ouvertes.fr/hal-03504631 ; 2021, ⟨10.4000/lexis.6174⟩ (2021)
|
|
BASE
|
|
Show details
|
|
14 |
Explaining different aspects of word knowledge: A multimodal analysis of lexical explanation sequences during online French tutoring sessions
|
|
|
|
In: ISSN: 1951-6215 ; EISSN: 1951-6215 ; Lexis. Journal in English Lexicology ; https://hal.archives-ouvertes.fr/hal-03494610 ; Lexis. Journal in English Lexicology, Université Jean-Moulin-Lyon III - Centre d’Études Linguistiques (CEL), 2021, ⟨10.4000/lexis.5889⟩ (2021)
|
|
BASE
|
|
Show details
|
|
15 |
Digital corpora in FFL ; Corpus numériques en FLE
|
|
|
|
In: Séminaire Logométrie, Corpus, Traitements, Modèles ; https://hal.archives-ouvertes.fr/hal-03427817 ; Séminaire Logométrie, Corpus, Traitements, Modèles, BLC, Bases Corpus, Langage UMR7320, May 2021, Nice, France ; https://bcl.cnrs.fr/ (2021)
|
|
BASE
|
|
Show details
|
|
16 |
Corpora of interactions in language training for migrants ; Des corpus d'interactions dans la formation linguistique des migrants
|
|
|
|
In: ISSN: 1763-4229 ; Savoirs. Revue internationale de recherches en éducation et formation des adultes ; https://hal.archives-ouvertes.fr/hal-03559403 ; Savoirs. Revue internationale de recherches en éducation et formation des adultes, L'Harmattan, 2021 (2021)
|
|
BASE
|
|
Show details
|
|
17 |
Typologie des fonctions du silence dans l’approche Silent Way
|
|
|
|
In: ISSN: 0994-3722 ; EISSN: 2118-724X ; Spirale - Revue de Recherches en Éducation ; https://hal.archives-ouvertes.fr/hal-03653887 ; Spirale - Revue de Recherches en Éducation , Association pour la Recherche en Education (ARED), 2021, N° 67 (1), pp.115-126. ⟨10.3917/spir.067.0115⟩ (2021)
|
|
BASE
|
|
Show details
|
|
18 |
Outils numériques pour l’apprentissage de la grammaire en français langue d’enseignement : Quels analyseurs pour les appréhender ?
|
|
|
|
In: 10e Conférence sur les Environnements Informatiques pour l’Apprentissage Humain ; https://hal.archives-ouvertes.fr/hal-03287738 ; 10e Conférence sur les Environnements Informatiques pour l’Apprentissage Humain, Marie Lefevre, Christine Michel, Jun 2021, Fribourg, Allemagne. pp.288-293 (2021)
|
|
BASE
|
|
Show details
|
|
19 |
Enseignement/apprentissage du français dans les Balkans ; Enseignement/apprentissage du français dans les Balkans: Points de vue et études de cas
|
|
|
|
In: https://halshs.archives-ouvertes.fr/halshs-03294165 ; Aracne, 2021, Lingue d’Europa e del Mediterraneo, 9791259941992 ; http://www.aracneeditrice.it/ (2021)
|
|
BASE
|
|
Show details
|
|
20 |
L’adaptation du discours grammatical dans les grammaires du français pour italophones. Analyse d’un corpus de manuels
|
|
|
|
In: Action Didactique ; https://hal.archives-ouvertes.fr/hal-03541311 ; Action Didactique, Laboratoire de recherche en Langues Appliquées et Ingénierie des Langues En Milieu Multilingue (LAILEMM), Faculté des Lettres et des Langues de l’université Abderrahmane Mira de Bejaia, 2021, pp.58-78 (2021)
|
|
BASE
|
|
Show details
|
|
|
|