1 |
From FreEM to D'AlemBERT ; From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French
|
|
|
|
In: Proceedings of the 13th Language Resources and Evaluation Conference ; https://hal.inria.fr/hal-03596653 ; Proceedings of the 13th Language Resources and Evaluation Conference, European Language Resources Association, Jun 2022, Marseille, France (2022)
|
|
Abstract:
8 pages, 2 figures, 4 tables ; International audience ; Language models for historical states of language are becoming increasingly important to allow the optimal digitisation and analysis of old textual sources. Because these historical states are at the same time more complex to process and more scarce in the corpora available, specific efforts are necessary to train natural language processing (NLP) tools adapted to the data. In this paper, we present our efforts to develop NLP tools for Early Modern French (historical French from the 16th to the 18th centuries). We present the FreEMmax corpus of Early Modern French and D'AlemBERT, a RoBERTa-based language model trained on FreEMmax. We evaluate the usefulness of D'AlemBERT by fine-tuning it on a part-of-speech tagging task, outperforming previous work on the test set. Importantly, we find evidence for the transfer learning capacity of the language model, since its performance on lesser-resourced time periods appears to have been boosted by the more resourced ones. We release D'AlemBERT and the open-sourced subpart of the FreEMmax corpus.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; Corpus creation; Création de corpus; Digital humanities; Early Modern French; Français classique; Humanités Numériques; Language modelling; Langues peu dotées; Less-resourced languages; Modèle de langue neuronal; Modélisation linguistique; Neural language representation models; Partie du discours; POS tagging
|
|
URL: https://hal.inria.fr/hal-03596653
|
|
BASE
|
|
Hide details
|
|
2 |
Des corpus de textes pour développer le lexique des affects en FLE
|
|
|
|
In: Séminaire Modern Language Center ; https://hal.archives-ouvertes.fr/hal-03630507 ; Séminaire Modern Language Center, King's College London, Mar 2022, London, Royaume-Uni ; https://www.kcl.ac.uk/modern-language-centre (2022)
|
|
BASE
|
|
Show details
|
|
3 |
Terroir peut-il être un terme en oenologie? Exploitation sémantique de données situées en contexte vini-viticole
|
|
|
|
In: Le vin et ses émules. Discours oenologiques et gastronomiques ; https://halshs.archives-ouvertes.fr/halshs-03573492 ; Carmen Konzett-Firth; Eva Lavric; Cornelia Feyrer. Le vin et ses émules. Discours oenologiques et gastronomiques, Frank & Timme, pp.515-534, 2022, InnTraRom. Beiträge zu Sprache, Kultur und Translation, 978-3-7329-0808-0 ; https://www.frank-timme.de/verlag/verlagsprogramm/buch/verlagsprogramm/bd-1-eva-lavric-cornelia-feyrer-carmen-konzett-firth-eds-le-vin-et-ses-emules/backPID/inntrarom-beitraege-zu-sprache-kultur-und-translation.html (2022)
|
|
BASE
|
|
Show details
|
|
4 |
Se préparer à la constitution du corpus : questions théoriques et pratiques
|
|
|
|
In: Les corpus en didactique des langues : de la constitution à l’analyse ; https://hal.archives-ouvertes.fr/hal-03563405 ; Les corpus en didactique des langues : de la constitution à l’analyse, Feb 2022, Paris, France (2022)
|
|
BASE
|
|
Show details
|
|
5 |
Utiliser TinySegmenter avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523195 ; 2022, https://tekipaki.hypotheses.org/2015 (2022)
|
|
BASE
|
|
Show details
|
|
6 |
Agentivité et citoyenneté linguistique de la francophonie en Ontario
|
|
Macé, Fanny. - : University of Guelph, School of Languages and Literatures, 2022. : Érudit, 2022
|
|
BASE
|
|
Show details
|
|
7 |
Corpus du Français Parlé de nos Régions ; CFPR
|
|
In: https://nakala.fr/collection/10.34847/nkl.31cbaqo1 (2022)
|
|
BASE
|
|
Show details
|
|
8 |
Utiliser TinySegmenter avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523195 ; 2022, https://tekipaki.hypotheses.org/2015 (2022)
|
|
BASE
|
|
Show details
|
|
9 |
Agentivité et citoyenneté linguistique de la francophonie en Ontario
|
|
|
|
In: Nouvelle Revue Synergies Canada; No. 15 (2022): La notion de « voix » en sociolinguistique et sciences sociales ; 2292-2261 (2022)
|
|
BASE
|
|
Show details
|
|
10 |
Des corpus numériques à l’analyse linguistique en langues de spécialité
|
|
|
|
In: https://hal-univ-paris.archives-ouvertes.fr/hal-03167849 ; Editions Université Grenoble-Alpes (UGA), Collection « Langues, gestes, parole ». 2021, Elisabetta Carpitelli et Jean Marc Colletta ; https://www.uga-editions.com (2021)
|
|
BASE
|
|
Show details
|
|
11 |
Semantic neology through phraseological calque ; La néologie sémantique par calque phraséologique
|
|
|
|
In: La néologie des langues romanes : Nouvelles approches, dynamiques et enjeux ; https://hal.archives-ouvertes.fr/hal-03353015 ; La néologie des langues romanes : Nouvelles approches, dynamiques et enjeux, 2021 (2021)
|
|
BASE
|
|
Show details
|
|
12 |
Wmatrix, Sketch Engine et Laughter : méthode semi-automatique pour détecter la prosodie sémantique dans les TED Talks
|
|
|
|
In: Outils et Nouvelles Explorations de la Linguistique Appliquée.(ONELA) 2021 ; https://hal-univ-paris.archives-ouvertes.fr/hal-03643470 ; Outils et Nouvelles Explorations de la Linguistique Appliquée.(ONELA) 2021, Oct 2021, Toulouse, France (2021)
|
|
BASE
|
|
Show details
|
|
13 |
Islam de Belgique, islam moderne ou islam des origines ? Étudier les segments répétés pour comprendre le discours social
|
|
|
|
In: ISSN: 0756-7138 ; EISSN: 2804-7397 ; Lexique ; https://hal.archives-ouvertes.fr/hal-03629216 ; Lexique, UMR 8163 « Savoirs, Textes, Langage » Université de Lille, 2021, pp.113-131 ; https://lexique.univ-lille.fr/emislam-de-belgique-islam-moderne-ou-islam-des-origines-em-etudier-les-segments-repetes-pour-comprendre-le-discours-social.html (2021)
|
|
BASE
|
|
Show details
|
|
14 |
Trois corpus de productions ordinaires sous un éclairage syntaxique
|
|
|
|
In: Une grammaire à l'aune de l'oral ; https://hal.uca.fr/hal-03464792 ; Paul Cappeau. Une grammaire à l'aune de l'oral, Presses Universitaires de Rennes, pp.43-60, 2021, 978-2-7535-8006-0 (2021)
|
|
BASE
|
|
Show details
|
|
15 |
Contrastive study of the French and Chinese causative lexicon ; Etude contrastive du lexique causatif français et chinois
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-03483263 ; Linguistique. Université Grenoble Alpes [2020-.], 2021. Français. ⟨NNT : 2021GRALL014⟩ (2021)
|
|
BASE
|
|
Show details
|
|
16 |
Analyse orientée corpus d'universaux de Greenberg sur Universal Dependencies
|
|
|
|
In: Journées LIFT 2021 - Linguistique informatique, formelle et de terrain ; https://hal.inria.fr/hal-03462112 ; Journées LIFT 2021 - Linguistique informatique, formelle et de terrain, GDR LIFT - Linguistique Informatique, Formelle et de Terrain, Dec 2021, Grenoble, France (2021)
|
|
BASE
|
|
Show details
|
|
17 |
SPÉCIFICITÉS ET CONVERGENCES DE L'AROUMAIN AU REGARD DU DACO-ROUMAIN ET DE LA LINGUISTIQUE ROMANE, À PARTIR D'UN CORPUS CONSTITUÉ DE FRAGMENTS DE BASME AROMÂNE DE PERICLE PAPAHAGI
|
|
|
|
In: Ex Oriente lux ; https://hal-amu.archives-ouvertes.fr/hal-03625456 ; MANUELA NEVACI, IRINA FLOAREA, IOAN-MIRCEA FARCAŞ. Ex Oriente lux, Edizioni dell' Orso, 2021, Ex Oriente lux, 978-88-3613-181-5 (2021)
|
|
BASE
|
|
Show details
|
|
18 |
Emergence, participation and co-construction through the lens of multimodality ; Emergence, participation et co-construction au prisme de la multimodalité
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03333686 ; 2021 (2021)
|
|
BASE
|
|
Show details
|
|
19 |
Of Alpinists and Domestic and Wild Animals in the Alps (1857-1899): a Corpus Analysis
|
|
|
|
In: ISSN: 2431-1766 ; Caliban : French Journal of English Linguistics ; Animal Love / L'amour des animaux International conference /Colloque international ; https://hal.archives-ouvertes.fr/hal-02462511 ; Caliban : French Journal of English Linguistics, Presses Universitaires du Mirail, 2021, L’amour des animaux. Exploration des liens animaux dans la littérature et la culture anglophone / Animal Love. Considering Animal Attachments in Anglophone Literature and Culture, pp.189-211 (2021)
|
|
BASE
|
|
Show details
|
|
20 |
Présentation. — Le passif dans la langue parlée
|
|
|
|
In: ISSN: 1146-6480 ; EISSN: 1960-6052 ; LIDIL - Revue de linguistique et de didactique des langues ; https://halshs.archives-ouvertes.fr/halshs-03418485 ; LIDIL - Revue de linguistique et de didactique des langues, UGA Editions, 2021, Le passif dans la langue parlée, ⟨10.4000/lidil.9465⟩ (2021)
|
|
BASE
|
|
Show details
|
|
|
|