1 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
Bernhard, Delphine; Ligozat, Anne-Laure; Bras, Myriam; Martin, Fanny; Vergez-Couret, Marianne; Erhart, Pascale; Sibille, Jean; Todirascu, Amalia; Boula De Mareüil, Philippe; Huck, Dominique
|
|
In: ISSN: 1934-5275 ; EISSN: 1934-5275 ; Language Documentation & Conservation ; https://hal.archives-ouvertes.fr/hal-03273196 ; Language Documentation & Conservation, University of Hawaiʻi Press 2021, 15, pp.316-357 ; http://hdl.handle.net/10125/74645 (2021)
|
|
Abstract:
International audience ; In contrast to French, the vast majority of regional languages of France can be considered as under-resourced. In this article, we present the results of a research project aiming to produce annotated resources for three regional languages of France: Alsatian, Occitan, and Picard. These languages cover three different language families (Germanic and two subfamilies of Romance, Oïl and Oc languages) and different sociolinguistic situations. Yet, they all face issues common to many under-resourced languages: lack of human and financial resources and presence of geolinguistic variation. The originality of this project is that it brought together researchers from different fields (sociolinguistics, descriptive linguistics, dialectology, natural language processing, digital humanities) to work together towards the common goal of developing annotated corpora for Alsatian, Occitan, and Picard. This created a favorable and stimulating working environment which could not have been achieved had different research groups worked independently, each on a single language. This article details the annotation process, with a special focus on the delimitation of the tokens and the definition of the part-of-speech tags.
|
|
Keyword:
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; Alsatian; annotations; corpus; Occitan; part-of-speech; Picard; tokenization
|
|
URL: https://hal.archives-ouvertes.fr/hal-03273196/file/bernhard_et_al.pdf https://hal.archives-ouvertes.fr/hal-03273196/document https://hal.archives-ouvertes.fr/hal-03273196
|
|
BASE
|
|
Hide details
|
|
2 |
Le rôle des chaînes de référence dans la structuration textuelle : étude diachronique de l’ancien français au français moderne
|
|
|
|
In: ISSN: 0458-726X ; EISSN: 1958-9549 ; Langages ; https://halshs.archives-ouvertes.fr/halshs-03549165 ; Langages, Armand Colin (Larousse jusqu'en 2003), 2021, N° 224 (4), pp.87-107. ⟨10.3917/lang.224.0087⟩ (2021)
|
|
BASE
|
|
Show details
|
|
3 |
Rapport final du projet ANR ALECTOR (Aide à la LECTure pour améliORer l'accès aux documents pour enfants dyslexiques)
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03361468 ; [Rapport de recherche] Agence Nationale de la Recherche. 2021 (2021)
|
|
BASE
|
|
Show details
|
|
4 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
|
|
BASE
|
|
Show details
|
|
5 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
|
|
BASE
|
|
Show details
|
|
6 |
Transformations syntaxiques pour une aide à l'apprentissage de la lecture : typologie, adéquation et corpus adaptés
|
|
|
|
In: ISSN: 2261-2424 ; SHS Web of Conferences ; https://hal.archives-ouvertes.fr/hal-02562205 ; SHS Web of Conferences, EDP Sciences, 2020, 7e Congrès Mondial de Linguistique Française 78, pp.14006. ⟨10.1051/shsconf/20207814006⟩ (2020)
|
|
BASE
|
|
Show details
|
|
7 |
French coreference for spoken and written language
|
|
|
|
In: Language Resources and Evaluation Conference (LREC 2020) ; https://hal.archives-ouvertes.fr/hal-02476902 ; Language Resources and Evaluation Conference (LREC 2020), 2020, Marseille, France. pp.80-89 ; https://www.aclweb.org/anthology/2020.lrec-1.10 (2020)
|
|
BASE
|
|
Show details
|
|
8 |
L’avenir numérique des langues minoritaires : bilan du projet RESTAURE pour l’alsacien, l’occitan et le picard
|
|
|
|
In: ISSN: 2105-0368 ; Les Cahiers du GEPE ; Colloque « Langues minoritaires » : quels acteurs pour quel avenir ? ; https://hal.archives-ouvertes.fr/hal-02378172 ; Les Cahiers du GEPE, Université de Strasbourg, 2020, Langues minoritaires : Quels acteurs pour quel avenir ? ; http://cahiersdugepe.fr/index.php?id=3662 (2020)
|
|
BASE
|
|
Show details
|
|
9 |
Recommandations pour des transformations de textes français afin d'améliorer leur lisibilité et leur compréhension
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-03198905 ; [Rapport de recherche] ANR. 2020 (2020)
|
|
BASE
|
|
Show details
|
|
10 |
PolylexFLE : une base de données d'expressions polylexicales pour le FLE
|
|
|
|
In: Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs ; 26e Conférence sur le Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-02566348 ; 26e Conférence sur le Traitement Automatique des Langues Naturelles, 2019, Toulouse, France. pp.143-156 (2019)
|
|
BASE
|
|
Show details
|
|
11 |
Les chaînes de référence dans les textes encyclopédiques du 12`supbe`/supb au 21`supbe`/supb siècle : étude longitudinale
|
|
|
|
In: Travaux de linguistique, n 77, 2, 2019-05-17, pp.67-141 (2019)
|
|
BASE
|
|
Show details
|
|
12 |
Les chaînes de référence dans les textes encyclopédiques du 12e au 21e siècle : étude longitudinale
|
|
|
|
In: ISSN: 0082-6049 ; EISSN: 1782-1576 ; Travaux de Linguistique : Revue Internationale de Linguistique Française ; https://halshs.archives-ouvertes.fr/halshs-03129065 ; Travaux de Linguistique : Revue Internationale de Linguistique Française, De Boeck Université, 2018, n° 77 (2), pp.67. ⟨10.3917/tl.077.0067⟩ (2018)
|
|
BASE
|
|
Show details
|
|
13 |
Multiword Expression Processing: A Survey
|
|
|
|
In: ISSN: 0891-2017 ; EISSN: 1530-9312 ; Computational Linguistics ; https://halshs.archives-ouvertes.fr/halshs-01665254 ; Computational Linguistics, Massachusetts Institute of Technology Press (MIT Press), 2017, 43 (4), pp.837-892. ⟨10.1162/COLI_a_00302⟩ ; http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00302 (2017)
|
|
BASE
|
|
Show details
|
|
14 |
Chaînes de référence et lisibilité des textes : Le projet ALLuSIF
|
|
|
|
In: ISSN: 0023-8368 ; EISSN: 1957-7982 ; Langue française ; https://halshs.archives-ouvertes.fr/halshs-01665316 ; Langue française, Armand Colin, 2017, Les chaînes de référence en corpus (éds. Catherine Schnedecker, Julie Glikman, Frédéric Landragin), 195 (3), pp.35-52 ; http://www.revues.armand-colin.com/lettres-langues/langue-francaise/langue-francaise-ndeg-195-32017 (2017)
|
|
BASE
|
|
Show details
|
|
15 |
Chaînes de référence et lisibilité des textes : le projet ALLuSIF
|
|
|
|
In: Langue française, N 195, 3, 2017-09-25, pp.35-52 (2017)
|
|
BASE
|
|
Show details
|
|
16 |
Are Cohesive Features Relevant for Text Readability Evaluation?
|
|
|
|
In: 26th International Conference on Computational Linguistics (COLING 2016) ; https://hal.archives-ouvertes.fr/hal-01430554 ; 26th International Conference on Computational Linguistics (COLING 2016), Dec 2016, Osaka, Japan. pp.987 - 997 ; http://coling2016.anlp.jp/ (2016)
|
|
BASE
|
|
Show details
|
|
17 |
Amalia Todirascu, Johanna Monti "Processing MWE in Machine Translation Systems"
|
|
|
|
In: 4th PARSEME general meeting, 19-20 March 2015, Valletta, Malta ; https://hal.inria.fr/hal-01224330 ; 4th PARSEME general meeting, 19-20 March 2015, Valletta, Malta, Mar 2015, La Valletta, Malta ; http://typo.uni-konstanz.de/parseme/index.php/event/general-meetings (2015)
|
|
BASE
|
|
Show details
|
|
18 |
MULTIWORD UNITS TRANSLATION EVALUATION IN MACHINE TRANSLATION: ANOTHER PAIN IN THE NECK?
|
|
|
|
In: MUMTTT workshop of EUROPHRAS conference ; https://hal.archives-ouvertes.fr/hal-01223939 ; MUMTTT workshop of EUROPHRAS conference, Jul 2015, Malaga, Spain ; http://www.europhras2015.eu/presentation (2015)
|
|
BASE
|
|
Show details
|
|
19 |
La relation lexicale «Chef» : une approche translingue français-anglais-allemand
|
|
|
|
In: ISSN: 0026-0452 ; EISSN: 1492-1421 ; Meta : journal des traducteurs ; https://hal.inria.fr/hal-01095482 ; Meta : journal des traducteurs, Presses Universitaires de Montreal, 2014, 59 (2), (sous-presse) ; http://www.pum.umontreal.ca/catalogue/revues/meta (2014)
|
|
BASE
|
|
Show details
|
|
20 |
La relation de hiérarchie « chef » : une approche translingue français-anglais-allemand
|
|
|
|
In: ISSN: 0026-0452 ; EISSN: 1492-1421 ; Meta : journal des traducteurs ; https://halshs.archives-ouvertes.fr/halshs-01225225 ; Meta : journal des traducteurs, Presses Universitaires de Montreal, 2014, 2 (59), pp.436-456. ⟨10.7202/1027483ar⟩ ; http://www.erudit.org/revue/meta/2014/v59/n2/1027483ar.html?vue=resume&mode=restriction (2014)
|
|
BASE
|
|
Show details
|
|
|
|