DE eng

Search in the Catalogues and Directories

Hits 1 – 9 of 9

1
Nouveaux regards sur la variation dialectale – New Ways of Analyzing Dialectal Variation
Thibault, André; Avanzi, Mathieu; Lovecchio, N.. - : HAL CCSD, 2021. : : Éditions de Linguistique et de Philologie., 2021
In: https://hal.archives-ouvertes.fr/hal-03332469 ; Strasbourg, : Éditions de Linguistique et de Philologie., 2021 (2021)
BASE
Show details
2
Crowdsourcing linguistic resources for natural non-standardised languages processing ; Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées
Millour, Alice. - : HAL CCSD, 2020
In: https://hal.archives-ouvertes.fr/tel-03083213 ; Informatique et langage [cs.CL]. Sorbonne Universite, 2020. Français (2020)
Abstract: Citizen science, in particular voluntary crowdsourcing, represents a little experimented solution to produce language resources for some languages which are still little resourced despite the presence of sufficient speakers online. We present in this work the experiments we have led to enable the crowdsourcing of linguistic resources for the development of automatic part-of-speech annotation tools. We have applied the methodology to three non-standardised languages, namely Alsatian, Guadeloupean Creole and Mauritian Creole. For different historical reasons, multiple (ortho)-graphic practices coexist for these three languages. The difficulties encountered by the presence of this variation phenomenon led us to propose various crowdsourcing tasks that allow the collection of raw corpora, part-of-speech annotations, and graphic variants.The intrinsic and extrinsic analysis of these resources, used for the development of automatic annotation tools, show the interest of using crowdsourcing in a non-standardized linguistic framework: the participants are not seen in this context a uniform set of contributors whose cumulative efforts allow the completion of a particular task, but rather as a set of holders of complementary knowledge. The resources they collectively produce make possible the development of tools that embrace the variation.The platforms developed, the language resources, as well as the models of trained taggers are freely available. ; Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques. L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée. Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles.
Keyword: [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; annotated corpora; annotation manuelle; Corpus annoté; crowdsourcing; Langue non standardisées; Langues peu dotées; less resourced languages; manual annotation; morphosyntaxe; Myriadisation; Natural language processing; Non-standardized languages; part-of-speech; Traitement automatique des langues
URL: https://hal.archives-ouvertes.fr/tel-03083213v2/file/These_Millour_2020.pdf
https://hal.archives-ouvertes.fr/tel-03083213v2/document
https://hal.archives-ouvertes.fr/tel-03083213
BASE
Hide details
3
Creating Expert Knowledge by Relying on Language Learners: a Generic Approach for Mass-Producing Language Resources by Combining Implicit Crowdsourcing and Language Learning
In: LREC 2020 - Language Resources and Evaluation Conference ; https://hal.inria.fr/hal-02879883 ; LREC 2020 - Language Resources and Evaluation Conference, May 2020, Marseille, France (2020)
BASE
Show details
4
Text Corpora and the Challenge of Newly Written Languages
In: 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020) ; https://hal.archives-ouvertes.fr/hal-02611209 ; 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), May 2020, Marseille, France (2020)
BASE
Show details
5
Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling
In: RANLP ; https://hal.archives-ouvertes.fr/hal-02280002 ; RANLP, Sep 2019, Varna, Bulgaria. pp.776 - 784 (2019)
BASE
Show details
6
Getting to Know the Speakers: a Survey of a Non-Standardized Language Digital Use
In: 9th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics ; https://hal.archives-ouvertes.fr/hal-02137280 ; 9th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, May 2019, Poznań, Poland (2019)
BASE
Show details
7
À l'écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées
In: ISSN: 1248-9433 ; EISSN: 1965-0906 ; Revue TAL ; https://hal.archives-ouvertes.fr/hal-01995758 ; Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), 2018 (2018)
BASE
Show details
8
Proceedings of the workshop "Linguistic diversity and NLP - DiLiTAL" ; Actes de l'atelier « Diversité Linguistique et TAL » (DiLiTAL 2017)
In: https://halshs.archives-ouvertes.fr/halshs-01541153 ; France. 2017 (2017)
BASE
Show details
9
Proceedings of the workshop "Linguistic diversity and NLP - DiLiTAL" ; Actes de l'atelier « Diversité Linguistique et TAL » (DiLiTAL 2017)
In: https://halshs.archives-ouvertes.fr/halshs-01541153 ; France. 2017 (2017)
BASE
Show details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
9
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern