1 |
Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots
|
|
|
|
In: ISSN: 2118-2698 ; Diachroniques. Revue de Linguistique française diachronique ; https://halshs.archives-ouvertes.fr/halshs-03243774 ; Diachroniques. Revue de Linguistique française diachronique, Presses de l'Université Paris-Sorbonne (PUPS), 2021, pp.77-102 ; https://sup.sorbonne-universite.fr/catalogue/revues/diachroniques/diachroniques-ndeg8 (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Approche quantitative des marques graphiques et lexicales de l’oral représenté à travers les corpus BFM et BVH
|
|
|
|
In: ISSN: 1699-4949 ; Çedille ; https://halshs.archives-ouvertes.fr/halshs-03248597 ; Çedille, La Laguna Santa Cruz de Tenerife: Asociación de Profesores de Francés de la Universidad Española, 2021, pp.319-345. ⟨10.25145/j.cedille.2021.19.13⟩ (2021)
|
|
BASE
|
|
Show details
|
|
3 |
Language Processing in Digital Editions of Russian 18 th Century Texts ; Лингвистическая обработка цифровых изданий русских текстов XVIII века
|
|
|
|
In: Corpora 2021 International Conference ; https://halshs.archives-ouvertes.fr/halshs-03285725 ; Corpora 2021 International Conference, Saint-Petersburg State University, Jul 2021, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2021 (2021)
|
|
BASE
|
|
Show details
|
|
4 |
Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts
|
|
|
|
In: ISSN: 2310-5046 ; Tomsk State University Journal of Philology ; https://halshs.archives-ouvertes.fr/halshs-03243725 ; Tomsk State University Journal of Philology, Tomsk State University, 2021, pp.69-89. ⟨10.17223/19986645/70/5⟩ ; http://journals.tsu.ru/philology/en/&journal_page=archive&id=2066&article_id=47351 (2021)
|
|
BASE
|
|
Show details
|
|
5 |
Décrire les textes dans le cadre d’une édition numérique. ; Décrire les textes dans le cadre d’une édition numérique.: Le thésaurus “Typologie textuelle” du Consortium CAHIER
|
|
|
|
In: https://halshs.archives-ouvertes.fr/halshs-03402679 ; 2021 (2021)
|
|
BASE
|
|
Show details
|
|
6 |
La Base de français médiéval et le consortium CAHIER : dix ans d'échanges et de collaborations
|
|
|
|
In: 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique ; https://halshs.archives-ouvertes.fr/halshs-03363517 ; 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique, Jun 2021, Bordeaux, France ; https://cahier10.sciencesconf.org/344494 (2021)
|
|
Abstract:
International audience ; Le projet de la Base de français médiéval (BFM, http://txm.bfm-corpus.org) fait partie des membres fondateurs du Consortium CAHIER. Les origines du projet remontent à la fin des années 1980 et son évolution a suivi, et parfois anticipé, les grandes tendances du développement des humanités numériques. L'expérience de la BFM a permis de contribuer à plusieurs chantiers du consortium CAHIER : l'accès libre aux données, les normes d'encodage (et notamment l'usage de la TEI), la typologie textuelle, la mise en place de chaînes éditoriales ouvertes. Les échanges qui se sont produits dans les groupes de travail et lors des ateliers du consortium permettent à leur tour d'améliorer les pratiques d'encodage et les outils proposés aux utilisateurs de la BFM et d'assurer une plus grande interopérabilité et pérennité des données.La constitution de la BFM a commencé par la numérisation de l'édition de la Queste del saint Graal d'A. Pauphilet (1923) et la base a été enrichie au fil des ans grâce à des vacations, aux contributions de doctorants de Ch. Marchello-Nizia, aux échanges avec des collègues et, plus récemment, grâce à des financements ANR. A ce jour, la BFM comprend 170 textes composés entre le 9e et le 15e siècle, soit près de 4,7 millions de mots. Pour la Queste del saint Graal l'édition de Pauphilet a d'ailleurs été remplacée dans le corpus par une édition numérique originale (Marchello-Nizia et Lavrentiev 2019). Une augmentation importante du corpus est prévue en 2021. Les textes de la BFM sont étiquetés en morphosyntaxe et lemmatisés (avec ou sans vérification) et bénéficient du balisage XML-TEI enrichi. En particulier, le discours direct est balisé dans l'ensemble du corpus, ce qui permet de mener des recherches sur l'oral représenté (Guillot-Barbance et al. 2018). De nombreuses thèses et travaux de recherche ont été réalisés grâce aux données de la BFM. Notamment, la partie médiévale du corpus de la Grande grammaire historique du français (Marchello-Nizia et al. 2020) est entièrement issue de la Base de français médiéval. La BFM est accessible en ligne grâce au logiciel « portail TXM » (http://textometrie.org), les textes peuvent être consultés librement et l'accès au moteur de recherche et d'analyse est donné gratuitement sur simple inscription (Guillot-Barbance et al. 2017).Quand la TGIR Corpus (prédécesseur d'Huma-num) lance en 2010 l'appel à la création de consortiums de corpus, la BFM faisait déjà, depuis 2004, partie du Consortium international pour les corpus de français médiéval (CCFM, http://ccfm.ens-lyon.fr). Cette organisation informelle, n'ayant jamais bénéficié d'un financement spécifique et dont l'activité s'est estompée après 2008, a néanmoins permis d'entamer la réflexion et de publier des documents de travail sur les normes communes d'encodage et de description des textes, ainsi que sur les conditions d'accès aux corpus et d'échange de données. L'expérience du CCFM a sans doute inspiré l'initiative de la TGIR Corpus et a servi de point de départ pour certaines activités de CAHIER (notamment pour l'organisation de groupes de travail et pour la rédaction de guides de bonnes pratiques).L'un des premiers groupes de travail de CAHIER visait à traiter les questions juridiques liées aux droits d'auteurs (et d'éditeurs) et à la mise à disposition de corpus. La BFM avait commencé comme un ensemble de concordanciers échangés dans un cadre privé entre chercheurs sous la forme de CD-ROM ou de tirages papier, puis elle avait progressivement ouvert l'accès à l'interrogation et au téléchargement du corpus sur Internet. Elle avait une longue histoire de relations complexes avec les éditeurs commerciaux. Denise Pierrot, qui s'est occupée des questions juridiques pour la BFM, a également joué un rôle important dans le groupe de travail correspondant de CAHIER et a contribué à la rédaction du Guide des bonnes pratiques. La situation juridique a évolué suite aux décisions de justice dans le procès Droz contre Garnier numérique (2014 et 2017), ce qui a rendu possible la mise à disposition libre de textes historiques (hors apparat critique).La pérennisation des données, grâce notamment à l'usage de l'encodage XML-TEI pour les textes et les annotations, a été la priorité pour la BFM depuis le début des années 2000 (Guillot et Heiden 2002). Le consortium CAHIER a pu bénéficier de la documentation de la BFM relative à l'encodage TEI du corps du texte et de l'entête (teiHeader) des documents. La BFM a été l'un des premiers projets à se conformer au modèle élaboré pour l'outil Weboai de CAHIER permettant le moissonnage des métadonnées (http://weboai.cahier.huma-num.fr). Toujours dans le domaine des métadonnées, les descripteurs typologiques de BFM, tels que le genre ou le domaine du texte, ont servi de base au thésaurus élaboré par le groupe de travail « Typologie textuelle » de CAHIER. Ce thésaurus, très riche et soigneusement structuré, permettra à son tour de préciser les métadonnées des futurs corpus de la BFM et de faciliter l'analyse de données de corpus agrégés à partir de plusieurs sources.La pérennisation des données de recherche conformément aux principes FAIR (Findability, Accessibility, Interoperability and Reusability) est l'activité du Consortium CAHIER fortement encouragée par la TGIR Huma-Num. Même si la vision qui semble se dégager des recommandations du conseil scientifique d'Huma-Num et qui consiste à exiger avant tout le dépôt des données dans l'outil Nakala nous paraît un peu réductrice, il est certain que l'archivage pérenne et l'accessibilité des données sont extrêmement importants. Le soutien que CAHIER assure pour le dépôt des textes et des images dans NAKALA est très précieux pour la BFM.La formation aux outils d'édition, d'analyse et de publication de corpus ouverts, ainsi que l'échange de bonnes pratiques éditoriales, a toujours été l'une des principales activités de CAHIER. La BFM, qui se développe en étroite collaboration avec la plateforme de préparation, d'analyse et de préparation de corpus TXM (Heiden et al. 2010) a pu partager son expérience, et des membres de l'équipe BFM ont animé de nombreuses séances de formation lors des ateliers CAHIER.Le consortium CAHIER a également favorisé les échanges entre l'équipe TXM et le Pôle document numérique de la MSH de Caen qui développe la chaîne éditoriale Métopes (grâce notamment au financement d'un stage en 2017). La BFM bénéficie actuellement de certains éléments de Métopes pour la mise en page de ses éditions au format PDF et des scripts de traitement automatique permettant d'importer dans TXM des documents XML-TEI créés avec Métopes ont été élaborés.La BFM est un projet qui a commencé bien avant la création du Consortium CAHIER et qui va sans doute continuer à se développer après la disparition de CAHIER dans sa forme actuelle de consortium de la TGIR Huma-Num. Quel que soit l'avenir du Consortium, nous sommes convaincus que les ressources numériques, les méthodes et les outils de travail élaborés grâce ou avec le soutien de CAHIER ainsi que les relations humaines et les partenariats de recherche qui se sont tissés au cours des dix ans de ses activités continueront à jouer un rôle important dans la communauté des humanités numériques.
|
|
Keyword:
[INFO]Computer Science [cs]; [SHS.LANGUE]Humanities and Social Sciences/Linguistics; [SHS.LITT]Humanities and Social Sciences/Literature; Philologie numérique; TEI; TXM
|
|
URL: https://halshs.archives-ouvertes.fr/halshs-03363517
|
|
BASE
|
|
Hide details
|
|
12 |
Analysis of corpus of extremist and unlawful texts ; Анализ корпусов текстов террористической и антиправовой направленности
|
|
|
|
In: ISSN: 2311-3456 ; Voprosy kiberbezopasnosti ; https://halshs.archives-ouvertes.fr/halshs-02266136 ; Voprosy kiberbezopasnosti, NPO Eshelon, 2019, pp.54-60. ⟨10.21681/2311-3456-2019-4-54-60⟩ (2019)
|
|
BASE
|
|
Show details
|
|
13 |
Implementation in the txm platform of additional instruments of automatic text processing ; Внедрение в TXM дополнительных инструментов автоматической обработки текста
|
|
|
|
In: Corpus linguistics - 2019 ; https://halshs.archives-ouvertes.fr/halshs-02266174 ; Corpus linguistics - 2019, Jun 2019, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2019 (2019)
|
|
BASE
|
|
Show details
|
|
14 |
Digital editions and corpora of francophone diaries by Alexandre Chicherin and Olga Orlova-Davydova
|
|
|
|
In: Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018 ; https://halshs.archives-ouvertes.fr/halshs-03271314 ; Anisava Miltenova; Victor Baranov; Heniz Miklas; Kevin Hawkins; Jürgen Fuchsbauer. Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018, Gutenberg Publishing House, pp.129-142, 2019, 978-619-176-155-5 ; https://www.obshtezhitie.net/texts/Approaches.pdf (2019)
|
|
BASE
|
|
Show details
|
|
15 |
Traitement de la ponctuation. Normes, introductions, pratiques
|
|
|
|
In: Les Introductions linguistiques aux éditions de textes ; https://halshs.archives-ouvertes.fr/halshs-01318870 ; Duval, Frédéric; Guillot-Barbance, Céline; Zinelli, Fabio. Les Introductions linguistiques aux éditions de textes, Classiques Garnier, pp.275-294, 2019, Les introductions aux éditions de textes, 978-2-406-08578-2. ⟨10.15122/isbn.978-2-406-08580-5.p.0275⟩ (2019)
|
|
BASE
|
|
Show details
|
|
18 |
Diachronie de l'oral représenté ; Diachronie de l'oral représenté: délimitation et segmentation interne du dialogue (IXe-XVe siècle)
|
|
|
|
In: Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF ; https://halshs.archives-ouvertes.fr/halshs-01313822 ; Wendy Ayres-Benett; Anne Carlier; Julie Glikman; Thomas Rainsford; Gilles Siouffi; Carine Skupien Dekens. Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, Classiques Garnier, pp.279-296, 2018, Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, ⟨10.15122/isbn.978-2-406-06946-1.p.0279⟩ ; http://diachronie.org/colloques/colloque-cambridge-2014 (2018)
|
|
BASE
|
|
Show details
|
|
19 |
Universal Dependencies 2.2
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-01930733 ; 2018 (2018)
|
|
BASE
|
|
Show details
|
|
20 |
Creating text corpora for special purposes on the basis of extended TXM platform ; Создание специальных корпусов текстов на основе расширенной платформы TXM
|
|
|
|
In: ISSN: 2072-9472 ; Systemy vysokoj dostupnosti ; https://halshs.archives-ouvertes.fr/halshs-01880719 ; Systemy vysokoj dostupnosti, Radiotekhnika, 2018, 14 (3), pp.76-81. ⟨10.18127/j20729472-201803-13⟩ (2018)
|
|
BASE
|
|
Show details
|
|
|
|