1 |
Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots
|
|
|
|
In: ISSN: 2118-2698 ; Diachroniques. Revue de Linguistique française diachronique ; https://halshs.archives-ouvertes.fr/halshs-03243774 ; Diachroniques. Revue de Linguistique française diachronique, Presses de l'Université Paris-Sorbonne (PUPS), 2021, pp.77-102 ; https://sup.sorbonne-universite.fr/catalogue/revues/diachroniques/diachroniques-ndeg8 (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Approche quantitative des marques graphiques et lexicales de l’oral représenté à travers les corpus BFM et BVH
|
|
|
|
In: ISSN: 1699-4949 ; Çedille ; https://halshs.archives-ouvertes.fr/halshs-03248597 ; Çedille, La Laguna Santa Cruz de Tenerife: Asociación de Profesores de Francés de la Universidad Española, 2021, pp.319-345. ⟨10.25145/j.cedille.2021.19.13⟩ (2021)
|
|
BASE
|
|
Show details
|
|
3 |
Language Processing in Digital Editions of Russian 18 th Century Texts ; Лингвистическая обработка цифровых изданий русских текстов XVIII века
|
|
|
|
In: Corpora 2021 International Conference ; https://halshs.archives-ouvertes.fr/halshs-03285725 ; Corpora 2021 International Conference, Saint-Petersburg State University, Jul 2021, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2021 (2021)
|
|
BASE
|
|
Show details
|
|
4 |
Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts
|
|
|
|
In: ISSN: 2310-5046 ; Tomsk State University Journal of Philology ; https://halshs.archives-ouvertes.fr/halshs-03243725 ; Tomsk State University Journal of Philology, Tomsk State University, 2021, pp.69-89. ⟨10.17223/19986645/70/5⟩ ; http://journals.tsu.ru/philology/en/&journal_page=archive&id=2066&article_id=47351 (2021)
|
|
BASE
|
|
Show details
|
|
5 |
Décrire les textes dans le cadre d’une édition numérique. ; Décrire les textes dans le cadre d’une édition numérique.: Le thésaurus “Typologie textuelle” du Consortium CAHIER
|
|
|
|
In: https://halshs.archives-ouvertes.fr/halshs-03402679 ; 2021 (2021)
|
|
BASE
|
|
Show details
|
|
6 |
La Base de français médiéval et le consortium CAHIER : dix ans d'échanges et de collaborations
|
|
|
|
In: 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique ; https://halshs.archives-ouvertes.fr/halshs-03363517 ; 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique, Jun 2021, Bordeaux, France ; https://cahier10.sciencesconf.org/344494 (2021)
|
|
BASE
|
|
Show details
|
|
12 |
Analysis of corpus of extremist and unlawful texts ; Анализ корпусов текстов террористической и антиправовой направленности
|
|
|
|
In: ISSN: 2311-3456 ; Voprosy kiberbezopasnosti ; https://halshs.archives-ouvertes.fr/halshs-02266136 ; Voprosy kiberbezopasnosti, NPO Eshelon, 2019, pp.54-60. ⟨10.21681/2311-3456-2019-4-54-60⟩ (2019)
|
|
Abstract:
International audience ; The purpose of the study in the development of a technique of creation and automatic analysis of special corpora for their subsequent application as the training datasets and detecting the differentiating characters in problems of text classification. The method is to use the analysis tools provided by the TXM platform expanded with new procedures of calculation of additional characteristics of texts, such as combinations of letters, pseudo-stems, noun phrases and verb phrases. As a results, it is shown that the developed extenders of the case TXM platform allow to solve effectively problems of the analysis of texts of special subject, the created corpus of extremist subject can be used as the training selection for problems of classification of texts, the conclusion about use of combinations of letters as the universal differentiating characters along with classical linguistic characteristics of texts is drawn. ; Цель исследования состоит в разработке методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов. В качестве метода применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы. В результате показано, что разработанные средства расширения корпусной платформы TXM позволяют эффективно решать задачи анализа текстов специальной тематики, созданный корпус текстов экстремистской тематики может использоваться в качестве обучающей выборки для задач классификации текстов, делается вывод об использовании буквосочетаний как универсальных дифференцирующих признаков наряду с классическими лингвистическими характеристиками текстов.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; [SHS.LANGUE]Humanities and Social Sciences/Linguistics; automated text analysis; corpus linguistics; detecting extremist texts; noun phrases; stemming; TXM platform; verbal dependencies; автоматический анализ текстов; выявление экстремистских текстов; глагольное управление; именные группы; корпусная лингвистика; платформа TXM; псевдоосновы
|
|
URL: https://doi.org/10.21681/2311-3456-2019-4-54-60 https://halshs.archives-ouvertes.fr/halshs-02266136
|
|
BASE
|
|
Hide details
|
|
13 |
Implementation in the txm platform of additional instruments of automatic text processing ; Внедрение в TXM дополнительных инструментов автоматической обработки текста
|
|
|
|
In: Corpus linguistics - 2019 ; https://halshs.archives-ouvertes.fr/halshs-02266174 ; Corpus linguistics - 2019, Jun 2019, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2019 (2019)
|
|
BASE
|
|
Show details
|
|
14 |
Digital editions and corpora of francophone diaries by Alexandre Chicherin and Olga Orlova-Davydova
|
|
|
|
In: Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018 ; https://halshs.archives-ouvertes.fr/halshs-03271314 ; Anisava Miltenova; Victor Baranov; Heniz Miklas; Kevin Hawkins; Jürgen Fuchsbauer. Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018, Gutenberg Publishing House, pp.129-142, 2019, 978-619-176-155-5 ; https://www.obshtezhitie.net/texts/Approaches.pdf (2019)
|
|
BASE
|
|
Show details
|
|
15 |
Traitement de la ponctuation. Normes, introductions, pratiques
|
|
|
|
In: Les Introductions linguistiques aux éditions de textes ; https://halshs.archives-ouvertes.fr/halshs-01318870 ; Duval, Frédéric; Guillot-Barbance, Céline; Zinelli, Fabio. Les Introductions linguistiques aux éditions de textes, Classiques Garnier, pp.275-294, 2019, Les introductions aux éditions de textes, 978-2-406-08578-2. ⟨10.15122/isbn.978-2-406-08580-5.p.0275⟩ (2019)
|
|
BASE
|
|
Show details
|
|
18 |
Diachronie de l'oral représenté ; Diachronie de l'oral représenté: délimitation et segmentation interne du dialogue (IXe-XVe siècle)
|
|
|
|
In: Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF ; https://halshs.archives-ouvertes.fr/halshs-01313822 ; Wendy Ayres-Benett; Anne Carlier; Julie Glikman; Thomas Rainsford; Gilles Siouffi; Carine Skupien Dekens. Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, Classiques Garnier, pp.279-296, 2018, Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, ⟨10.15122/isbn.978-2-406-06946-1.p.0279⟩ ; http://diachronie.org/colloques/colloque-cambridge-2014 (2018)
|
|
BASE
|
|
Show details
|
|
19 |
Universal Dependencies 2.2
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-01930733 ; 2018 (2018)
|
|
BASE
|
|
Show details
|
|
20 |
Creating text corpora for special purposes on the basis of extended TXM platform ; Создание специальных корпусов текстов на основе расширенной платформы TXM
|
|
|
|
In: ISSN: 2072-9472 ; Systemy vysokoj dostupnosti ; https://halshs.archives-ouvertes.fr/halshs-01880719 ; Systemy vysokoj dostupnosti, Radiotekhnika, 2018, 14 (3), pp.76-81. ⟨10.18127/j20729472-201803-13⟩ (2018)
|
|
BASE
|
|
Show details
|
|
|
|