DE eng

Search in the Catalogues and Directories

Hits 1 – 1 of 1

1
Language Processing in Digital Editions of Russian 18 th Century Texts ; Лингвистическая обработка цифровых изданий русских текстов XVIII века
In: Corpora 2021 International Conference ; https://halshs.archives-ouvertes.fr/halshs-03285725 ; Corpora 2021 International Conference, Saint-Petersburg State University, Jul 2021, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2021 (2021)
Abstract: International audience ; This paper deals with the problems of language processing of Russian 18th century texts that occurred in the work on digital editions of the printed translation of Al’Quran (1716) and a manuscript translation of La Belle et la Bête (The Beauty and the Beast, 1758). The linguistic processing includes spelling normalization, tokenization, morphological markup and lemmatization. The work was carried out using manual pre-markup with Microsoft Word, conversion to TEI XML format and further automatic processing on the TXM platform including annotation with TreeTagger and building multi-layer transcription. In Al’Quaran edition the spelling normalization is fully automated but only the simplest cases are dealt with, while in La Belle et la Bête manual pre-markup allows generating modern form for all words. ; Лингвистическая обработка цифровых изданий русских текстов XVIII века Аннотация. В докладе рассмотрены проблемы лингвистической обработки русских текстов XVIII в. на материале двух цифровых корпусов: печатного издания Петровского времени «Аль Коран» и рукописной книги середины века «Повесть о Лабелле и звере». К лингвистической обработке относятся нормализация орфографии, токенизация, морфологическая разметка и лемматизация. Работа была реализована с помощью предварительной разметки в текстовом редакторе Microsoft Word, конвертации в формат TEI и последующей автоматизированной обработки на платформе TXM, включающей применение TreeTagger и построение многоуровневой транскрипции. Ключевые слова. русский язык и литература XVIII в., нормализация орфографии, электронное издание, платформа TXM, разметка TEI XML, лемматизация.
Keyword: [SHS.LANGUE]Humanities and Social Sciences/Linguistics; digital edition; lemmatization; Russian language and literature of the 18th century; spelling normalization; TEI XML markup; TXM platform
URL: https://halshs.archives-ouvertes.fr/halshs-03285725/file/Lavrentiev-Kurysheva-hal.pdf
https://halshs.archives-ouvertes.fr/halshs-03285725
https://halshs.archives-ouvertes.fr/halshs-03285725/document
BASE
Hide details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
1
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern