DE eng

Search in the Catalogues and Directories

Page: 1 2
Hits 1 – 20 of 21

1
Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques
In: Conférence en Recherche d'Informations et Applications (CORIA 2021) ; https://hal.archives-ouvertes.fr/hal-03320332 ; Conférence en Recherche d'Informations et Applications (CORIA 2021), ARIA : Association Francophone de Recherche d’Information (RI) et Applications, Apr 2021, Grenoble (virtuel), France. pp.1 - 7 ; http://coria.asso-aria.org/2021/articles/mini_24/main.pdf (2021)
Abstract: National audience ; This paper tackles the task of NER applied to historical texts obtained from processing digital images of news papers using OCR techniques. The main challenge for this task is that the OCR process leads to misspellings and linguistic errors in the output text, which can impact the performance of the NER. We conduct a comparative evaluation on two historical datasets in German and French against previous state-of-the-art models, and we propose a model based ona hierarchical stack of Transformers to approach the NER task for historical data. Our findings show that the proposed model clearly improves the results on both historical data sets ; Cet article aborde la reconnaissance d’entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d’images numériques de journaux à l’aide de tech-niques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entités nommées. Nous menons une évaluation comparative à l’état de l’art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d’entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données
Keyword: [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; [INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL]; [INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC]; [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR]; [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]; [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; données historiques; données multi-lingues; Extraction d’information; Historical data; Information extraction; Multilingual data; Named entity recognition; reconnaissance d’entités nommées
URL: https://hal.archives-ouvertes.fr/hal-03320332/document
https://hal.archives-ouvertes.fr/hal-03320332
https://hal.archives-ouvertes.fr/hal-03320332/file/main%281%29.pdf
BASE
Hide details
2
A Multilingual and Contrastive Approach to Phraseological Translation: The Parallel Corpus GRAFE ; Un enfoque multilingüe y contrastivo de la traducción fraseológica: el corpus paralelo GRAFE
In: ISSN: 2444-1961 ; CLINA: An Interdisciplinary Journal of Translation, Interpreting and Intercultural Communication ; https://hal.archives-ouvertes.fr/hal-03241488 ; CLINA: An Interdisciplinary Journal of Translation, Interpreting and Intercultural Communication, Universidad de Salamanca, 2021 (2021)
BASE
Show details
3
A Multilingual Dataset for Named Entity Recognition, Entity Linking and Stance Detection in Historical Newspapers
In: SIGIR '21: The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval ; https://hal.archives-ouvertes.fr/hal-03418387 ; SIGIR '21: The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, Jul 2021, Virtual Event, Canada. pp.2328-2334, ⟨10.1145/3404835.3463255⟩ (2021)
BASE
Show details
4
Lost in translation: Qualitative data collecting and translating challenges in multilingual settings in information systems research
BASE
Show details
5
Exploring and Mapping Science ...
Syahid, Abdul. - : Open Science Framework, 2021
BASE
Show details
6
APiCS-Ligt: Towards Semantic Enrichment of Interlinear Glossed Text ...
Ionov, Maxim. - : Schloss Dagstuhl - Leibniz-Zentrum für Informatik, 2021
BASE
Show details
7
Towards Learning Terminological Concept Systems from Multilingual Natural Language Text ...
Wachowiak, Lennart; Lang, Christian; Heinisch, Barbara. - : Schloss Dagstuhl - Leibniz-Zentrum für Informatik, 2021
BASE
Show details
8
A Smell is Worth a Thousand Words: Olfactory Information Extraction and Semantic Processing in a Multilingual Perspective (Invited Talk) ...
Tonelli, Sara. - : Schloss Dagstuhl - Leibniz-Zentrum für Informatik, 2021
BASE
Show details
9
Derzis: A Path Aware Linked Data Crawler ...
Santos, André Fernandes dos; Leal, José Paulo. - : Schloss Dagstuhl - Leibniz-Zentrum für Informatik, 2021
BASE
Show details
10
Improving Multilingual Models for the Swedish Language : Exploring CrossLingual Transferability and Stereotypical Biases
Katsarou, Styliani. - : KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021
BASE
Show details
11
Extending a Text Classifier to Multiple Languages ; Utöka en textklassificeringsmodell till flera språk
Byström, Albin. - : KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021
BASE
Show details
12
Analyzing Non-Textual Content Elements to Detect Academic Plagiarism
BASE
Show details
13
A Multilingual and Contrastive Approach to Phraseological Translation: The Parallel Corpus GRAFE ; Un enfoque multilingüe y contrastivo de la traducción fraseológica: el corpus paralelo GRAFE
In: CLINA Revista Interdisciplinaria de Traducción Interpretación y Comunicación Intercultural; Vol. 6 Núm. 2 (2020); 51-69 ; CLINA Revista Interdisciplinaria de Traducción Interpretación y Comunicación Intercultural; Vol. 6 No. 2 (2020); 51-69 ; 2444-1961 ; 10.14201/clina202062 (2021)
BASE
Show details
14
Dissemination of Corporate Web Information in Spanish: The Case of the US Healthcare Sector
BASE
Show details
15
Internet Presence and Multilingual Dissemination in Corporate Websites: A Portrait of Spanish Healthcare SMEs
BASE
Show details
16
Information-seeking behavior in multilingual digital libraries: A study of the Saudi Digital Library
Alsalmi, Hany. - 2021
BASE
Show details
17
Indigenous Librarianship and International Ideas Roundtable
In: New Librarianship Symposia Series: Fall 2021 (2021)
BASE
Show details
18
Making a Place at the Table: A Guide for Small, Rural, and Suburban Libraries
In: South Carolina Libraries (2021)
BASE
Show details
19
Multilingual Cataloguing: A Comparative Study of the Descriptive Library Catalogue in the Higher Educational Institutions of Kerala State
In: Library Philosophy and Practice (e-journal) (2021)
BASE
Show details
20
Sustaining Multilinguality: Case Studies of Two Multilingual Digital Libraries
Wu, Anping. - : University of North Texas, 2021
BASE
Show details

Page: 1 2

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
21
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern