Page: 1 2 3 4 5 6 7 8... 35
61 |
Extracting information in old handwritten documents ; Extraction d’information dans des documents manuscrits anciens
|
|
|
|
In: https://hal.archives-ouvertes.fr/tel-02925118 ; Traitement des images [eess.IV]. Université de Nantes, 2018. Français (2018)
|
|
Abstract:
Exploring unexploited but newly digitized resources to find relevant information is a complicated task due to the amount of available resources. Thanks to the ANR project CIRESFI, the most important resource for the Italian Comedy of the 18th century, is a set of accounting registers consisting of 28,000 pages. Information retrieval is a long and complex process that requires expertise at every step: detection and segmentation in paragraphs, lines or words, features extraction, handwriting recognition. Systems based on deep neural networks dominate these approaches. The major issue is the need of a large amount of data to achieve their learning. However, the registers of the Italian Comedy have no ground truth. To overcome this lack of data, we explore approaches that involving transfer learning. That means using heterogeneous labeled and available data, with at least one common feature with our data to drive the systems, and then applying them to our data. All of our experiments have shown us the difficulty of carrying out this task, each choice at each stage having a strong impact on the rest of the system. We converge on a solution separating the optical model from the language model in order to achieve independent learning with different available resources and joining together thanks to a projection of the information into a non-latent common space. ; La tâche d'exploration dans des ressources inexploitées mais nouvellement numérisées, afin d'y trouver des informations pertinentes, est complexifiée par la quantité de ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L'extraction d'informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l'ensemble ces approches. Le problème majeur est qu'ils nécessitent d'avoir une grande quantité de données pour réaliser leur apprentissage. Cependant, les registres de la Comédie-Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L'ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l'ensemble des informations dans un espace commun non-latent.
|
|
Keyword:
[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]; [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE]; [INFO.INFO-TI]Computer Science [cs]/Image Processing [eess.IV]; Apprentissage par transfert de connaissances; Documents historiques; Handwriting recognition; Historical documents; Linguistic model; Modèle linguistique; Modèle optique; Neural network; Optical model; Reconnaissance d’écriture manuscrite; Réseaux de neurones; Transfer learning
|
|
URL: https://hal.archives-ouvertes.fr/tel-02925118/file/GRANET.pdf https://hal.archives-ouvertes.fr/tel-02925118 https://hal.archives-ouvertes.fr/tel-02925118/document
|
|
BASE
|
|
Hide details
|
|
62 |
Separating Optical and Language Models through Encoder-Decoder Strategy for Transferable Handwriting Recognition
|
|
|
|
In: 16th International Conference on Frontiers in Handwriting Recognition (ICFHR) ; https://hal.archives-ouvertes.fr/hal-01821598 ; 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), Aug 2018, Niagara Falls, Canada (2018)
|
|
BASE
|
|
Show details
|
|
63 |
Generative vs. Discriminative Recognition Models for Off-Line Arabic Handwriting
|
|
|
|
In: Sensors ; Volume 18 ; Issue 9 (2018)
|
|
BASE
|
|
Show details
|
|
64 |
Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription
|
|
|
|
BASE
|
|
Show details
|
|
65 |
Language, Orthography and Buddhist Manuscript Culture of the Tai Nuea - an apocryphal jātaka text in Mueang Sing, Laos
|
|
|
|
BASE
|
|
Show details
|
|
66 |
How specialized are writing-specific brain regions? An fMRI study of writing, drawing and oral spelling
|
|
|
|
In: ISSN: 0010-9452 ; Cortex ; https://hal.archives-ouvertes.fr/hal-01473913 ; Cortex, Elsevier, 2017, 88, pp.66-80. ⟨10.1016/j.cortex.2016.11.018⟩ (2017)
|
|
BASE
|
|
Show details
|
|
67 |
Language Modelling for Handwriting Recognition ; Des modèles de langage pour la reconnaissance de l'écriture manuscrite
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-01781268 ; Modeling and Simulation. Normandie Université, 2017. English. ⟨NNT : 2017NORMR024⟩ (2017)
|
|
BASE
|
|
Show details
|
|
68 |
The Karjala database – challenges and solutions for digitizing heterogeneous, old genealogical documents for internet use
|
|
|
|
In: DH. Opportunities and Risks. Connecting Libraries and Research ; https://hal.inria.fr/hal-01660143 ; DH. Opportunities and Risks. Connecting Libraries and Research, Aug 2017, Berlin, Germany ; https://dh-libraries.sciencesconf.org (2017)
|
|
BASE
|
|
Show details
|
|
69 |
Étude préliminaire de reconnaissance d'écriture sur des documents historiques
|
|
|
|
In: Rencontre des Jeunes Chercheurs en Recherche d'Information (RJCRI) ; https://hal.archives-ouvertes.fr/hal-01758573 ; Rencontre des Jeunes Chercheurs en Recherche d'Information (RJCRI), Mar 2017, Marseille, France (2017)
|
|
BASE
|
|
Show details
|
|
70 |
Kinematische Untersuchung der Handschrift mit STREGA CSWin: Ein Verfahren zur Förderplanung und zur Wirksamkeitsforschung ...
|
|
|
|
BASE
|
|
Show details
|
|
71 |
Kinematische Untersuchung der Handschrift mit STREGA CSWin: Ein Verfahren zur Förderplanung und zur Wirksamkeitsforschung ...
|
|
|
|
BASE
|
|
Show details
|
|
74 |
Die unterschätzte Macht legitimer Literalität
|
|
|
|
In: REPORT - Zeitschrift für Weiterbildungsforschung ; 32 ; 4 ; 55-67 ; Alphabetisierung/Grundbildung (2017)
|
|
BASE
|
|
Show details
|
|
75 |
The Effect of Handwriting Without Tears on Montessori Four-year-olds' Handwriting Ability
|
|
|
|
In: Masters of Arts in Education Action Research Papers (2017)
|
|
BASE
|
|
Show details
|
|
76 |
Componentes del lenguaje oral y desarrollo evolutivo de la escritura en las primeras edades ; Components of Oral Language and Handwriting Development in Early Age
|
|
|
|
BASE
|
|
Show details
|
|
77 |
Writing Abilities of Adolescents with and without ADHD and the Role of Inattention
|
|
|
|
BASE
|
|
Show details
|
|
78 |
La tablet para el aprendizaje de vocabulario en segundas lenguas: teclado, lápiz digital u opción múltiple
|
|
|
|
In: Comunicar: Revista científica iberoamericana de comunicación y educación, ISSN 1134-3478, Nº 50, 2017, pags. 53-63 (2017)
|
|
BASE
|
|
Show details
|
|
Page: 1 2 3 4 5 6 7 8... 35
|
|