DE eng

Search in the Catalogues and Directories

Hits 1 – 1 of 1

1
Indexación y búsqueda de expresiones matemáticas a gran escala en corpus masivos de documentos impresos
Noya García, Ernesto. - : Universitat Politècnica de València, 2020
Abstract: [ES] En la actualidad existen grandes bases de datos de documentos científicos impresos digitalizados, muchos de los cuales incluyen expresiones matemáticas. La búsqueda de información textual en estos documentos es ya una posibilidad ampliamente explotada por los motores de búsqueda de la exploradores más utilizados. Sin embargo, la búsqueda mediante consultas en forma de expresiones matemáticas de documentos científicos impresos digitalizados en grandes colecciones es un campo apenas explorado. Los planteamientos que actualmente se han usado para abordar este problema se basan fundamentalmente en la búsqueda por similitud entre la imágenes lo cual es completamente inviable para búsqueda en colecciones masivas dado el elevado coste computacional de dichas aproximaciones. En este trabajo se propone estudiar el desarrollo de técnicas de indexación y búsqueda de expresiones matemáticas en grandes colecciones de imágenes digitalizadas. Los modelos que permitirán construir los índices de la colección y los modelos que permitirán representarán la consulta se basarán en modelos estocásticos estructurales capaces de dar cuenta de la ambigüedad que puede surgir en el proceso de reconocimiento, debido a los problemas de segmentación y a la propia ambigüedad que puede existir en las expresiones matemáticas. La preparación de los índices probabilísticos deberá incluir: medidas de confianza, estructuras de datos en forma de árbol sintáctico para realizar búsquedas estructurales y aprendizaje automático discriminativo de modelos estructurales. ; [EN] Nowadays there exist large databases of digitized printed scientific documents, and many of them include mathematical expressions. The searching of textual information in these documents is currently a possibility widely exploited by the search engines of the most used web browsers. However, the searching in massive collections of digitized printed scientific documents with queries that are mathematical expressions is a research area scarcely explored. The methods that currently have been researched for tackling this problem are based on comparing images that is not realistic for searching in massive collections given the high computational cost of the above mentioned approaches. In this TFM, we propose to research indexing and searching techniques of mathematical expressions in large collections of digitized images. The models that will allow us to build up the indexes of the collection and the models que will allow us to represent the query will be based on stochastic structural models that will account for the ambiguity that can appear in the recognition process, due to segmentation problems and due to the ambiguity that the mathematical expression may have. The preparation of the probabilistic indices should include: confidence measures, data structures based on syntactic parse trees for structural search, discriminative machine learning of structural models. ; Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología en el proyecto IBEM (TIN2017-91452-EXP) y por la Generalitat Valenciana en el proyecto DeepPattern (PROMETEO/2019/121). ; Noya García, E. (2020). Indexación y búsqueda de expresiones matemáticas a gran escala en corpus masivos de documentos impresos. Universitat Politècnica de València. http://hdl.handle.net/10251/149417 ; TFGM
Keyword: Bibliotecas digitales; Búsqueda e indexación de expresiones matemáticas; Digital libraries; LENGUAJES Y SISTEMAS INFORMATICOS; Máster Universitario en Inteligencia Artificial; Mathematical expression recognition; Mathematical expression searching and indexing; Reconocimiento de expresiones matemáticas; Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital
URL: http://hdl.handle.net/10251/149417
BASE
Hide details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
1
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern