DE eng

Search in the Catalogues and Directories

Hits 1 – 1 of 1

1
Comparing methods for language identification
Padró Cirera, Montserrat; Padró Cirera, Lluís. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2004
Abstract: En este artículo se comparan tres sistemas estadísticos de identificación de idioma. Se presenta también un estudio detallado de la influencia de algunos factores importantes sobre la precisión de los sistemas. Estos factores son: la medida del corpus de entrenamiento, la cantidad de texto que se quiere clasificar y las lenguas entre las cuales el sistema es capaz de distinguir (se estudiará tanto el número de lenguas cómo cuáles son esas lenguas). ; In this work three different statistical language identification methods are compared, and a detailed study of the influence on those systems of some basic parameters is performed. The analyzed parameters are the size of the train set, the amount of text that we want to classify and the languages the system is able to distinguish (it will be studied not only the influence of the number of languages but also the influence of which are the considered languages).
Keyword: Categorización de textos basada en n-gramas; Identificación de idioma; Language identification; Modelos de Markov visibles; Multilinguality; Multilinguismo; N-gram based text categorization; Sistemas estadísticos; Statistical systems; Trigram frequency vectors; Vectores de frecuencia de trigramas; Visible Markov Models
URL: http://hdl.handle.net/10045/1472
BASE
Hide details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
1
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern