DE eng

Search in the Catalogues and Directories

Hits 1 – 4 of 4

1
Learning Pretopological Spaces for Lexical Taxonomy Acquisition
In: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases ; https://hal.archives-ouvertes.fr/hal-01163702 ; European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, Sep 2015, Porto, Portugal (2015)
BASE
Show details
2
QASSIT: A Pretopological Framework for the Automatic Construction of Lexical Taxonomies from Raw Texts
In: International Workshop on Semantic Evaluation (SEMEVAL 2015) ; https://hal.archives-ouvertes.fr/hal-01144344 ; International Workshop on Semantic Evaluation (SEMEVAL 2015), 2015, Denver, United States (2015)
BASE
Show details
3
Verses and measures: detection of vowel nuclei ; Des vers et des mesures : détection des noyaux vocaliques
In: ISSN: 0458-726X ; EISSN: 1958-9549 ; Langages ; https://hal.archives-ouvertes.fr/hal-01380142 ; Langages, Armand Colin (Larousse jusqu'en 2003), 2015, Traitement automatique des textes versifiés : problématiques et pratiques, pp.107-124. ⟨10.3917/lang.199.0107⟩ (2015)
BASE
Show details
4
Intrinsic and extrinsic evaluation of boilerplate removal tool ; Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
In: Traitement Automatique des Langues Naturelles 2015 ; https://hal.archives-ouvertes.fr/hal-01170005 ; Traitement Automatique des Langues Naturelles 2015, Jun 2015, Caen, France (2015)
Abstract: International audience ; In this article, we tackle the problem of evaluation of web page cleaning tools. This task is seldom studied in the literature although it has consequences on the linguistic processing performed on web-based corpora. We propose two types of evaluation : (I) an intrinsic (content-based) evaluation with measures on words, tags and characters ; (II) an extrinsic (task-based) evaluation on the same corpus by studying the effects of the cleaning step on the performances of an NLP pipeline. We show that the results are not consistent in both evaluations. We show as well that there are important differences in the results between the studied languages. We conclude that the choice of a web page cleaning tool should be made in view of the aimed task rather than on the performances of the tools in an intrinsic evaluation. ; Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n'est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d'évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l'effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu'entre les différentes langues. Ainsi, le choix d'un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
Keyword: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; collecte de corpus; corpus collecting; détourage; évaluation extrinsèque; évaluation intrinsèque; extrinsic evaluation; intrinsic evaluation; Nettoyage de pages Web; Web page cleaning; web scraping
URL: https://hal.archives-ouvertes.fr/hal-01170005
https://hal.archives-ouvertes.fr/hal-01170005/file/article_court.pdf
https://hal.archives-ouvertes.fr/hal-01170005/document
BASE
Hide details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
4
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern