1 |
Understanding Feature Focus in Multitask Settings for Lexico-semantic Relation Identification
|
|
|
|
In: à paraître ; Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021) ; https://hal.archives-ouvertes.fr/hal-03220236 ; Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), ACL : Association for Computational Linguistics; Asian Federation of Natural Language Processing, Aug 2021, Bangkok (complete virtual format), Thailand ; https://2021.aclweb.org/ (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Patch-based Identification of Lexical Semantic Relations
|
|
|
|
In: 42nd European Conference on Information Retrieval (ECIR) ; https://hal.archives-ouvertes.fr/hal-02400661 ; 42nd European Conference on Information Retrieval (ECIR), 2020, Lisbon, Portugal (2020)
|
|
BASE
|
|
Show details
|
|
3 |
Εntity-level Εvent Ιmpact Αnalytics ; Analyse de l’Impact des Événements au Niveau des Entités
|
|
|
|
In: https://hal.archives-ouvertes.fr/tel-02102795 ; Document and Text Processing. Normandie Université, Unicaen, EnsiCaen, CNRS, GREYC UMR 6072, 2019. English (2019)
|
|
BASE
|
|
Show details
|
|
4 |
Model-driven Web Page Segmentation for Non Visual Access
|
|
|
|
In: 16th International Conference of the Pacific Association for Computational Linguistics (PACLING 2019) ; https://hal.archives-ouvertes.fr/hal-02309612 ; 16th International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Oct 2019, Hanoï City, Vietnam (2019)
|
|
BASE
|
|
Show details
|
|
5 |
An Experimental Approach For Information Extraction in Multi-Party Dialogue Discourse
|
|
|
|
In: CICLing 2018 - 19th International Conference on Computational Linguistics and Intelligent Text Processing ; https://hal.archives-ouvertes.fr/hal-01804147 ; CICLing 2018 - 19th International Conference on Computational Linguistics and Intelligent Text Processing, Mar 2018, Hanoi, Vietnam. pp.1-14 (2018)
|
|
BASE
|
|
Show details
|
|
6 |
Identifying Temporal Orientation of Word Senses Based on Minimum Cuts
|
|
|
|
In: The 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL 2016) ; https://hal.archives-ouvertes.fr/hal-01702812 ; The 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL 2016), Aug 2016, Berlin, Germany. pp.22 - 30 (2016)
|
|
BASE
|
|
Show details
|
|
7 |
Learning Pretopological Spaces for Lexical Taxonomy Acquisition
|
|
|
|
In: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases ; https://hal.archives-ouvertes.fr/hal-01163702 ; European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, Sep 2015, Porto, Portugal (2015)
|
|
BASE
|
|
Show details
|
|
8 |
QASSIT: A Pretopological Framework for the Automatic Construction of Lexical Taxonomies from Raw Texts
|
|
|
|
In: International Workshop on Semantic Evaluation (SEMEVAL 2015) ; https://hal.archives-ouvertes.fr/hal-01144344 ; International Workshop on Semantic Evaluation (SEMEVAL 2015), 2015, Denver, United States (2015)
|
|
BASE
|
|
Show details
|
|
9 |
Verses and measures: detection of vowel nuclei ; Des vers et des mesures : détection des noyaux vocaliques
|
|
|
|
In: ISSN: 0458-726X ; EISSN: 1958-9549 ; Langages ; https://hal.archives-ouvertes.fr/hal-01380142 ; Langages, Armand Colin (Larousse jusqu'en 2003), 2015, Traitement automatique des textes versifiés : problématiques et pratiques, pp.107-124. ⟨10.3917/lang.199.0107⟩ (2015)
|
|
BASE
|
|
Show details
|
|
10 |
Intrinsic and extrinsic evaluation of boilerplate removal tool ; Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
|
|
|
|
In: Traitement Automatique des Langues Naturelles 2015 ; https://hal.archives-ouvertes.fr/hal-01170005 ; Traitement Automatique des Langues Naturelles 2015, Jun 2015, Caen, France (2015)
|
|
BASE
|
|
Show details
|
|
11 |
Identification of Shell Nouns, Signals of Discourse Organisation ; Identification des noms sous-spécifiés, signaux de l’organisation discursive
|
|
|
|
In: Proceedings of TALN 2014 (Volume 1: Long Papers) ; 21ème conférence sur le Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-01076760 ; 21ème conférence sur le Traitement Automatique des Langues Naturelles, Jul 2014, Marseille, France. pp.377-388 ; https://www.aclweb.org/anthology/F14-1033 (2014)
|
|
BASE
|
|
Show details
|
|
12 |
A Framework for Temporal Web Analytics ; Un cadre pour l’analyse temporelle d’Internet
|
|
|
|
In: https://hal.archives-ouvertes.fr/tel-01103973 ; Document and Text Processing. Université de Caen, 2014 (2014)
|
|
Abstract:
Web-preservation organization like the Internet Archive not only capture the history ofborn-digital content but also reflect the zeitgeist of different time periods over more thana decade. This longitudinal data is a potential gold mine for researchers like sociologists,politologists, media and market analysts, or experts on intellectual property.Longitudinal data analytics – the Web of the Past – poses research challenges, but has notreceived due attention. The sheer size and content of Web archives render them relevantto analysts within a range of domains. The Internet Archive holds more than 350 billionversions of Web pages, captured since 1996. This coverage can no longer be maintained, asWeb content is growing at enormous rates. A high-coverage archive would have to be anorder of magnitude larger.A Web archive of timestamped versions of Web sites over a long-term time horizon opensup great opportunities for analysts. However, difficulties arise from name ambiguities,requiring a disambiguation mapping of mentions (noun phrases in the text) onto entities.For example, “Bill Clinton” might be the former US president William Jefferson Clinton,or any other William Clinton contained in Wikipedia. Ambiguity further increases if thetext only contains “Clinton” or a phrase like “the US president”. The temporal dimensionintroduces additional complexity, for example when names of entities have changed overtime (e.g. people getting married or divorced, or organizations that undergo restructuring intheir identities). By mapping names and phrases onto canonicalized entities, we raise theentire analytics to a semantic rather than keyword-level in order to make sense of the rawand often noisy Web contents. ; La conservation et l’organisation des données Internet, comme avec Internet Archive ne permettent pas seulement d’écrire l’histoire des contenus numériques d’origine, mais aussi de capter l’esprit du temps (zeitgeist) de différentes périodes couvrant plus d’une décennie. Ces données longitudinales sont une mine d’or à exploiter par les sociologues, politologues, les analystes des médias et des marchés, ou encore les experts en propriété intellectuelle.Le domaine de l’analyse des données longitudinales — l’Internet du passé — pose des défis importants de recherche qui n’ont pas reçu l’attention qu’ils méritent. La taille et la diversité de contenu de la Toile et de ses archives rendent son analyse intéressante pour de multiples domaines. L’archive Internet contient plus de 350 billions de versions de pages Web, archivées depuis 1996. Cette couverture n’est plus possible désormais, à cause de la croissance à des taux énormes du nombre de documents Internet. Il faudrait des archives plus importantes d’un ordre de grandeur, pour tout conserver.Une archive Internet contenant des versions datées de sites Web sur une période longue ouvre de grandes opportunités de recherche. Mais une des difficultés tient à l’ambiguïté des noms propres, requérant une désambigüisation des mentions de syntagmes nominaux dans le texte et leur classement en entités. Par exemple, « Bill Clinton » peut désigner William Jefferson Clinton, ancien président des Etats-Unis d’Amérique ou n’importe laquelle des personnes nommées William Clinton recensées par Wikipedia. L’incertitude augmente si le nom est simplement « Clinton » ou encore « le président des Etats-Unis ». La dimension temporelle ajoute une complexité supplémentaire, lorsque les noms changent au fil du temps (lorsque les personnes se marient, divorcent, ou que les organisations fusionnent ou sont restructurées). Pour hisser l’analyse au niveau sémantique, et non plus seulement opérer au niveau des mots-clefs, il faut alors relier les noms propres et les syntagmes avec des entités canoniques, dans l’objectif de donner du sens aux données brutes et bruitées d’Internet.
|
|
Keyword:
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; [SHS.INFO]Humanities and Social Sciences/Library and information sciences; Information Science and Communication; science de l'information et de la communication
|
|
URL: https://hal.archives-ouvertes.fr/tel-01103973 https://hal.archives-ouvertes.fr/tel-01103973/document https://hal.archives-ouvertes.fr/tel-01103973/file/HDRMarcSpaniol.pdf
|
|
BASE
|
|
Hide details
|
|
13 |
Apports de l'analyse automatique multilingue pour la veille épidémiologique
|
|
|
|
In: Journées internationales d’Analyse statistique des Données Textuelles ; https://hal.archives-ouvertes.fr/hal-01075057 ; Journées internationales d’Analyse statistique des Données Textuelles, Jun 2014, Paris, France (2014)
|
|
BASE
|
|
Show details
|
|
14 |
Document Model and Prototyping Methods for Web Engineering
|
|
|
|
In: ISSN: 1947-8186 ; EISSN: 1947-8194 ; International Journal of Information System Modeling and Design ; https://hal.archives-ouvertes.fr/hal-01076417 ; International Journal of Information System Modeling and Design, IGI Global, 2014, 5 (4), 27 p. ⟨10.4018/ijismd.2014100105⟩ (2014)
|
|
BASE
|
|
Show details
|
|
15 |
Propagation Strategies for Building Temporal Ontologies
|
|
|
|
In: 14th Conference of the European Chapter of the Association for Computational Linguistics ; https://hal.archives-ouvertes.fr/hal-01074969 ; 14th Conference of the European Chapter of the Association for Computational Linguistics, Apr 2014, Gotenburg, Sweden. pp.PP6-11 (2014)
|
|
BASE
|
|
Show details
|
|
16 |
A Hybrid Segmentation of Web Pages for Vibro-Tactile Access on Touch-Screen Devices
|
|
|
|
In: 3rd Workshop on Vision and Language (VL 2014) associated to 25th International Conference on Computational Linguistics (COLING 2014) ; https://hal.archives-ouvertes.fr/hal-01076613 ; 3rd Workshop on Vision and Language (VL 2014) associated to 25th International Conference on Computational Linguistics (COLING 2014), Aug 2014, dublin, Ireland. pp.95 - 102 (2014)
|
|
BASE
|
|
Show details
|
|
17 |
Multi-Objective Search Results Clustering
|
|
|
|
In: 25th International Conference on Computational Linguistics (COLING 2014) ; https://hal.archives-ouvertes.fr/hal-01077207 ; 25th International Conference on Computational Linguistics (COLING 2014), Aug 2014, dublin, Ireland. pp.99 - 108 (2014)
|
|
BASE
|
|
Show details
|
|
18 |
Easy Web Search Results Clustering: When Baselines Can Reach State-of-the-Art Algorithms
|
|
|
|
In: 14th Conference of the European Chapter of the Association for Computational Linguistics ; https://hal.archives-ouvertes.fr/hal-01076535 ; 14th Conference of the European Chapter of the Association for Computational Linguistics, Apr 2014, Gotenburg, Sweden (2014)
|
|
BASE
|
|
Show details
|
|
19 |
Intensité et polarité : un modèle opératoire articulant plusieurs travaux linguistiques
|
|
|
|
In: ISSN: 0023-8368 ; EISSN: 1957-7982 ; Langue française ; https://hal.archives-ouvertes.fr/hal-01123696 ; Langue française, Armand Colin, 2014, Études sur l'évaluation axiologique, 4/2014 (184), p. 33-52. ⟨10.3917/lf.184.0035⟩ ; http://www.armand-colin.com/ (2014)
|
|
BASE
|
|
Show details
|
|
20 |
Rhetorical Browzing in Journalistic Texts: Preliminary Investigations
|
|
|
|
In: Proceedings of the 2013 Federated Conference on Computer Science and Information Systems ; https://hal.archives-ouvertes.fr/hal-01074490 ; Proceedings of the 2013 Federated Conference on Computer Science and Information Systems, IEEE, 2013, pp. 251-256 (2013)
|
|
BASE
|
|
Show details
|
|
|
|