21 |
Unsupervised acquisition of morphological resources for Ukrainian
|
|
|
|
In: Computational Linguistics and Intelligent Systems ; https://hal.archives-ouvertes.fr/hal-01736400 ; Computational Linguistics and Intelligent Systems, Apr 2017, Kharkiv, Ukraine (2017)
|
|
BASE
|
|
Show details
|
|
22 |
Understanding of unknown medical words
|
|
|
|
In: Biomedical NLP Workshop associated with RANLP 2017 ; https://hal.archives-ouvertes.fr/hal-01736408 ; Biomedical NLP Workshop associated with RANLP 2017, Sep 2017, Varna, Bulgaria (2017)
|
|
BASE
|
|
Show details
|
|
23 |
Information Extraction for the Seed Development Regulatory Networks of Arabidopsis Thaliana. ; Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana.
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-01613508 ; Computation and Language [cs.CL]. Université Paris Saclay (COmUE), 2017. English. ⟨NNT : 2017SACLS027⟩ (2017)
|
|
Abstract:
While information is abundant in the world, structured, ready-to-use information is rare. Thiswork proposes Information Extraction (IE) as an efficient approach for producing structured,usable information on biology, by presenting a complete IE task on a model biological organism,Arabidopsis thaliana. Information Extraction is the process of extracting meaningful parts of text and identifying their semantic relations.In collaboration with experts on the plant A. Thaliana, a knowledge model was conceived. The goal of this model is providing a formal representation of the knowledge that is necessary to sufficiently describe the domain of grain development. This model contains all the entities and the relations between them which are essential and it can directly be used by algorithms. Inparallel, this model was tested and applied on a set of scientific articles of the domain. These documents constitute the corpus which is needed to train machine learning algorithms. Theexperts annotated the text using the entities and relations of the model. This corpus and this model are the first available for grain development and among very few on A. Thaliana, despite the latter’s importance in biology. This model manages to answer both needs of being complexenough to describe the domain well, and of having enough generalization for machine learning.A relation extraction approach (AlvisRE) was also elaborated and developed. After entityre cognition, the relation extractor tries to detect the cases where the text mentions that twoentities are in a relation, and identify precisely to which type of the model these relations belongto. AlvisRE’s approach is based on textual similarity and it uses all types of information available:lexical, syntactic and semantic. In the tests conducted, AlvisRE had results that are equivalentor sometimes better than the state of the art. Additionally, AlvisRE has the advantage of being modular and adaptive by using semantic information that was produced automatically. This last feature allows me to expect similar performance in other domains. ; Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrirele domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques,syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet d’attendre des performances équivalentes dans d’autres domaines.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; Apprentissage automatique; Bioinformatics; Bioinformatique; Data Mining; Extraction d'information; Fouille de données; Fouille de texte; Information Extraction; Machine Learning; Natural Language Processing; Text Mining; Traitement automatique de langues
|
|
URL: https://tel.archives-ouvertes.fr/tel-01613508/document https://tel.archives-ouvertes.fr/tel-01613508/file/76226_VALSAMOU_2017_diffusion.pdf https://tel.archives-ouvertes.fr/tel-01613508
|
|
BASE
|
|
Hide details
|
|
24 |
CLEF eHealth 2017 Multilingual Information Extraction task Overview: ICD10 Coding of Death Certificates in English and French.
|
|
|
|
In: Workshop of the Cross-Language Evaluation Forum ; https://hal.archives-ouvertes.fr/hal-01665374 ; Workshop of the Cross-Language Evaluation Forum, CEUR-WS, Jan 2017, Dublin, Ireland (2017)
|
|
BASE
|
|
Show details
|
|
25 |
Representation of complex terms in a vector space structured by an ontology for a normalization task
|
|
|
|
In: BioNLP 2017 ; BioNLP 2017 Workshop, Association for Computational Linguistics ; https://hal.archives-ouvertes.fr/hal-01582292 ; BioNLP 2017 Workshop, Association for Computational Linguistics, Aug 2017, Vancouver, Canada. ⟨10.18653/v1/W17-2312⟩ ; http://aclweb.org/anthology/W17-2312 (2017)
|
|
BASE
|
|
Show details
|
|
26 |
A Study of Reuse and Plagiarism in Speech and Natural Language Processing papers
|
|
|
|
In: BIRNDL 2016 ; https://hal.archives-ouvertes.fr/hal-01840817 ; BIRNDL 2016, Jan 2016, Newark, United States (2016)
|
|
BASE
|
|
Show details
|
|
27 |
INEX Tweet Contextualization Task: Evaluation, Results and Lesson Learned
|
|
|
|
In: ISSN: 0306-4573 ; Information Processing and Management ; https://hal-amu.archives-ouvertes.fr/hal-01479297 ; Information Processing and Management, Elsevier, 2016, 52 (5), pp.801-819. ⟨10.1016/j.ipm.2016.03.002⟩ (2016)
|
|
BASE
|
|
Show details
|
|
28 |
Generating and executing complex natural language queries across linked data
|
|
|
|
In: International Congress on Medical Informatics ; https://hal.archives-ouvertes.fr/hal-01971222 ; International Congress on Medical Informatics, Jan 2015, Sao Paulo, Brazil (2015)
|
|
BASE
|
|
Show details
|
|
29 |
A Unified Kernel Approach For Learning Typed Sentence Rewritings
|
|
|
|
In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, ; Annual Meeting of the Association for Computational Linguistics ; https://hal.archives-ouvertes.fr/hal-02281919 ; Annual Meeting of the Association for Computational Linguistics, The Association for Computer Linguistics, Jan 2015, Beijing, China. pp.939 - 949, ⟨10.3115/v1/P15-1091⟩ ; https://www.aclweb.org/anthology/P15-1091 (2015)
|
|
BASE
|
|
Show details
|
|
30 |
Generative event schema induction with entity disambiguation
|
|
|
|
In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing ; https://hal-cea.archives-ouvertes.fr/cea-01844047 ; Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Jul 2015, Beijing, China. pp.188-197 (2015)
|
|
BASE
|
|
Show details
|
|
31 |
Reformatting clinical records based on global layout statistics
|
|
|
|
In: International Symposium on Semantic Mining in Biomedicine ; https://hal.archives-ouvertes.fr/hal-01831245 ; International Symposium on Semantic Mining in Biomedicine, Jan 2014, Aveiro, Portugal (2014)
|
|
BASE
|
|
Show details
|
|
32 |
Data-driven Synset Induction and Disambiguation for Wordnet Development
|
|
|
|
In: ISSN: 1574-020X ; EISSN: 1574-0218 ; Language Resources and Evaluation ; https://hal.inria.fr/hal-01088000 ; Language Resources and Evaluation, Springer Verlag, 2014, 48 (4), pp.655-677. ⟨10.1007/s10579-014-9291-2⟩ (2014)
|
|
BASE
|
|
Show details
|
|
33 |
Genetic algorithm-based tuning of the C-Value for term ranking
|
|
|
|
In: International Conference on Stochastic Modeling Techniques and Data Analysis ; https://hal.archives-ouvertes.fr/hal-01972757 ; International Conference on Stochastic Modeling Techniques and Data Analysis, Jan 2014, Lisbonne, Portugal (2014)
|
|
BASE
|
|
Show details
|
|
34 |
Disfluency analysis and automatic detection in conversational spontaneous speech ; Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-01164385 ; Informatique et langage [cs.CL]. Université Paris Sud - Paris XI, 2014. Français. ⟨NNT : 2014PA112415⟩ (2014)
|
|
BASE
|
|
Show details
|
|
35 |
Overview of INEX Tweet Contextualization 2014 track
|
|
|
|
In: Proceedings of Conference and Labs of the Evaluation Forum ; Conference on Multilingual and Multimodal Information Access Evaluation (CLEF) - 2014 ; https://hal.archives-ouvertes.fr/hal-01138069 ; Conference on Multilingual and Multimodal Information Access Evaluation (CLEF) - 2014, Sep 2014, Sheffield - UK, United Kingdom. pp. 1-6 (2014)
|
|
BASE
|
|
Show details
|
|
36 |
Tuning HeidelTime for identifying time expressions in clinical texts in English and French
|
|
|
|
In: International Workshop on Health Text Mining and Information Analysis ; https://hal.archives-ouvertes.fr/hal-01972761 ; International Workshop on Health Text Mining and Information Analysis, Jan 2014, Gothenburg, Sweden (2014)
|
|
BASE
|
|
Show details
|
|
37 |
Reducing VSM data sparseness by generalizing contexts: application to health text mining
|
|
|
|
In: International Workshop on Health Text Mining and Information Analysis ; https://hal.archives-ouvertes.fr/hal-01972762 ; International Workshop on Health Text Mining and Information Analysis, Jan 2014, Gothenburg, Sweden (2014)
|
|
BASE
|
|
Show details
|
|
38 |
Traitement automatique des entités nommées en arabe : détection et traduction
|
|
|
|
In: ISSN: 1248-9433 ; EISSN: 1965-0906 ; Revue TAL ; https://hal.archives-ouvertes.fr/hal-01663487 ; Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), 2014, 54, pp.101-132 (2014)
|
|
BASE
|
|
Show details
|
|
39 |
Event role extraction using domain-relevant word representations
|
|
|
|
In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) ; https://hal-cea.archives-ouvertes.fr/cea-01844443 ; Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Oct 2014, Doha, Qatar. pp.1852-1857 (2014)
|
|
BASE
|
|
Show details
|
|
40 |
Building specialized bilingual lexicons using large-scale background knowledge
|
|
|
|
In: 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013 ; https://hal-cea.archives-ouvertes.fr/cea-01844695 ; 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, Oct 2013, Seattle, United States. pp.479-489 (2013)
|
|
BASE
|
|
Show details
|
|
|
|