1 |
Terminologies augmented recurrent neural network model for clinical named entity recognition
|
|
|
|
In: ISSN: 1532-0464 ; EISSN: 1532-0480 ; Journal of Biomedical Informatics ; https://hal.archives-ouvertes.fr/hal-02428771 ; Journal of Biomedical Informatics, Elsevier, 2020, 102, pp.103356. ⟨10.1016/j.jbi.2019.103356⟩ (2020)
|
|
BASE
|
|
Show details
|
|
2 |
Inference Annotation of a Chinese Corpus for Opinion Mining
|
|
|
|
In: LREC ; https://hal-inalco.archives-ouvertes.fr/hal-02507170 ; LREC, May 2020, Marseille, France (2020)
|
|
BASE
|
|
Show details
|
|
3 |
The Multilingual Anonymisation Toolkit for Public Administrations (MAPA) Project
|
|
|
|
In: Annual Conference of the European Association for Machine Translation ; https://hal.archives-ouvertes.fr/hal-03103205 ; Annual Conference of the European Association for Machine Translation, Nov 2020, Lisbon, Portugal. pp.471-472 (2020)
|
|
BASE
|
|
Show details
|
|
4 |
The language industry at the age of data ; La industria del lenguaje en la era del dato
|
|
|
|
In: Revista Abaco ; https://hal.archives-ouvertes.fr/hal-02912828 ; Revista Abaco, 2020 (2020)
|
|
BASE
|
|
Show details
|
|
5 |
Inference Annotation of a Chinese Corpus for Opinion Mining
|
|
|
|
In: LREC ; https://hal-inalco.archives-ouvertes.fr/hal-02507170 ; LREC, May 2020, Marseille, France (2020)
|
|
BASE
|
|
Show details
|
|
6 |
The NLP4NLP Corpus (II): 50 Years of Research in Speech and Language Processing
|
|
|
|
In: ISSN: 2504-0537 ; EISSN: 2504-0537 ; Frontiers in Research Metrics and Analytics ; https://hal.archives-ouvertes.fr/hal-02413749 ; Frontiers in Research Metrics and Analytics, Frontiers Media, 2019, 3, pp.1-30 (2019)
|
|
BASE
|
|
Show details
|
|
7 |
French Levothyrox® Crisis: Retrospective Analysis of Social Media
|
|
|
|
In: International Society of Pharmacovigilance ; https://hal.archives-ouvertes.fr/hal-02411632 ; International Society of Pharmacovigilance, Springer International Publishing, Oct 2019, Bogota, Colombia (2019)
|
|
BASE
|
|
Show details
|
|
8 |
The NLP4NLP Corpus (I): 50 Years of Publication, Collaboration and Citation in Speech and Language Processing
|
|
|
|
In: ISSN: 2504-0537 ; EISSN: 2504-0537 ; Frontiers in Research Metrics and Analytics ; https://hal.archives-ouvertes.fr/hal-02413751 ; Frontiers in Research Metrics and Analytics, Frontiers Media, 2019, 3, pp.1-30 (2019)
|
|
BASE
|
|
Show details
|
|
9 |
Unsupervised learning of natural language morphology using non-parametric bayesian models ; Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-02354184 ; Informatique et langage [cs.CL]. Université Paris Saclay (COmUE), 2019. Français. ⟨NNT : 2019SACLS203⟩ (2019)
|
|
Abstract:
A crucial issue in statistical natural language processing is the issue of sparsity, namely the fact that in a given learning corpus, most linguistic events have low occurrence frequencies, and that an infinite number of structures allowed by a language will not be observed in the corpus. Neural models have already contributed to solving this issue by inferring continuous word representations. These continuous representations allow to structure the lexicon by inducing semantic or syntactic similarity between words. However, current neural models only partially solve the sparsity issue, due to the fact that they require a vectorial representation for every word in the lexicon, but are unable to infer sensible representations for unseen words. This issue is especially present in morphologically rich languages, where word formation processes yield a proliferation of possible word forms, and little overlap between the lexicon observed during model training, and the lexicon encountered during its use. Today, several languages are used on the Web besides English, and engineering translation systems that can handle morphologies that are very different from western European languages has become a major stake. The goal of this thesis is to develop new statistical models that are able to infer in an unsupervised fashion the word formation processes underlying an observed lexicon, in order to produce morphological analyses of new unseen word forms. ; Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; [STAT.ML]Statistics [stat]/Machine Learning [stat.ML]; Apprentissage machine; Bayesian statistics; Machine learning; Morphologie; Morphology; Natural language processing; Statistiques bayésiennes; Traitement des langues
|
|
URL: https://tel.archives-ouvertes.fr/tel-02354184 https://tel.archives-ouvertes.fr/tel-02354184/document https://tel.archives-ouvertes.fr/tel-02354184/file/76238_LOSER_2019_archivage.pdf
|
|
BASE
|
|
Hide details
|
|
10 |
A Comparison between NMT and PBSMT Performance for Translating Noisy User-Generated Content
|
|
|
|
In: The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa’19) ; https://hal.archives-ouvertes.fr/hal-02270524 ; The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa’19), Sep 2019, Turku, Finland ; https://nodalida2019.org/index.html (2019)
|
|
BASE
|
|
Show details
|
|
11 |
Recognition of sub-sentential translation techniques : from resources to validation ; Reconnaissance des procédés de traduction sous-phrastiques : des ressources aux validations
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-02460548 ; Informatique et langage [cs.CL]. Université Paris Saclay (COmUE), 2019. Français. ⟨NNT : 2019SACLS489⟩ (2019)
|
|
BASE
|
|
Show details
|
|
12 |
Clinical Natural Language Processing in languages other than English: opportunities and challenges.
|
|
|
|
In: ISSN: 2041-1480 ; Journal of Biomedical Semantics ; https://hal.archives-ouvertes.fr/hal-01842518 ; Journal of Biomedical Semantics, BioMed Central, 2018, 9, 13p. ⟨10.1186/s13326-018-0179-8⟩ (2018)
|
|
BASE
|
|
Show details
|
|
13 |
User profile detection in health online fora
|
|
|
|
In: International Congress of the European Federation for Medical Informatics ; https://hal.archives-ouvertes.fr/hal-01971156 ; International Congress of the European Federation for Medical Informatics, Adrien Ugon, Daniel Karlsson, Gunnar O. Klein, Anne Moen, Apr 2018, Gothenburg, Sweden (2018)
|
|
BASE
|
|
Show details
|
|
14 |
Sign Language Video Analysis For Automatic Recognition and Detection
|
|
|
|
In: 20th International ACM SIGACCESS Conference on Computers and Accessibility ; https://hal.archives-ouvertes.fr/hal-02146365 ; 20th International ACM SIGACCESS Conference on Computers and Accessibility, Oct 2018, Galway, Ireland (2018)
|
|
BASE
|
|
Show details
|
|
15 |
Knowledge Base Population based on Entity Graph Analysis ; Peuplement d'une base de connaissance fondé sur l'exploitation d'un graphe d'entités
|
|
|
|
In: https://tel.archives-ouvertes.fr/tel-01810983 ; Computation and Language [cs.CL]. Université Paris Saclay (COmUE), 2018. English. ⟨NNT : 2018SACLS092⟩ (2018)
|
|
BASE
|
|
Show details
|
|
16 |
A Multilingual Dataset for Evaluating Parallel Sentence Extraction from Comparable Corpora
|
|
|
|
In: International Conference on Language Resources and Evaluation ; https://hal.archives-ouvertes.fr/hal-01898362 ; International Conference on Language Resources and Evaluation, May 2018, Miyazaki, Japan (2018)
|
|
BASE
|
|
Show details
|
|
17 |
IRIT at e-Risk 2018
|
|
|
|
In: CLEF 2018 Working Notes ; 9th Conference and Labs of the Evaluation Forum, Living Labs (CLEF 2018) ; https://hal.archives-ouvertes.fr/hal-02290007 ; 9th Conference and Labs of the Evaluation Forum, Living Labs (CLEF 2018), Sep 2018, Avignon, France. pp.1-12 (2018)
|
|
BASE
|
|
Show details
|
|
18 |
Expanding the Diversity of Texts and Applications: Findings from the Section on Clinical Natural Language Processing of the International Medical Informatics Association Yearbook.
|
|
|
|
In: ISSN: 0943-4747 ; EISSN: 2364-0502 ; IMIA Yearbook of Medical Informatics ; https://hal.archives-ouvertes.fr/hal-01990501 ; IMIA Yearbook of Medical Informatics, Schattauer, 2018, 27, pp.193-198 (2018)
|
|
BASE
|
|
Show details
|
|
19 |
Reuse and Plagiarism in Speech and Natural Language Processing
|
|
|
|
In: ISSN: 1432-5012 ; EISSN: 1432-1300 ; International Journal on Digital Libraries ; https://hal.archives-ouvertes.fr/hal-01840700 ; International Journal on Digital Libraries, Springer Verlag, 2017, 18, pp.1-14 (2017)
|
|
BASE
|
|
Show details
|
|
20 |
Creation of a multilingual aligned corpus with Ukrainian as the target language and its exploitation
|
|
|
|
In: Computational Linguistics and Intelligent Systems ; https://hal.archives-ouvertes.fr/hal-01736363 ; Computational Linguistics and Intelligent Systems, Apr 2017, Kharkiv, Ukraine (2017)
|
|
BASE
|
|
Show details
|
|
|
|