DE eng

Search in the Catalogues and Directories

Hits 1 – 11 of 11

1
Deep Sequoia corpus - PARSEME-FR corpus - FrSemCor
BASE
Show details
2
A French corpus annotated for multiword expressions and named entities
In: ISSN: 2299-856X ; EISSN: 2299-8470 ; Journal of Language Modelling ; https://hal.archives-ouvertes.fr/hal-03016721 ; Journal of Language Modelling, Institute of Computer Science, Polish Academy of Sciences, Poland, 2020, 8 (2), pp.415-479. ⟨10.15398/jlm.v8i2.265⟩ (2020)
BASE
Show details
3
Annotated corpora and tools of the PARSEME Shared Task on Semi-Supervised Identification of Verbal Multiword Expressions (edition 1.2)
BASE
Show details
4
Without lexicons, multiword expression identification will never fly: A position statement
In: Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019) ; Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019) ; https://hal.archives-ouvertes.fr/hal-02318241 ; Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019), Aug 2019, Florence, Italy. pp.79 - 91, ⟨10.18653/v1/W19-5110⟩ (2019)
BASE
Show details
5
Multilingual corpus of literal occurrences of multiword expressions
BASE
Show details
6
Literal Occurrences of Multiword Expressions: Rare Birds That Cause a Stir
In: Prague Bulletin of Mathematical Linguistics , Vol 112, Iss 1, Pp 5-54 (2019) (2019)
BASE
Show details
7
Annotated corpora and tools of the PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions (edition 1.1)
BASE
Show details
8
PARSEME multilingual corpus of verbal multiword expressions ...
BASE
Show details
9
PARSEME multilingual corpus of verbal multiword expressions ...
BASE
Show details
10
Distributional models of multiword expression compositionality prediction ; Modelos distribucionais para a predição de composicionalidade de expressões multipalavras
Abstract: Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art. ; Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte.
Keyword: Compositionality; Distributional semantics; Idiomaticity; Linguagem natural; Linguística computacional; Multiword expressions
URL: http://hdl.handle.net/10183/174519
BASE
Hide details
11
Annotated corpora and tools of the PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions (edition 1.0)
BASE
Show details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
11
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern