1 |
Dependency Syntax in the Automatic Detection of Irony and Stance ; Sintaxis de dependencias en la detección automática de ironía y posicionamiento
|
|
|
|
BASE
|
|
Show details
|
|
2 |
Neural Natural Language Generation: A Survey on Multilinguality, Multimodality, Controllability and Learning
|
|
|
|
BASE
|
|
Show details
|
|
3 |
A Methodology for the Automatic Annotation of Factuality in Spanish ; Una metodología para la anotación automática de la factualidad en español
|
|
|
|
BASE
|
|
Show details
|
|
4 |
Generación de textos en ruso mediante técnicas de Aprendizaje Automático para la industria del lenguaje
|
|
|
|
BASE
|
|
Show details
|
|
5 |
Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents
|
|
|
|
BASE
|
|
Show details
|
|
6 |
A BDI Empathic Agent Model Based on a Multidimensional Cross-Cultural Emotion Representation
|
|
|
|
BASE
|
|
Show details
|
|
8 |
Diseño y desarrollo de un juego de navegador para comenzar a aprender construcciones básicas de programación
|
|
|
|
BASE
|
|
Show details
|
|
9 |
Escansión automática de poesía española sin silabación ; Automatic Scansion of Spanish Poetry without Syllabification
|
|
|
|
BASE
|
|
Show details
|
|
10 |
Architecture design of a reinforcement environment for learning sign languages
|
|
|
|
BASE
|
|
Show details
|
|
11 |
Arquitectura de componentes de refuerzo del aprendizaje de lengua de señas empleando proximidad fonológica
|
|
|
|
BASE
|
|
Show details
|
|
12 |
Classifying Spanish se constructions: from bag of words to language models ; Clasificación de construcciones con se en español: de modelos de bolsa de palabras a modelos de lenguaje
|
|
|
|
BASE
|
|
Show details
|
|
13 |
GPLSI team at CheckThat! 2021: Fine-tuning BETO and RoBERTa
|
|
|
|
BASE
|
|
Show details
|
|
14 |
NECOS: An annotated corpus to identify constructive news comments in Spanish ; NECOS: Un corpus anotado para identificar comentarios constructivos de noticias en español
|
|
|
|
BASE
|
|
Show details
|
|
15 |
Impact of Text Length for Information Retrieval Tasks based on Probabilistic Topics ; Influencia de la Longitud del Texto en Tareas de Recuperación de Información mediante Tópicos Probabilísticos
|
|
|
|
BASE
|
|
Show details
|
|
16 |
HeadlineStanceChecker: Exploiting summarization to detect headline disinformation
|
|
|
|
BASE
|
|
Show details
|
|
17 |
Bertinho: Galician BERT Representations ; Bertinho: Representaciones BERT para el gallego
|
|
|
|
Abstract:
This paper presents a monolingual BERT model for Galician. We follow the recent trend that shows that it is feasible to build robust monolingual BERT models even for relatively low-resource languages, while performing better than the well-known official multilingual BERT (mBERT). More particularly, we release two monolingual Galician BERT models, built using 6 and 12 transformer layers, respectively; trained with limited resources (~45 million tokens on a single GPU of 24GB). We then provide an exhaustive evaluation on a number of tasks such as POS-tagging, dependency parsing and named entity recognition. For this purpose, all these tasks are cast in a pure sequence labeling setup in order to run BERT without the need to include any additional layers on top of it (we only use an output classification layer to map the contextualized representations into the predicted label). The experiments show that our models, especially the 12-layer one, outperform the results of mBERT in most tasks. ; Este artículo presenta un modelo BERT monolingüe para el gallego. Nos basamos en la tendencia actual que ha demostrado que es posible crear modelos BERT monolingües robustos incluso para aquellos idiomas para los que hay una relativa escasez de recursos, funcionando éstos mejor que el modelo BERT multilingüe oficial (mBERT). Concretamente, liberamos dos modelos monolingües para el gallego, creados con 6 y 12 capas de transformers, respectivamente, y entrenados con una limitada cantidad de recursos (~45 millones de palabras sobre una única GPU de 24GB.) Para evaluarlos realizamos un conjunto exhaustivo de experimentos en tareas como análisis morfosintáctico, análisis sintáctico de dependencias o reconocimiento de entidades. Para ello, abordamos estas tareas como etiquetado de secuencias, con el objetivo de ejecutar los modelos BERT sin la necesidad de incluir ninguna capa adicional (únicamente se añade la capa de salida encargada de transformar las representaciones contextualizadas en la etiqueta predicha). Los experimentos muestran que nuestros modelos, especialmente el de 12 capas, mejoran los resultados de mBERT en la mayor parte de las tareas. ; This work has received funding from the European Research Council (ERC), which has funded this research under the European Union's Horizon 2020 research and innovation programme (FASTPARSE, grant agreement No 714150), from MINECO (ANSWER-ASAP, TIN2017-85160-C2-1-R), from Xunta de Galicia (ED431C 2020/11), from Centro de Investigación de Galicia `CITIC', funded by Xunta de Galicia and the European Union (European Regional Development Fund- Galicia 2014-2020 Program), by grant ED431G 2019/01, and by Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), ERDF 2014-2020: Call ED431G 2019/04. DV is supported by a 2020 Leonardo Grant for Researchers and Cultural Creators from the BBVA Foundation. MG is supported by a Ramón y Cajal grant (RYC2019-028473-I).
|
|
Keyword:
BERT; Embeddings; Galician; Gallego; Language modeling; Lenguajes y Sistemas Informáticos; Modelado del lenguaje
|
|
URL: http://hdl.handle.net/10045/114222 https://doi.org/10.26342/2021-66-1
|
|
BASE
|
|
Hide details
|
|
18 |
Consumer Cynicism Identification for Spanish Reviews using a Spanish Transformer Model ; Identificación del cinismo del consumidor para reseñas en español utilizando un modelo de transformador español
|
|
|
|
BASE
|
|
Show details
|
|
19 |
Buscando robustez en un mundo multilingüe: de pipelines a embeddings ; Seeking robustness in a multilingual world: from pipelines to embeddings
|
|
Doval, Yerai. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2021
|
|
BASE
|
|
Show details
|
|
20 |
A benchmark of Spanish language datasets for computationally driven research
|
|
|
|
BASE
|
|
Show details
|
|
|
|