DE eng

Search in the Catalogues and Directories

Page: 1 2 3 4 5...76
Hits 1 – 20 of 1.517

1
CLIL e recursos hipersensoriais personalizados: simbiose perfeita de ensino e aprendizagem de Inglês no 1.º Ciclo do Ensino Básico
Figueiredo, Maria Virgínia Pereira de. - : Instituto Politécnico do Porto. Escola Superior de Educação, 2022
BASE
Show details
2
O encontro da arte digital com a aprendizagem das línguas estrangeiras no ensino superior em Portugal: uma experiência de interdisciplinaridade
BASE
Show details
3
A diversidade da língua inglesa: o ponto de partida para o desenvolvimento da competência plurilingue
BASE
Show details
4
Sequências didáticas para desenvolvimento e avaliação da oralidade em inglês língua estrangeira : proposta para Contexto de Aprendizagem por Ciclos à luz da Avaliação Orientada para Aprendizagem
BASE
Show details
5
Letramento digital em escolares pela mediação do gênero propaganda social ; Digital literacy in school students by mediation social adertisement genre
Salomão, Tiago Henrique. - : Universidade Tecnológica Federal do Paraná, 2022. : Londrina, 2022. : Brasil, 2022. : Programa de Pós-Graduação em Ensino de Ciências Humanas, Sociais e da Natureza, 2022. : UTFPR, 2022
BASE
Show details
6
Relatório de estágio para obtenção de grau de mestre em Educação Pré-Escolar e Ensino do 1.º Ciclo do Ensino Básico
BASE
Show details
7
A Study of Commonsense Reasoning with Language Models
BASE
Show details
8
Named Entity Recognition and Linking in a Multilingual Biomedical Setting
Abstract: Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2021 ; Information analysis is an essential process for all researchers and physicians. However, the amount of biomedical literature that we currently have available and the format in which it is found make this process difficult. Therefore, it is essential to apply text mining tools to automatically obtain information from these documents. The problem is that most of these tools are not designed to deal with non-English languages, which is critical in the biomedical literature, since many of these documents are written in the authors’ native language. Although there have been organized several shared tasks where text mining tools were developed for the Spanish language, the same does not happen for the Portuguese language. However, due to the lexical similarity between the two languages, it is possible to hypothesize that the tools for the two languages may be similar and that there is an annotation transfer between Portuguese and Spanish. To contribute to the development of text mining tools for Portuguese and Spanish, this dissertation presents the ICERL (Iberian Cancer-related Entity Recognition and Linking) system, a NERL (Named Entity Recognition and Linking) system that uses deep learning and it is composed of two similar pipelines for each language, and the parallel corpus ICR (Iberian Cancer-related) corpus. Both these tools are focused on the oncology domain. The application of the ICERL system on the ICR corpus resulted in 3,999 annotations in Spanish and 3,287 in Portuguese. The similarities between the annotations of the two languages and the F1-score of 0.858 that resulted from the comparison of the Portuguese annotations with the Spanish ones confirm the hypothesis initially presented. ; A divulgação de descobertas realizadas pelos investigadores e médicos é feita através de vários documentos como livros, artigos, patentes e outros tipos de publicações. Para que investigadores estejam atualizados sobre a sua área de interesse, é essencial que realizem uma análise rápida e eficaz destes documentos. Isto porque, quanto mais eficiente for esta fase, melhores serão os resultados que serão obtidos e, quanto mais rápida for, mais tempo poderão dedicar a outras componentes dos seus trabalhos. No entanto, a velocidade com que estes documentos são publicados e o facto de o texto presente nos mesmos ser expresso em linguagem natural dificulta esta tarefa. Por isso, torna-se essencial a aplicação de ferramentas de prospeção de texto para a extração de informação. As ferramentas de prospeção de texto são compostas por diversas etapas, como por exemplo, Reconhecimento de Entidades Nomeadas (em inglês Named Entity Recognition ou NER) e Mapeamento de Entidades Nomeadas (em inglês Named Entity Linking ou NEL). A etapa NER corresponde à identificação de uma entidade no texto. NEL consiste na ligação de entidades a uma base de conhecimento. Os sistemas estado-de-arte para a NER são métodos de aprendizagem profunda e normalmente utilizam a arquitetura BiLSTM-CRF. Por outro lado, os sistemas estado-de-arte NEL usam não só métodos de aprendizagem profunda, mas também métodos baseados em grafos. A maioria dos sistemas de prospeção de texto que atualmente temos disponíveis está desenhada ape nas para a língua inglesa, o que é problemático, pois muitas das vezes a literatura biomédica encontra-se descrita na língua nativa dos autores. Para resolver este problema têm surgido competições para desenvolver sistemas de prospeção de texto para outras línguas que não o inglês. Uma das línguas que têm sido um dos principais focos destas competições é a língua espanhola. O espanhol é a segunda língua com o maior número de falantes nativos no mundo e com um elevado número de publicações biomédicas disponível. Um dos exemplos de competições para a língua espanhola é o CANTEMIST. O objetivo do CANTEMIST passa pela identificação de entidades do domínio oncológico e a ligação das mesmas à base de dados Clasificación Internacional de Enfermedades para Oncología (CIE-O). Por outro lado, o português não têm sido alvo de grande interesse por parte destas competições. Devido ao facto de que o português e o espanhol derivarem do latim, existe uma semelhança lexical elevada entre as duas línguas (89%). Portanto, é possível assumir que as soluções encontradas para espanhol possam ser adaptadas ou utilizadas para o português, e que exista transferências de anotações entre as duas línguas. Por isso, o objetivo deste trabalho passa por criar ferramentas que validem esta hipótese: o sistema ICERL (Iberian Cancer-related Entity Recognition and Linking) e o corpus ICR (Iberian Cancer-related). O sistema ICERL é um sistema NERL (Named Entity Recognition and Linking) bilíngue português-espanhol, enquanto que o ICR é um corpus paralelo para as mesmas línguas. Ambas as ferramentas estão desenhadas para o domínio oncológico. A primeira etapa no desenvolvimento do sistema ICERL passou pela criação de uma pipeline NERL para a língua espanhola específica para o domínio oncológico. Esta pipeline foi baseada no trabalho desenvolvido pela equipa LasigeBioTM na competição CANTEMIST. A abordagem apresentada pelo LasigeBioTM no CANTEMIST consiste na utilização da framework Flair para a tarefa NER e do algoritmo Personalized PageRank (PPR) para a tarefa NEL. O Flair é uma ferramenta que permite a combinação de diferentes embeddings (representações vetoriais para palavras) de diferentes modelos num só para a tarefa NER. O PPR é uma variação do algoritmo PageRank que é utilizado para classificar importância de páginas web. O algoritmo PageRank é aplicado sobre um grafo. Originalmente, cada nó do grafo representava uma página web e as ligações entre nós representavam hiperligações entre páginas. O algoritmo estima a coerência de cada nó no grafo, isto é, a sua relevância. No contexto da tarefa NEL, o grafo é composto por candidatos para as entidades de interesse. O Flair foi utilizado pela equipa LasigeBioTM para o treino de embeddings que foram obtidos em documentos em espanhol do PubMed. Estes embeddings foram integrados num modelo para NER que foi treinado nos conjuntos de treino e desenvolvimento do corpus do CANTEMIST. O modelo treinado foi depois utilizado no conjunto de teste do corpus do CANTEMIST para a obtenção de ficheiros de anotação com as entidades reconhecidas. Foi depois feita uma procura pelos candidatos para a tarefa de NEL das entidades reconhecidas em três bases de dados: o CIE-O, o Health Sciences Descriptors (DeCS) e o International Classification of Diseases (ICD). A partir destes candidatos foi construído um grafo e através do algoritmo PPR os candidatos foram classificados e foi escolhido o melhor candidato para ligar cada entidade. Esta pipeline foi aperfeiçoada através da adição de novos embeddings, um prolongamento do treino no modelo NER e uma correção de erros no código do sistema para a tarefa NEL. Apesar destas alterações contribuírem para um aumento significativo na performance da tarefa NEL (medida-F de 0.0061 para 0.665), o mesmo não aconteceu para a tarefa NER (medida-F de 0.741 para 0.754). A versão final do sistema ICERL é composta por uma pipeline para a língua portuguesa e pela pipeline que foi testada no corpus do CANTEMIST, com uma ligeira diferença na tarefa NEL: em vez de ser escolhido apenas um candidato para cada entidade, é escolhida uma lista de candidatos do CIE-O e o DeCS. Já na pipeline portuguesa são escolhidos candidatos do DeCS e da Classificação Internacional de Doenças (CID). Esta diferença na tarefa NEL deve-se ao método que foi utilizado para avaliar a performance do sistema ICERL e para não restringir o sistema a apenas um candidato e a um vocabulário. Para a construção da pipeline portuguesa, três modelos para a tarefa NER foram testados e concluiu-se que a melhor abordagem passaria pela combinação de um modelo semelhante ao modelo utilizado na pipeline espanhola e o modelo BioBERTpt. Devido à elevada semelhança lexical entre as duas línguas, foi testada a hipótese de utilização da mesma pipeline para as duas línguas. No entanto, através do software NLPStatTest foi possível concluir que a utilização de uma pipeline específica para cada língua traduz-se numa melhoria de 58 por cento na medida-F para os textos em português. O corpus ICR é composto por 1555 documentos para cada língua que foram retirados do SciELO. Uma vez que a pipeline espanhola foi treinada com ficheiros do CANTEMIST corpus, foi também necessário retirar documentos do SciELO e do PubMed para treinar a pipeline portuguesa. O sistema ICERL foi aplicado ao corpus ICR e o método de avaliação passou pela comparação dos resultados das anotações portuguesas com as anotações em espanhol. Isto porque foi possível avaliar a performance da pipeline espanhol no corpus do CANTEMIST, e os resultados obtidos foram próximos do estado-de-arte. A aplicação do sistema ICERL no corpus ICR resultou em 3999 anotações em espanhol sendo que 216 dessas anotações são únicas e 3287 em português sendo que 171 dessas anotações são únicas. Para além disso, a entidade câncer é a entidade mais frequente para as duas línguas. Para além destas semelhanças nas anotações, o facto de ter sido obtido 0.858 em medida-F no método de avaliação permite concluir que existe transferências de anotações entre as duas línguas e que é possível utilizar ferramentas de prospeção de texto semelhantes para ambas.
Keyword: Aprendizagem Profunda; Contexto Ibérico; Departamento de Informática; Literatura Biomédica; Mapeamento de Entidade; Reconhecimento de Entidade; Teses de mestrado - 2021
URL: http://hdl.handle.net/10451/51302
BASE
Hide details
9
Questões de tradução para legendagem e aprendizagem de alemão como língua estrangeira: o caso das legendas da série Dark
In: Pandaemonium Germanicum: Revista de Estudos Germanísticos, Vol 25, Iss 46 (2022) (2022)
BASE
Show details
10
AS ABORDAGENS-METODOLÓGICAS DE ENSINO DE LÍNGUA ESTRANGEIRA NO APLICATIVO DUOLINGO: uma pesquisa narrativa
In: DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 37 n. 2 (2021) ; 1678-460X ; 0102-4450 (2022)
BASE
Show details
11
O processo de reflexão de coordenadores em um curso online
In: DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 37 n. 1 (2021) ; 1678-460X ; 0102-4450 (2022)
BASE
Show details
12
Leitura de palavras em língua minoritária: a construção do léxico ortográfico em hunsriqueano
In: DELTA: Documentação e Estudos em Linguística Teórica e Aplicada; v. 37 n. 2 (2021) ; 1678-460X ; 0102-4450 (2022)
BASE
Show details
13
O desenho de uma aplicação de MAVL em PLE destinado a aprendentes chineses
In: Entrepalavras; v. 11, n. 11esp (11): Dicionário, léxico e ensino de línguas; 313-339 (2022)
BASE
Show details
14
Uma abordagem complexa para aprendizagem baseada em tarefas mediada por tecnologias ; A complex approach to technology-mediated task-based learning
In: Entrepalavras; v. 11, n. 3 (11): Linguagem e Tecnologia; 148-169 (2022)
BASE
Show details
15
A telecolaboração como facilitadora do diálogo intercultural no Instituto Federal Catarinense
In: Entrepalavras; v. 11, n. 3 (11): Linguagem e Tecnologia; 170-187 (2022)
BASE
Show details
16
Entre línguas, culturas e provérbios: o uso de dicionários no ensino/aprendizagem de línguas estrangeiras
In: Entrepalavras; v. 11, n. 11esp (11): Dicionário, léxico e ensino de línguas; 180-194 (2022)
BASE
Show details
17
Can We Speak?: Approaching Oral Proficiency in the EFL Classroom
BASE
Show details
18
Corpora and L2 acquisition ; the L1 Portuguese – L2 Spanish subcorpus of CEDEL2
BASE
Show details
19
Fenómenos Comuns de Interferência Linguística na Aprendizagem de Português Escrito por Alunos Chineses
Zhu, Simiao. - 2021
BASE
Show details
20
A Prática de Oralidade no Ensino-aprendizagem de Língua Portuguesa no 3º Ciclo do Ensino Básico e Ensino Secundário na Guiné-Bissau
Dias, Cadafi. - 2021
BASE
Show details

Page: 1 2 3 4 5...76

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
1.517
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern