DE eng

Search in the Catalogues and Directories

Page: 1 2
Hits 1 – 20 of 32

1
A argumentatividade na aula de Português Língua Materna: Uma competência crucial para o desenvolvimento da escrita nos Ensino Básico e Secundário
BASE
Show details
2
Pseudorelatives: Parsing Preferences and their Natural Concealment
BASE
Show details
3
Terminological Methods in Lexicography: Conceptualising, Organising, and Encoding Terms in General Language Dictionaries
BASE
Show details
4
Multilingualism and translation: the multilingual actor(s) and the involvement in translation, a view on Covid-19 pandemic
BASE
Show details
5
Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
BASE
Show details
6
Modalidade e outras questões gramaticais na análise da tradução do relatório Fatigue Effects and Countermeasures in 24/7 Security Operations
BASE
Show details
7
Processamento de frases temporariamente ambíguas (garden-path): estudo de eyetracking em Português Europeu
BASE
Show details
8
Percepção dos tons em Mandarim por falantes nativos do Português Europeu
Peng, Yingying. - 2022
BASE
Show details
9
Tradução literária: análise da evolução das escolhas tradutórias na obra de Balzac, Le père Goriot para português brasileiro
BASE
Show details
10
Analysis on the impact of the source text quality: Building a data-driven typology
BASE
Show details
11
Vós, Vocês, and the Null Subject in European Portuguese
BASE
Show details
12
Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
Abstract: The last two decades have been of significant change in the international panorama at all levels. The onset of the internet and content availability has propelled us to a new era: The Information Age. The staggering growth of new digital contents, either in the form of ebooks, on-demand TV shows, blogs or even e-commerce websites, has led to an increase in the need for translated material, influenced by people's demand for a quick access to this shared knowledge in their native languages and dialects. Fortunately, machine translation technologies (MT), which provide in many cases human-like translations, are now more widely available, enabling quicker translations for multiple languages at more affordable prices. This work describes the Natural Language Process (NLP) sub-task known as Named Entity Recognition (NER), performed by Unbabel, a Portuguese Machine-translation start-up that combines MT with human post-edition and focuses strictly on customer service content, to improve translation quality outputs. The main objective of this study is to contribute to furthering MT quality and good-practices by exposing the importance of having a continuously-in-development robust Named Entity Recognition system for generic and client-specific content in an MT pipeline and for General Data Protection Regulation (GDPR) compliance; moreover, having in mind future applications, we have tested strategies that support the creation of Multilingual Named Entities Recognition Systems. In the following work, we will first define the meaning of Named Entity, highlighting its importance in a Machine Translation scenario, followed by a brief historical overview of the subject. We will also provide a reasonable description of the most recent data-driven Machine Translation technologies. Concerning the main topic of this work, we will describe three experiments carried out jointly with Unbabel´s NLP team. The first experiment focuses on assisting the NLP team in the creation of a domain-specific Named Entity Recognition (NER) system. The second and third experiments explore the possibilities to create in a semi-automatically fashion multilingual NER gold standards, by resorting to aligners able to project Named Entities between a parallel corpus. ; As últimas duas décadas têm sido de grandes mudanças a todos os níveis. O início da internet e a disponibilidade de conteúdos veio impulsionar-nos para uma nova era: a Era da Informação. O impressionante aumento de novos conteúdos digitais, sejam eles em forma de ebooks, programas de televisão sempre disponíveis quando solicitados, blogs ou mesmo sites na internet de vendas ao público, levou a um aumento de material traduzido, influenciado em grande parte pelo facto de as pessoas exigirem um acesso rápido a estes conhecimentos partilhados nas suas línguas nativas ou dialetos. Felizmente, as novas tecnologias de tradução automática (TA), que em muitos casos apresentam uma qualidade que rivaliza com as traduções humanas, estão agora amplamente disponíveis, permitindo traduções para uma panóplia de diferentes línguas, em tempo recorde e a melhores preços do que os praticados por tradutores humanos. O presente trabalho dedica-se a descrever a sub-tarefa no campo de Processamento de Língua Natural (PLN) denominada de Reconhecimento de Entidades Mencionadas (REM), utilizada pela Unbabel, uma startup portuguesa que combina tradução automática com pós-edição humana, de forma a melhorar a qualidade das traduções automáticas, e que se foca principalmente em conteúdos provenientes da área do apoio ao cliente. O principal objetivo deste trabalho é contribuir para um crescente aumento da qualidade das traduções automáticas e para fomentar as boas práticas na área da tradução automática, expondo a importância de manter um sistema de Reconhecimento de Entidades Mencionadas robusto e em constante evolução no seu ciclo de tradução, capaz de articular diferentes tipos de conteúdo, do mais genérico ao mais específico, e para cumprir as disposições sobre a proteção de dados exigidas pelo Regulamento Geral sobre a Proteção de Dados (RGPD); adicionalmente, e tendo em conta possíveis aplicações futuras, foram testadas estratégias inovadoras que permitem e fomentam a criação de um sistema de Reconhecimento de Entidades Mencionadas multilíngue. No presente documento, iremos primeiro definir o significado de Entidade Mencionada, explicitando a sua importância num contexto de tradução automática. Num segundo momento, será dada uma panorâmica histórica sobre o tema. Adicionalmente, também iremos fazer um enquadramento histórico sobre os próprios sistemas de tradução automáticos, com um especial foco nas mais recentes tecnologias desenvolvidas com base em dados e sistemas de Inteligência Artificial. No que se refere ao tema principal do nosso trabalho, iremos descrever as três experiências levadas a cabo durante o estágio na Unbabel. Todas as experiências efetuadas tiveram como base os dados reais de clientes dos mais diversos domínios, com cada corpus utilizado nas experiências, sendo selecionados de acordo com os objetivos finais de cada experiência. A primeira experiência, que teve como objetivo auxiliar a equipa de Inteligência Artificial da Unbabel a desenvolver e testar um sistema automático de Reconhecimento de Entidades Mencionadas na área da entrega de comida ao domicílio, previu a possibilidade futura de se conseguir adaptar estes tipos de sistema a qualquer domínio ou clientes específicos. Com esta experiência foram dados os primeiros passos na Unbabel para a criação de um sistemas de Reconhecimento de Entidades de domínio específico. Em relação ao trabalho desenvolvido, começámos por apresentar e testar uma metodologia de identificação de tipos de Entidades Mencionadas comuns ao domínio acima mencionado. Neste sentido, um extenso corpus na área foi compilado e analisado, sendo possível identificar quatro tipos, e.g., categorias, de Entidades Mencionadas relevantes para o domínio, Restaurant Names; Restaurant Chains; Dish Names; Beverages. Posteriormente, foram criadas diretrizes de anotação para cada nova categoria, acabando estas por serem adicionadas à tipologia de anotação de Entidades Mencionadas já existente na Unbabel, incluindo 27 EM de foro mais genérico, tais como: Localização; Moedas; Medidas; Endereços; Produtos e Serviços e Cidades. Num segundo momento, foi feita uma tarefa de anotação sobre um novo corpus da mesma área composto por 14426 frases, com vista à construção de gold standards, a serem utilizados para a aprendizagem dos sistemas automáticos de Reconhecimento de Entidades Mencionadas e para testar os resultados dos mesmos. Para esta tarefa, fizemos uso das novas diretrizes, permitindo testá-las. Dois modelos foram treinados, um com apenas o gold standard do domínio específico, o outro com o gold standard do domínio específico e com todas as anotações de Entidades Mencionadas disponíveis. Desta forma, foi possível determinar qual dos dois obteve melhores resultados. No que se refere aos resultados obtidos, determinou-se que o gold standard do domínio específico não apresentava exemplos suficientes para treino e teste do novo Sistema de Reconhecimento de Entidades Mencionadas. Mesmo assim, foi possível obter resultados referentes à categoria Dish Names, que permitiram concluir que de ambos os modelos, aquele treinado com o gold standard do domínio específico conseguiu obter melhores resultados, identificando mais Dish Names de forma correta no corpus de teste. A segunda experiência focou-se em testar a estratégia de criação automática de gold standards multilíngues de Entidades Mencionadas para aprendizagem de sistemas automáticos, recorrendo a sistemas de alinhamentos de Entidades Mencionadas em bitextos (textos paralelos bilíngues). Para esta experiência foi usado um corpus em inglês (EN) traduzido para alemão (DE) na área do Turismo com 2500 frases e quatro sistemas de alinhamento de palavras de última geração. Em relação a esta experiência, começamos por submeter o corpus traduzido (DE) a um processo de anotação manual de Entidades Mencionadas, utilizando para tal as diretrizes de anotação de Entidades Mencionadas da Unbabel, sendo que para esta experiência não foram consideradas as novas Entidades da primeira experiência. Com a anotação do corpus traduzido feita, foi então possível enviá-lo para alinhamento de Entidades Mencionadas com o corpus homólogo (EN), que havia sido previamente anotado por outro anotator. Os resultados de alinhamento das entidades Mencionadas do bitexto permitiu avaliar o Named Entities inter-annotator agreement, ou seja o valor de acordo entre anotadores, no que se refere à seleção e categorização das diferentes Entidades, de forma a perceber que Entidades apresentam mais dificuldades de anotação. Adicionalmente, com os resultados de alinhamento foi possível determinar o sistema de alinhamento com melhores resultados de entre os quatro sistemas analisados (SimAlign; FastAlign; AwesomeAlign; eflomal). Os resultados de anotação mostraram uma elevada percentagem de inter-annotator agreement, com 87,97% de concordância para algumas categorias. . Adicionalmente, os resultados de alinhamento permitiram estabelecer o SimAlign como o sistema de alinhamento mais eficaz e preciso, suplantando o sistema utilizado pela Unbabel, FastAlign. A terceira experiência replicou o processo acima descrito, desta vez usando um bitexto (EN e PT-BR) composto por 360 frases na área da tecnologia Com esta nova experiência, pretendeu-se verificar se os resultados de alinhamento obtidos para o corpus de Turismo EN/DE são replicáveis quando se altera o domínio e os pares de língua. Esta experiência, à semelhança da anterior, previu uma tarefa de anotação de Entidades Mencionadas do corpus em questão (EN e PT-BR), sendo utilizadas as mesmas diretrizes de anotação da anterior experiência. Num segundo momento, o bitexto anotado foi então enviado para alinhamento, sendo utilizados os mesmos sistemas de alinhamento da segunda experiência. Com base nos resultados da experiência, foi possível determinar para cada Entidade Mencionada quais os sistema de alinhamento que obtiveram melhores resultados. Desta análise chegou-se à conclusão de que o sistema de alinhamento automático AwesomeAlign foi o que apresentou melhores resultados, seguido pelo SimAlign, que apresentou um desempenho de alinhamento mais baixo para a categoria de Entidade Mencionadas: Organizações. Em conclusão, com este trabalho pretendemos mostrar a complexidade e importância inerentes às Entidades Mencionadas num pipeline de tradução automática, assim como mostrar a importância de sistemas de reconhecimento de Entidades Mencionadas robusto e adaptável. É expectável que sistemas de Reconhecimento de Entidades Mencionadas treinados com foco em domínios particulares, consigam melhores resultados do que aqueles treinados com dados mais genéricos. De igual forma, salientamos a possibilidade e aplicabilidade de se poder usar diferentes recursos da área de Processamento de Língua Natural, como o uso de sistemas de alinhamento, no auxílio de Reconhecimento de Entidades Mencionadas, como nos casos acima descritos. De uma perspectiva mais linguística, atendemos a questões relacionadas com Entidades Mencionadas ambíguas. Neste ponto, estabeleceu-se quais as entidades que apresentam uma maior variabilidade de anotação entre anotadores, ou seja, aquelas em que houve um maior desacordo entre anotadores no que se refere às suas classificações, tentando encontrar justificações e soluções para este problema.
Keyword: Domínio/Área Científica::Humanidades::Línguas e Literaturas
URL: http://hdl.handle.net/10451/51179
BASE
Hide details
13
Aquisição da altura em vogais orais tónicas por falantes chineses aprendentes do Português Europeu como língua segunda
Duan, Hongrui. - 2022
BASE
Show details
14
Questões de legendagem na tradução audiovisual: relatório de estágio na empresa Sintagma Traduções Unipessoal, Lda.
BASE
Show details
15
A língua portuguesa na Nigéria: implantação, situação atual, valor económico e perspetivas
BASE
Show details
16
Translinguismo na sinalética urbana no Funchal
BASE
Show details
17
O topónimo "Fajã": um património linguístico da macaronésia
BASE
Show details
18
A cultura baleeira na Madeira. Estudo lexical e comparação com os Açores
BASE
Show details
19
Relatório de Estágio no Ministério dos Negócios Estrangeiros: tradução jurídica e uma seleção de desafios linguísticos encontrados
BASE
Show details
20
A motivação e o investimento na aprendizagem dos estudantes chineses de PL2: um estudo em contexto de estudo no exterior em Aveiro, Lisboa e Porto Alegre
Guo, Caihong. - 2022
BASE
Show details

Page: 1 2

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
32
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern