DE eng

Search in the Catalogues and Directories

Page: 1 2 3 4 5...59
Hits 1 – 20 of 1.169

1
Poder, Guerra e Performatividade nos baixos-relevos palacianos do Império Neo-Assírio (séculos IX-VII a.C.)
BASE
Show details
2
Neutralidade: Objectividade, Significação e Contexto
BASE
Show details
3
A argumentatividade na aula de Português Língua Materna: Uma competência crucial para o desenvolvimento da escrita nos Ensino Básico e Secundário
BASE
Show details
4
The influence of singing with text and a neutral syllable on Portuguese children´s vocal performance, song recognition, and use of singing voice
BASE
Show details
5
Pseudorelatives: Parsing Preferences and their Natural Concealment
BASE
Show details
6
Terminological Methods in Lexicography: Conceptualising, Organising, and Encoding Terms in General Language Dictionaries
BASE
Show details
7
Neologia Lexical em Uanhenga Xitu: Para a construção de um glossário de autor
BASE
Show details
8
Aproximaciones de la relación entre estados emocionales y felicidad ... : Approchement to the relationship between emotions and happiness ...
Unkn Unknown. - : UNIVERSIDAD AUTÓNOMA DE ZACATECAS, 2022
BASE
Show details
9
Todos os sítios : fragmentos de uma paisagem próxima
BASE
Show details
10
A tradução para legendagem: experiência na empresa Sintagma ; Translation for subtitling: experience on Sintagma
BASE
Show details
11
Ser tradutor num mundo globalizado e em constante evolução: experiência de estágio na SMARTIDIOM ; Being a translator in a globalised world in constant evolution: internship experience at SMARTIDIOM
Gilardi, Gilda. - 2022
BASE
Show details
12
Translation and equivalences between languages and cultures: Portuguese and Japanese proverbs ; 言語と文化の中にある翻訳と互換性: ポルトガル語と日本語の格言から
Teixeira, José. - : Aichi Prefectural University. Graduate School of International Cultural Studies, 2022
BASE
Show details
13
Dados de escrita de crianças de escolas portuguesas: vogais não acentuadas ; Writing data from Portuguese school children: unstressed vowels
Lourenço-Gomes, Maria do Carmo; Rodrigues, Celeste. - : Universidade Federal de Pelotas (UFPel), 2022
BASE
Show details
14
Multilingualism and translation: the multilingual actor(s) and the involvement in translation, a view on Covid-19 pandemic
BASE
Show details
15
Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
BASE
Show details
16
Modalidade e outras questões gramaticais na análise da tradução do relatório Fatigue Effects and Countermeasures in 24/7 Security Operations
BASE
Show details
17
Processamento de frases temporariamente ambíguas (garden-path): estudo de eyetracking em Português Europeu
BASE
Show details
18
Percepção dos tons em Mandarim por falantes nativos do Português Europeu
Peng, Yingying. - 2022
BASE
Show details
19
Tradução literária: análise da evolução das escolhas tradutórias na obra de Balzac, Le père Goriot para português brasileiro
BASE
Show details
20
Analysis on the impact of the source text quality: Building a data-driven typology
Abstract: In this study we propose a typology which concerns source errors and linguistic structures that might have an impact on Machine Translation (MT). Although most typologies are built on a bilingual level, the source text (ST) also presents issues that cannot be expected to be resolved by MT. In this study, we were able to test whether or not the quality of the ST has an impact on the target text (TT) quality. For that purpose, source data was annotated. The data analyzed was both inbound (user-generated content) and outbound (agent) in the context of chat. Through this analysis, it was possible to build a data driven typology. To aid the construction of a new typology, there was also a comparison between multiple typologies, whether they have a bilingual or a monolingual focus. This allowed us to see what could be applied to a monolingual typology and what was missing. With the annotation results, it was possible to build a new typology — Source Typology. To assist future annotators, we provided annotation guidelines with a listing of all the issue types, an explanation of the different span types, the severities to be used and the tricky cases that might occur during the annotation process. In order to test the reliability of the typology, three different case studies of an internal pilot were conducted. Each case study had a different goal and took into account different language pairs. By testing the Source Typology, we could see its effectiveness and reliability and what should be improved. In the end, we demonstrated that the quality of the ST can actually have an impact on the TT quality, where, at times, minor errors on the source would become or originate critical errors on the target. The typology is now being applied at Unbabel. ; Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo impacto. Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e também quais as classes de erros previamente utilizadas. De forma a ter mais informações sobre este tema, foi realizada uma análise de dados do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este processo permite a identificação e categorização de erros e difere conforme as diretrizes apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP. Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante específica, trazendo consigo simultaneamente as características da escrita e do diálogo. Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é requerida no apoio ao cliente, e de ter condições de vida precárias. Esta análise foi efetuada através de uma das métricas manuais de qualidade mais amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP. Através desta análise, foi possível criar uma tipologia baseada em dados. Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o processo de anotação com a listagem de todas as classes de erros (incluindo as novas adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as severidades utilizadas e os casos complicados que podem surgir durante o processo de anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a assistir na escolha da severidade adequada. De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas (representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências, emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas. Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA. O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos, algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9 estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em erros críticos no TC. O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra no TP ter tido impacto no TC. O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu, português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta análise, que o número de erros foi superior ao número de segmentos, o que significa que, por média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros. Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também se verificou que algumas classes de erros não foram anotadas de forma correta ou que não foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa, também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC. Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não concordância entre os anotadores, como também a concordância que os anotadores tiveram consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção nas diretrizes. Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto, impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar a tipologia, que está em produção na Unbabel.
Keyword: Domínio/Área Científica::Humanidades::Línguas e Literaturas
URL: http://hdl.handle.net/10451/51178
BASE
Hide details

Page: 1 2 3 4 5...59

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
1.169
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern