2 |
A deixis ; DeixisA Proposal for XML Annotation within the Text ; uma proposta de anotação em XML no âmbito do texto
|
|
|
|
BASE
|
|
Show details
|
|
3 |
Argument structure taxonomy based 269 verb picture corpus in Kannada ...
|
|
|
|
BASE
|
|
Show details
|
|
6 |
Jeu des termes et chronodiversité. Examen polydiachronique de quelques termes de sémantique et de lexicologie ...
|
|
|
|
BASE
|
|
Show details
|
|
7 |
A inteligência, seus usos e ocorrências nos projetos políticos pedagógicos
|
|
|
|
In: A MARgem; Vol. 18 No. 2 (2021): v.18, jul-dez, 2021.; 107-124 ; A MARgem; Vol. 18 Núm. 2 (2021): v.18, jul-dez, 2021.; 107-124 ; A MARgem; V. 18 N. 2 (2021): v.18, jul-dez, 2021.; 107-124 ; A MARgem - Revista Eletrônica de Ciências Humanas, Letras e Artes; v. 18 n. 2 (2021): v.18, jul-dez, 2021.; 107-124 ; A MARgem; Vol. 18 N.º 2 (2021): v.18, jul-dez, 2021.; 107-124 ; 2175-2516 (2021)
|
|
BASE
|
|
Show details
|
|
8 |
NECOS: An annotated corpus to identify constructive news comments in Spanish ; NECOS: Un corpus anotado para identificar comentarios constructivos de noticias en español
|
|
|
|
BASE
|
|
Show details
|
|
9 |
Animacy and Intransitivity in Sentence Processing
|
|
|
|
In: Theses and Dissertations (2021)
|
|
BASE
|
|
Show details
|
|
10 |
EMPLOYING A PARALLEL CORPUS-BASED APPROACH IN TEACHING SEMANTIC PROSODY AND COLLOCATIONAL BEHAVIOR TO ARABIC EFL LEARNERS
|
|
|
|
BASE
|
|
Show details
|
|
11 |
On some challenges posed by corpus-based research in the history of ideas
|
|
Enrico Pasini. - : Accademia University Press, 2021. : country:ITA, 2021. : place:Torino, 2021
|
|
BASE
|
|
Show details
|
|
12 |
Confini e sconfinamenti negli archivi testuali e nei vocabolari elettronici ...
|
|
|
|
BASE
|
|
Show details
|
|
13 |
SSHOC Workshop: Sharing Datasets of Pathological Speech ...
|
|
|
|
BASE
|
|
Show details
|
|
14 |
SSHOC Workshop: Sharing Datasets of Pathological Speech ...
|
|
|
|
BASE
|
|
Show details
|
|
15 |
SSHOC Workshop: Sharing Datasets of Pathological Speech ...
|
|
|
|
BASE
|
|
Show details
|
|
18 |
Fintan - Flexible, Integrated Transformation and Annotation eNgineering ...
|
|
|
|
BASE
|
|
Show details
|
|
19 |
Fintan - Flexible, Integrated Transformation and Annotation eNgineering ...
|
|
|
|
BASE
|
|
Show details
|
|
20 |
La détection automatique multilingue d’énoncés biaisés dans Wikipédia
|
|
|
|
Abstract:
Nous proposons une méthode multilingue pour l'extraction de phrases biaisées de Wikipédia, et l'utilisons pour créer des corpus en bulgare, en français et en anglais. En parcourant l'historique des révisions des articles, nous cherchons ceux qui, à un moment donné, avaient été considérés en violation de la politique de neutralité de Wikipédia (et corrigés par la suite). Pour chacun de ces articles, nous récupérons la révision signalée comme biaisée et la révision qui semble avoir corrigé le biais. Ensuite, nous extrayons les phrases qui ont été supprimées ou réécrites dans cette révision. Cette approche permet d'obtenir suffisamment de données même dans le cas de Wikipédias relativement petites, comme celle en bulgare, où de 62 000 articles nous avons extrait 5 000 phrases biaisées. Nous évaluons notre méthode en annotant manuellement 520 phrases pour le bulgare et le français, et 744 pour l'anglais. Nous évaluons le niveau de bruit, ses sources et analysons les formes d’expression de biais. Enfin, nous utilisons les données pour entrainer et évaluer la performance d’algorithmes de classification bien connus afin d’estimer la qualité et le potentiel des corpus. ; We propose a multilingual method for the extraction of biased sentences from Wikipedia, and use it to create corpora in Bulgarian, French and English. Sifting through the revision history of the articles that at some point had been considered biased and later corrected, we retrieve the last tagged and the first untagged revisions as the before/after snapshots of what was deemed a violation of Wikipedia’s neutral point of view policy. We extract the sentences that were removed or rewritten in that edit. The approach yields sufficient data even in the case of relatively small Wikipedias, such as the Bulgarian one, where 62k articles produced 5 thousand biased sentences. We evaluate our method by manually annotating 520 sentences for Bulgarian and French, and 744 for English. We assess the level of noise and analyze its sources. Finally, we exploit the data with well-known classification methods to detect biased sentences.
|
|
Keyword:
Biais; Bias; Classification; Corpora; Corpus; Language - Linguistics / Langues - Linguistique (UMI : 0290); Multilingual; Multilingue; Neutralité; Neutrality; Wikipédia
|
|
URL: http://hdl.handle.net/1866/25107
|
|
BASE
|
|
Hide details
|
|
|
|