DE eng

Search in the Catalogues and Directories

Page: 1 2 3 4
Hits 1 – 20 of 64

1
Le lexique-grammaire de noms sous-spécifiés
In: Corela, Vol 34 (2021) (2021)
BASE
Show details
2
An arabic language resource for computational morphology based on the semitic model ; Une ressource linguistique arabe pour la morphologie computationnelle basée sur le modèle sémitique
Neme, Alexis. - : HAL CCSD, 2020
In: https://tel.archives-ouvertes.fr/tel-03038856 ; Computation and Language [cs.CL]. Université Paris-Est, 2020. English. ⟨NNT : 2020PESC2013⟩ (2020)
Abstract: We developed an original approach to Arabic traditional morphology, involving new concepts in Semitic lexicology, morphology, and grammar for standard written Arabic. This new methodology for handling the rich and complex Semitic languages is based on good practices in Finite-State technologies (FSA/FST) by using Unitex, a lexicon-based corpus processing suite. For verbs (Neme, 2011), I proposed an inflectional taxonomy that increases the lexicon readability and makes it easier for Arabic speakers and linguists to encode, correct, and update it. Traditional grammar defines inflectional verbal classes by using verbal pattern-classes and root-classes. In our taxonomy, traditional pattern-classes are reused, and root-classes are redefined into a simpler system. The lexicon of verbs covered more than 99% of an evaluation corpus. For nouns and adjectives (Neme, 2013), we went one step further in the adaptation of traditional morphology. First, while this tradition is based on derivational rules, we found our description on inflectional ones. Next, we keep the concepts of root and pattern, which is the backbone of the traditional Semitic model. Still, our breakthrough lies in the reversal of the traditional root-and-pattern Semitic model into a pattern-and-root model, which keeps small and orderly the set of pattern classes and root sub-classes. I elaborated a taxonomy for broken plural containing 160 inflectional classes, which simplifies ten times the encoding of broken plural. Since then, I elaborated comprehensive resources for Arabic. These resources are described in Neme and Paumier (2019). To take into account all aspects of the rich morphology of Arabic, I have completed our taxonomy with suffixal inflexional classes for regular plurals, adverbs, and other parts of speech (POS) to cover all the lexicon. In all, I identified around 1000 Semitic and suffixal inflectional classes implemented with concatenative and non-concatenative FST devices.From scratch, I created 76000 fully vowelized lemmas, and each one is associated with an inflectional class. These lemmas are inflected by using these 1000 FSTs, producing a fully inflected lexicon with more than 6 million forms. I extended this fully inflected resource using agglutination grammars to identify words composed of up to 5 segments, agglutinated around a core inflected verb, noun, adjective, or particle. The agglutination grammars extend the recognition to more than 500 million valid delimited word forms, partially or fully vowelized. The flat file size of 6 million forms is 340 megabytes (UTF-16). It is compressed then into 11 Mbytes before loading to memory for fast retrieval. The generation, compression, and minimization of the full-form lexicon take less than one minute on a common Unix laptop. The lexical coverage rate is more than 99%. The tagger speed is 5000 words/second, and more than 200 000 words/s, if the resources are preloaded/resident in the RAM. The accuracy and speed of our tools result from our systematic linguistic approach and from our choice to embrace the best practices in mathematical and computational methods. The lookup procedure is fast because we use Minimal Acyclic Deterministic Finite Automaton (Revuz, 1992) to compress the full-form dictionary, and because it has only constant strings and no embedded rules. The breakthrough of our linguistic approach remains principally on the reversal of the traditional root-and-pattern Semitic model into a pattern-and-root model.Nonetheless, our computational approach is based on good practices in Finite-State technologies (FSA/FST) as all the full-forms were computed in advance for accurate identification and to get the best from the FSA compression for fast and efficient lookups ; La morphologie de la langue arabe est riche, complexe, et hautement flexionnelle. Nous avons développé une nouvelle approche pour la morphologie traditionnelle arabe destinés aux traitements automatiques de l’arabe écrit. Cette approche permet de formaliser plus simplement la morphologie sémitique en utilisant Unitex, une suite logicielle fondée sur des ressources lexicales pour l'analyse de corpus. Pour les verbes (Neme, 2011), j’ai proposé une taxonomie flexionnelle qui accroît la lisibilité du lexique et facilite l’encodage, la correction et la mise-à-jour par les locuteurs et linguistes arabes. La grammaire traditionnelle définit les classes verbales par des schèmes et des sous-classes par la nature des lettres de la racine. Dans ma taxonomie, les classes traditionnelles sont réutilisées, et les sous-classes sont redéfinies plus simplement. La couverture lexicale de cette ressource pour les verbes dans un corpus test est de 99 %. Pour les noms et les adjectifs (Neme, 2013) et leurs pluriels brisés, nous sommes allés plus loin dans l’adaptation de la morphologie traditionnelle. Tout d’abord, bien que cette tradition soit basée sur des règles dérivationnelles, nous nous sommes restreints aux règles exclusivement flexionnelles. Ensuite, nous avons gardé les concepts de racine et de schème, essentiels au modèle sémitique. Pourtant, notre innovation réside dans l’inversion du modèle traditionnel de racine-et-schème au modèle schème-et-racine, qui maintient concis et ordonné l’ensemble des classes de modèle et de sous-classes de racine. Ainsi, nous avons élaboré une taxonomie pour le pluriel brisé contenant 160 classes flexionnelles, ce qui simplifie dix fois l’encodage du pluriel brisé. Depuis, j’ai élaboré des ressources complètes pour l’arabe écrit. Ces ressources sont décrites dans Neme et Paumier (2019). Ainsi, nous avons complété ces taxonomies par des classes suffixées pour les pluriels réguliers, adverbes, et d’autres catégories grammaticales afin de couvrir l’ensemble du lexique. En tout, nous obtenons environ 1000 classes de flexion implémentées au moyen de transducteurs concatenatifs et non-concatenatifs. A partir de zéro, j’ai créé 76000 lemmes entièrement voyellisés, et chacun est associé à une classe flexionnelle. Ces lemmes sont fléchis en utilisant ces 1000 FST, produisant un lexique entièrement fléchi de plus 6 millions de formes. J’ai étendu cette ressource entièrement fléchie à l’aide de grammaires d’agglutination pour identifier les mots composés jusqu’à 5 segments, agglutinés autour d’un verbe, d’un nom, d’un adjectif ou d’une particule. Les grammaires d’agglutination étendent la reconnaissance à plus de 500 millions de formes de mots valides, partiellement ou entièrement voyelles. La taille de fichier texte généré est de 340 mégaoctets (UTF-16). Il est compressé en 11 mégaoctets avant d’être chargé en mémoire pour la recherche rapide (fast lookup). La génération, la compression et la minimisation du lexique prennent moins d’une minute sur un MacBook. Le taux de couverture lexical d’un corpus est supérieur à 99 %. La vitesse de tagger est de plus de 200 000 mots/s, si les ressources ont été pré-chargées en mémoire RAM. La précision et la rapidité de nos outils résultent de notre approche linguistique systématique et de l’adoption des meilleurs choix pratiques en matière de méthodes mathématiques et informatiques. La procédure de recherche est rapide parce que nous utilisons l’algorithme de minimisation d’automate déterministique acyclique (Revuz, 1992) pour comprimer le dictionnaire complet, et parce qu’il n’a que des chaînes constantes. La performance du tagger est le résultat des bons choix pratiques dans les technologies automates finis (FSA/FST) car toutes les formes fléchies calculées à l’avance pour une identification précise et pour tirer le meilleur parti de la compression et une recherche des mots déterministes et efficace
Keyword: [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; Analyse lexicale; Arabe; Arabic; Automate fini; Finite State transduscer; Lexical tagging; Minimal Acyclic Deterministic Finite Automaton; Nlp; Spell checking; Vérification Orthographique
URL: https://tel.archives-ouvertes.fr/tel-03038856
https://tel.archives-ouvertes.fr/tel-03038856/document
https://tel.archives-ouvertes.fr/tel-03038856/file/TH2020PESC2013.pdf
BASE
Hide details
3
RECOGNIZING THE VOCABULARY OF BRAZILIAN POPULAR NEWSPAPERS WITH A FREE-ACCESS COMPUTATIONAL DICTIONARY ...
BASE
Show details
4
RECOGNIZING THE VOCABULARY OF BRAZILIAN POPULAR NEWSPAPERS WITH A FREE-ACCESS COMPUTATIONAL DICTIONARY ...
BASE
Show details
5
Uso de uma Ferramenta de Processamento de Linguagem Natural como Auxílio à Coleta de Exemplos para o Estudo de Propriedades Sintático-Semânticas de Verbos
In: Linguamática, Vol 7, Iss 2 (2015) (2015)
BASE
Show details
6
Idiomatic Constructions in Italian ; Idiomatic Constructions in Italian: A Lexicon-Grammar approach
Vietri, Simona. - : HAL CCSD, 2014. : John Benjamins, 2014
In: https://hal-upec-upem.archives-ouvertes.fr/hal-01094143 ; John Benjamins, 31, 2014, Lingvisticae Investigationes Supplementa, Éric Laporte, Annibale Elia, Cédrick Fairon, Duško Vitas, 978 90 272 3141 3. ⟨10.1075/lis.31⟩ (2014)
BASE
Show details
7
processing?
In: https://hal.archives-ouvertes.fr/hal-00858302/document/ (2013)
BASE
Show details
8
Conversion of Lexicon-Grammar tables to LMF. Application to French
In: https://hal-upec-upem.archives-ouvertes.fr/hal-00803800/file/CHAP11-ltc-6-nov.pdf (2013)
BASE
Show details
9
DOI:10.1016/j.langsci.2013.06.002 Pattern-and-root inflectional morphology: the Arabic broken plural
In: http://halshs.archives-ouvertes.fr/docs/00/83/13/38/PDF/Prim-final.pdf (2013)
BASE
Show details
10
Author manuscript, published in "Lexicon-Grammar: 50 years, Zheng Ding-Ou (Ed.) (2012) 261-270" Is the Lexicon-Grammar exploitable for language processing?
In: http://hal-enpc.archives-ouvertes.fr/docs/00/85/83/02/PDF/LGELP.pdf (2013)
BASE
Show details
11
Integration of Data from a Syntactic Lexicon into Generative and Discriminative Probabilistic Parsers
In: https://hal-upec-upem.archives-ouvertes.fr/hal-00621646/document/ (2012)
BASE
Show details
12
A resource-based Korean morphological annotation system Hyun-gue Huh
In: http://hal-enpc.archives-ouvertes.fr/docs/00/62/15/08/PDF/postHuhLaporte.pdf (2012)
BASE
Show details
13
A resource-based Korean morphological annotation system Hyun-gue Huh
In: http://hal-enpc.archives-ouvertes.fr/docs/00/62/15/08/PDF/posterHuhLaporte.pdf (2012)
BASE
Show details
14
Semantic Polarity of Adjectival Predicates in Online Reviews
In: https://hal-upec-upem.archives-ouvertes.fr/hal-00621601/document/ (2012)
BASE
Show details
15
Author manuscript, published in "Language Resources and Evaluation (LREC'12), Istanbul: Turkey (2012)"
In: http://hal-enpc.archives-ouvertes.fr/docs/00/76/23/00/PDF/LREC2012-Rakho-Laporte-Constant-final.pdf (2012)
BASE
Show details
16
Appropriate nouns with obligatory modifiers
In: http://hal-enpc.archives-ouvertes.fr/docs/00/63/69/80/PDF/seoul94.pdf (2012)
BASE
Show details
17
Integration of lexical resources in a probabilistic parser ; Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste
Sigogne, Anthony. - : HAL CCSD, 2012
In: https://tel.archives-ouvertes.fr/tel-00795309 ; Autre [cs.OH]. Université Paris-Est, 2012. Français. ⟨NNT : 2012PEST1106⟩ (2012)
BASE
Show details
18
Lexicon-grammar of converse constructions in a da/ a primi in Romanian ; Lexique-grammaire des constructions converses en a da/ a primi en roumain
Ciocanea, Cristiana. - : HAL CCSD, 2011
In: https://pastel.archives-ouvertes.fr/pastel-00667769 ; Linguistique. Université Paris-Est, 2011. Français. ⟨NNT : 2011PEST1011⟩ (2011)
BASE
Show details
19
French parsing enhanced with a word clustering method based on a syntactic lexicon
In: https://hal-upec-upem.archives-ouvertes.fr/hal-00722750/document/ (2011)
BASE
Show details
20
Syntactic analysis with tables of French Lexicon-Grammar ; Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français
Tolone, Elsa. - : HAL CCSD, 2011
In: https://pastel.archives-ouvertes.fr/tel-00640624 ; Linguistique. Université Paris-Est, 2011. Français. ⟨NNT : 2011PEST1051⟩ (2011)
BASE
Show details

Page: 1 2 3 4

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
64
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern