1 |
Utiliser TinySegmenter avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523195 ; 2022, https://tekipaki.hypotheses.org/2015 (2022)
|
|
BASE
|
|
Show details
|
|
2 |
Utiliser TinySegmenter avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523195 ; 2022, https://tekipaki.hypotheses.org/2015 (2022)
|
|
BASE
|
|
Show details
|
|
3 |
Cartographier des données linguistiques avec Python – 1
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03281612 ; 2021, https://tekipaki.hypotheses.org/1225 (2021)
|
|
BASE
|
|
Show details
|
|
4 |
Cartographier des données linguistiques avec Python – 2
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03509627 ; 2021, https://tekipaki.hypotheses.org/1362 (2021)
|
|
BASE
|
|
Show details
|
|
5 |
Déclaration XML automatique
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523146 ; 2021, https://tekipaki.hypotheses.org/1897 (2021)
|
|
BASE
|
|
Show details
|
|
6 |
Lire (et modifier) un fichier XML avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523158 ; 2021, https://tekipaki.hypotheses.org/1906 (2021)
|
|
BASE
|
|
Show details
|
|
7 |
Produire un corpus web format XML en 15 lignes de code
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03521338 ; 2021, https://tekipaki.hypotheses.org/1758 (2021)
|
|
BASE
|
|
Show details
|
|
8 |
Déclaration XML automatique
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523146 ; 2021, https://tekipaki.hypotheses.org/1897 (2021)
|
|
BASE
|
|
Show details
|
|
9 |
Cartographier des données linguistiques avec Python – 2
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03509627 ; 2021, https://tekipaki.hypotheses.org/1362 (2021)
|
|
BASE
|
|
Show details
|
|
10 |
Cartographier des données linguistiques avec Python – 3
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03521244 ; 2021, https://tekipaki.hypotheses.org/1414 (2021)
|
|
BASE
|
|
Show details
|
|
11 |
Cartographier des données linguistiques avec Python – 5
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03521303 ; 2021, https://tekipaki.hypotheses.org/1421 (2021)
|
|
BASE
|
|
Show details
|
|
12 |
Lire (et modifier) un fichier XML avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03523158 ; 2021, https://tekipaki.hypotheses.org/1906 (2021)
|
|
BASE
|
|
Show details
|
|
13 |
Navigation web automatique avec Python
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03521321 ; 2021, https://tekipaki.hypotheses.org/1475 (2021)
|
|
BASE
|
|
Show details
|
|
14 |
Cartographier des données linguistiques avec Python – 4
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03521277 ; 2021, https://tekipaki.hypotheses.org/1418 (2021)
|
|
BASE
|
|
Show details
|
|
15 |
Cartographier des données linguistiques avec Python – 1
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03281612 ; 2021, https://tekipaki.hypotheses.org/1225 (2021)
|
|
BASE
|
|
Show details
|
|
16 |
Étiquetage morphosyntaxique avec SudachiPy
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03058361 ; 2020, https://tekipaki.hypotheses.org/721 (2020)
|
|
BASE
|
|
Show details
|
|
17 |
Uniformisation d’encodage en deux étapes
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03079596 ; 2020, https://tekipaki.hypotheses.org/669 (2020)
|
|
Abstract:
Tekipaki ; La lecture préalable de l’article Fiabilité de chardet (https://tekipaki.hypotheses.org/536) est fortement conseillée.Lorsqu’on travaille avec un corpus textuel composé de nombreux fichiers dont l’encodage n’est pas uniforme, l’une des premières étapes de traitement est de convertir l’ensemble du corpus vers un encodage unique et reconnu par les outils qui seront utilisés ensuite. Il existe plusieurs façons d’y parvenir, telle que celle présentée dans cet article (https://tekipaki.hypotheses.org/536), qui fait appel à chardet.Toutefois, en fonction de la composition du corpus et des objectifs poursuivis, détecter et convertir en masse l’encodage de l’ensemble des fichiers n’est pas forcément la solution la plus efficace. Voici une alternative où la détection et la conversion constituent deux étapes distinctes.
|
|
Keyword:
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; [SHS.LANGUE]Humanities and Social Sciences/Linguistics; Corpus; Corpus & linguistique; CSV; Encodage; Python; Python 3; UTF-8
|
|
URL: https://hal.archives-ouvertes.fr/hal-03079596
|
|
BASE
|
|
Hide details
|
|
18 |
Modèles chinois et japonais pour spaCy
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03037800 ; 2020, https://tekipaki.hypotheses.org/576 (2020)
|
|
BASE
|
|
Show details
|
|
19 |
Étiquetage morphosyntaxique avec Jieba
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://hal.archives-ouvertes.fr/hal-03030765 ; 2020, https://tekipaki.hypotheses.org/115 (2020)
|
|
BASE
|
|
Show details
|
|
20 |
Étiquetage morphosyntaxique avec PyNLPIR
|
|
|
|
In: ISSN: 2729-465X ; Tekipaki ; https://halshs.archives-ouvertes.fr/halshs-03025755 ; 2020, https://tekipaki.hypotheses.org/117 (2020)
|
|
BASE
|
|
Show details
|
|
|
|