1 |
From bag-of-words towards natural language: adapting topic models to avoid stop word removal ...
|
|
|
|
Abstract:
Topic models such as latent Dirichlet allocation (LDA) aim to identify latent topics within text corpora. However, although LDA-type models fall into the category of Natural Language Processing, the actual model input is heavily modified from the original natural language. Among other things, this is typically done by removing specific terms, which arguably might also remove information. In this paper, an extension to LDA is proposed called uLDA, which seeks to incorporate some of these formerly eliminated terms -- namely stop words -- to match natural topics more closely. After developing and evaluating the new extension on established fit measures, uLDA is then tasked with approximating human-perceived topics. For this, a ground truth for topic labels is generated using a human-based experiment. These values are then used as a reference to be matched by the model output. Results show that the new extension outperforms traditional topic models regarding out-of-sample fit across all data sets and regarding ... : Topic-Modelle wie die latente Dirichlet-Allokation (LDA) zielen darauf ab, latente Themen in Textkorpora zu identifizieren. Obwohl Modelle vom Typ LDA in die Kategorie der Verarbeitung natürlicher Sprache fallen, wird die eigentliche Modelleingabe jedoch stark von der ursprünglichen natürlichen Sprache abgewandelt. Dies geschieht u. a. durch das Entfernen bestimmter Begriffe, wodurch allerdings auch Informationen verloren gehen können. In dieser Arbeit wird eine Erweiterung von LDA vorgeschlagen, die uLDA genannt wird und versucht, einige dieser zuvor eliminierten Begriffe - sogenannte Stoppwörter - in das Modell mit einzubeziehen, um die natürlichen Themen besser abzubilden. Nach der Entwicklung und Evaluierung der neuen Erweiterung anhand etablierter Anpassungsmaße wird uLDA dann mit der Aufgabe betraut, vom Menschen wahrgenommene Themen zu approximieren. Zu diesem Zweck wird eine Grundwahrheit für die Themenmarkierung durch ein Experiment mit menschlichen Teilnehmern erzeugt. Diese Werte werden dann als ...
|
|
Keyword:
Bayes-Lernen; Unüberwachtes Lernen; Computerlinguistik; Hierarchical bayes model; Topic models LDA
|
|
URL: https://dx.doi.org/10.17904/ku.opus-726 https://opus4.kobv.de/opus4-ku-eichstaett/frontdoor/index/index/docId/726
|
|
BASE
|
|
Hide details
|
|
2 |
Neuronale maschinelle Übersetzung für ressourcenarme Szenarien ... : Neural machine translation for low-resource scenarios ...
|
|
|
|
BASE
|
|
Show details
|
|
3 |
Linked Open Tafsir - Rekonstruktion der Entstehungsdynamik(en) des Korans mithilfe der Netzwerkmodellierung früher islamischer Überlieferungen ...
|
|
|
|
BASE
|
|
Show details
|
|
4 |
Linked Open Tafsir - Rekonstruktion der Entstehungsdynamik(en) des Korans mithilfe der Netzwerkmodellierung früher islamischer Überlieferungen ...
|
|
|
|
BASE
|
|
Show details
|
|
5 |
Evaluation computergestützter Verfahren der Emotionsklassifikation für deutschsprachige Dramen um 1800 ...
|
|
|
|
BASE
|
|
Show details
|
|
6 |
Evaluation computergestützter Verfahren der Emotionsklassifikation für deutschsprachige Dramen um 1800 ...
|
|
|
|
BASE
|
|
Show details
|
|
7 |
Preparing Legal Documents for NLP Analysis: Improving the Classification of Text Elements by Using Page Features
|
|
|
|
BASE
|
|
Show details
|
|
8 |
DaF an öffentlichen Schulen am Beispiel eines Projekts in Rio de Janeiro
|
|
|
|
In: Pandaemonium Germanicum: Revista de Estudos Germanísticos, Vol 25, Iss 45 (2022) (2022)
|
|
BASE
|
|
Show details
|
|
10 |
Lockdown, Homeschooling und Social Distancing: der Zweitspracherwerb unter akut veränderten Bedingungen der COVID-19-Pandemie ...
|
|
|
|
BASE
|
|
Show details
|
|
11 |
Dramapädagogik-Tage 2019. Conference proceedings of the 5th annual conference on performative language teaching and learning ... : Drama in education days 2019 ...
|
|
|
|
BASE
|
|
Show details
|
|
12 |
MEDIZINISCHES ENGLISCH LERNEN DURCH AUTHENTISCHE FILME: EXTRA-SPRACHLICHE FAKTOREN, DIE ZUM STUDIUM DER MEDIZINISCHEN TERMINOLOGIE BEITRAGEN ...
|
|
|
|
BASE
|
|
Show details
|
|
13 |
MEDIZINISCHES ENGLISCH LERNEN DURCH AUTHENTISCHE FILME: EXTRA-SPRACHLICHE FAKTOREN, DIE ZUM STUDIUM DER MEDIZINISCHEN TERMINOLOGIE BEITRAGEN ...
|
|
|
|
BASE
|
|
Show details
|
|
15 |
Legitime Sprachen, legitime Identitäten. Interaktionsanalysen im spätmodernen »Deutsch als Fremdsprache«-Klassenzimmer
|
|
Rellstab, Daniel H.. - : transcript, 2021. : Bielefeld, 2021. : pedocs-Dokumentenserver/DIPF, 2021
|
|
In: Bielefeld : transcript 2021, 375 S. - (Interkulturalität. Studien zu Sprache, Literatur und Gesellschaft; 21) (2021)
|
|
BASE
|
|
Show details
|
|
16 |
Dramapädagogik-Tage 2019. Conference proceedings of the 5th annual conference on performative language teaching and learning ; Drama in education days 2019
|
|
|
|
In: 2021, 188 S. (2021)
|
|
BASE
|
|
Show details
|
|
17 |
Lire la littérature médiévale en classe de français langue étrangère: une utopie? ; Reading medieval literature in French lessons: a utopia?
|
|
|
|
In: Schweizerische Zeitschrift für Bildungswissenschaften 43 (2021) 1, S. 129-138 (2021)
|
|
BASE
|
|
Show details
|
|
18 |
Creating a multilingual MOOC content for information literacy: a workflow
|
|
|
|
In: Botte, Alexander [Hrsg.]; Libbrecht, Paul [Hrsg.]; Rittberger, Marc [Hrsg.]: Learning Information Literacy across the Globe. Frankfurt am Main, May 10th 2019. Frankfurt am Main : DIPF 2021, S. 114-128 (2021)
|
|
BASE
|
|
Show details
|
|
19 |
Learning Information Literacy across the Globe. Frankfurt am Main, May 10th 2019
|
|
|
|
In: Frankfurt am Main : DIPF 2021, 133 S. (2021)
|
|
BASE
|
|
Show details
|
|
20 |
Der Beitrag der Interkulturalität zur Vermittlung einer Fremdsprache
|
|
|
|
In: ALTRALANG Journal; Vol 3 No 01 (2021): ALTRALANG Journal Volume: 03 Issue: 01 / July 2021; 222-235 ; 2710-8619 ; 2710-7922 ; 10.52919/altralang.v3i01 (2021)
|
|
BASE
|
|
Show details
|
|
|
|