Forschung | 7. Juni 2022
Jeden Tag wird eine unvorstellbare Menge an Daten erstellt und verbreitet. So viel wissen wir bereits. Eine grosse Menge dieser Daten sind textbasiert. All das Geschriebene zu lesen, einzuordnen und zu verarbeiten, ist für uns selbst unmöglich. Dank Text Mining kommen wir dieser Möglichkeit aber immer näher. Roland Krell, wissenschaftlicher Mitarbeiter der HWZ, hat sich in seiner Masterarbeit im MAS Digital Business HWZ intensiv mit Text Mining befasst. Er erzählte uns mehr über dieses spannende Feld der Datenanalyse.
Roland, was ist Text Mining?
Text Mining bezeichnet die automatisierte Analyse von unstrukturierten Daten wie z. B. Texten, Artikeln, Dokumenten oder Webseiten, um daraus gezielt bedeutsame Informationen gewinnen und ableiten zu können.
Wie funktioniert Text Mining genau?
Der generische Prozess von Text Mining umfasst drei Punkte:
Problem-Definition: Vereinbaren der Text-Mining-Ziele und das Zusammenstellen der wichtigsten Datenquellen.
Unorganized State: Generieren eines Textkorpus z. B. durch Web Scraping. Ein Textkorpus ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äusserungen in einer bestimmten Sprache oder Textart.
Organized State: Texte mit Hilfe von mathematischen Algorithmen oder auch Künstlicher Intelligenz (KI) Deep Learning Modellen in Vektoren und Matrizen umwandeln (Feature Extraction), um damit rechnen zu können. Diese dienen letztendlich als Input für KI Machine Learning (ML) Modelle.
Für welche Disziplinen und Forschungsgebiete ist Text Mining relevant?
Web Scraping oder Web Mining: Bezieht sich auf das Sammeln und Extrahieren von Daten des World Wide Web und deren Weiterverarbeitung.
Natural Language Processing: Hat zum Ziel, Computern die Sprache verständlich zu machen, und hat bereits eine längere Geschichte (seit den 1950er Jahren) als Text Mining. Ein wesentlicher Bereich ist die Sentiment-Analyse, bei der Texte hinsichtlich ihrer Haltung (positiv oder negativ) beurteilt werden.
Document Classification: Ist die Klassifizierung von Dokumenten anhand gewisser Kriterien wie z. B. die automatische Zuordnung zu einem Thema oder eine Klassifizierung hinsichtlich einer Bewertung.
Document Clustering: Bezeichnet das selbständige Finden von Ähnlichkeiten bei Textdokumenten und Zuordnen zu Gruppen durch entsprechende Algorithmen.
Information Extraction oder Information Retrieval: Ist die Anwendung von Verfahren aus der Künstlichen Intelligenz und der Computerlinguistik für die automatische maschinelle Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen zu gewinnen.
Was bedeutet Text Mining für die Forschung? Welche neuen Möglichkeiten entstehen?
Seit den späten 1990er Jahren gewinnt Text Mining von Jahr zu Jahr an Bedeutung. Es werden solide Fortschritte erzielt und die Algorithmen werden stets aufwendiger und komplexer. Text Mining kann angesichts der Flut von Texten und unstrukturierten Daten, die täglich entstehen, ein wahrer Segen sein. Es würde jedes menschliche Vermögen übersteigen, Terabytes an Texten zu lesen und zu analysieren.
Welche Vorteile hat Text Mining beispielsweise im Vergleich zu klassischen Umfragen?
Die Durchführung von Umfragen bei Firmen z. B. über Arbeitsweisen und Prozesse ist zeitaufwendig, was hauptsächlich darauf zurückzuführen ist, dass freiwillige Teilnehmer der entsprechenden Managementstufe identifiziert, kontaktiert und von der Mitwirkung überzeugt werden müssen. Erfahrungen zeigen, dass trotz der Anstrengungen die Rücklaufquote bei Fragebögen gering ist. Text Mining von Firmenwebseiten in Verbindung mit dem Trainieren eines KI-Modells (Supervised oder Unsupervised Learning) kann z. B. klassische Umfragen ersetzen, eine gewisse Objektivität sicherstellen und automatisiert immer wieder durchgeführt werden, um Veränderungen zu erkennen (obwohl natürlich andere Schwierigkeiten bei KI zu berücksichtigen sind)
Welche Nachteile hat Text Mining?
Im Bereich von KI hängt der Erfolg oftmals vom Vorhandensein der verarbeitbaren Daten ab. Gute Vorhersagen erfordern qualitativ hochwertige Daten in ausreichender Menge und in allen Ausprägungen. Ohne diese nützt auch das beste (Deep Learning) KI-Modell nichts. Das Sammeln der Daten ist eine sehr aufwendige Tätigkeit. Üblicherweise macht dies die Hauptaufgabe aus, verglichen mit der Auswahl und dem Trainieren eines Modells. Ähnlich verhält es sich mit den Ausprägungen; sind diese nicht in gleichen Massen vorhanden (Imbalance der Trainingsdaten), sind die Modelle voreingenommen, d. h. die Vorhersagen sind «biased» in Richtung der vorhandenen Trainingsdaten.
Wagen wir noch einen Blick in die Zukunft: Welche Rolle wird Text Mining in der Forschung spielen?
Die Weiterentwicklung von Hard- und Software sowie von angewandten Algorithmen ermöglicht, die grossen Datenmengen, die täglich generiert werden, effizient und schnell zu verarbeiten und zu analysieren. Schätzungen zufolge sind 90 Prozent aller elektronisch gespeicherten Informationen unstrukturierte Daten in Form von Texten. Warum soll z. B. ein Mitarbeiter ein gesamtes umfangreiches Dokument lesen, wenn es ausreicht, eine durch einen Computer generierte Zusammenfassung zu lesen? Auch die Übersetzung von Texten in andere Sprachen, Algorithmen die Texte generieren oder automatisierte Chatbots die Freitext-Fragen beantworten, fallen in diesen Bereich. Den Möglichkeiten sind keine Grenzen gesetzt. Es ist nur eine Frage der Zeit, bis all dies von Computern übernommen wird und man kaum merkt, dass kein Mensch am anderen Ende der Leitung sitzt. Denken wir nur an das Metaverse…
HWZ Hochschule für Wirtschaft Zürich Lagerstrasse 5, Postfach, 8021 Zürich kundencenter@fh-hwz.ch, +41 43 322 26 00
ImpressumDatenschutz