Sie wollen mehr über das Leistungsspektrum der msg-Gruppe erfahren? Dann besuchen Sie die Internetseiten der msg und der msg-Gruppenunternehmen.

Besuchen
 
msgforbankingmsgforbanking
  • Aktuelle Webseite
    Alle msg-Seiten
    • AKTUELLES
      • Startseite
      • News
      • Publikationen
      • Termine
    • THEMEN
      • Aufsichtsrecht & Meldewesen
      • Capital Markets
      • Geschäftsmodelle & Nachhaltigkeit
      • Banksteuerung & Risikomanagement
      • #insidemsggillardon
      • Payments, Innovation & Fintech

    msgGillardonmsgGillardon

29.07.2019

Geschäftsmodelle & Nachhaltigkeit

Text Mining in Finance und Banking - Erkenntnisgewinn aus Texten

Datenanalyse wird in der Regel mit Zahlen (numerischen Werten) und strukturierten Daten (Tabellen) in Verbindung gebracht. Diese lassen sich relativ einfach handhaben und verarbeiten. Bei der Verarbeitung von Text aus Dokumenten, Internetseiten, Foren, Social Media, Zeitschriften und Artikeln wird das Ganze schon schwieriger. Hier entsteht der Informationsgewinn durch (manchmal aufwendiges und mühsames) lesen, oder der gezielten Suche nach bestimmten Wörtern, oder Passagen. Mit Techniken aus dem Bereich Data Analytics kann dieser Prozess erheblich unterstützt, bzw. sogar teilweise (maschinell) automatisiert werden. Wie das konkret aussehen kann, werde ich Ihnen in diesem Artikel kurz skizzieren.

Datenextraktion
Der erste Schritt um unstrukturierte Daten (Texte) analysieren zu können besteht darin, den Text zu extrahieren. Im nachfolgenden Beispiel wird dies anhand von fünf msgGillardon-NEWS aus den Jahren 2016 bis 2019 dargestellt. Neben unseren NEWS, die als PDF vorliegen, kann natürlich so gut wie jedes PDF-Dokument verwendet werden. Bei einigen (älteren) Formaten sind möglicherweise ein paar weitere Handgriffe nötig. Generell könnten zum Beispiel einzelne Dokumente, oder eine ganze Reihe von Dokumenten verarbeitet werden. Im Wesentlichen sind drei Schritte notwendig (siehe nachfolgende Abbildung)

2018 07 24 graphik1 PUB v1

Für unser kleines Beispiel werden die fünf NEWS-Zeitschriften in einem Ordner abgelegt, aus dem diese anschließend automatisiert in die Software importiert werden. Somit sind neben der Dateiablage keine manuellen Schritte notwendig. Folgende NEWS werden dabei verwendet:
• Ausgabe 1 2016
• Ausgabe 1 2017
• Ausgabe 1 2018
• Ausgabe 3 2018
• Ausgabe 1 2019   

+++ HINWEIS: Da nicht alle NEWS aus dem Zeitraum 2016 bis 2019 berücksichtigt werden, sind die nachfolgenden Darstellungen und Auswertungen beispielhaft und nicht aussagekräftig. Vielmehr wird hier lediglich das Grundsätzliche Vorgehen skizziert  +++

Auch diese Schritte können automatisiert werden, wenn man beispielsweise direkt Textcontent von einer Webseite via Web Scraping extrahieren will, oder wenn eine Schnittstelle (API) zur Verfügung steht. Da Web Scraping sehr viel Möglichkeiten offenbart, wird diese Methodik in einem eigenständigen Folgeartikel vorgestellt.  

Datenaufbereitung
Nach erfolgreichem Import müssen die Daten nachbearbeitet werden. Die Nachbearbeitung umfasst beispielsweise das Aussortieren von Wörter, die keinen Informationsgewinn beitragen. Beispiele hierfür sind u.a. die Artikel „der“, „die“, „das“ und die Konjunktionen „und“, „oder“. Da diese so gut wie in jedem Text auftauchen, können diese als nicht signifikant betrachtet und herausgefiltert werden. Diese Art der Filterung durch sogenannte Stopwords wird auch standardmäßig im Textmining verwendet. Dies geschieht somit ebenfalls automatisiert, ohne explizites Einwirken des Benutzers.
Weiterhin können zusätzlich noch statische Filter gesetzt werden, um bestimmte Wörter herauszufiltern. Beispielsweise wenn auf jeder Seite in der Kopf- und Fußzeile gleichbleibende Sätze, oder Wörter stehen, so sollten diese herausgefiltert werden. 
In vielen Fällen ist es sinnvoll die Wörter grammatikalisch einzuordnen (Nomen, Adjektive, Verben, Präpositionen, etc…) und anschließend zusammen zu fassen.

Visualisierung
Zur Visualisierung eignen sich Wordclouds und Histogramme. Nachfolgend sind die Nomina von fünf msgGillardon-NEWS in Wordclouds dargestellt. Der große Vorteil von Wordclouds ist der schnelle Informationsgewinn, da auf den ersten Blick die wichtigsten Begriffe erkennbar sind. In der nachfolgenden Graphik sind die Nomen der einzelnen msgGillardon-NEWS von 2016 bis 2019 nach ihrer Häufigkeit in Wordclouds visuell dargestellt. 
5 news ausgabe 01 2019
Deutlich erkennbar ist auch, dass sich der Sprachgebrauch innerhalb der 4 Jahre verändert hat. Ersichtlich ist auch, dass Begriffe wie „Künstliche Intelligenz“, „Blockchain“ und „Algorithmus“ in den Jahren 2018 und 2019 populär sind. Exemplarisch für die NEWS (01/2019) sind die zehn häufigsten Nomina gelistet.  

barplot 5 news ausgabe 01 2019

 Klassische Begriffe wie „Kunde“, „Bank“, oder „Institut“ sind zeitlich dauerhaft präsent. Von besonderem Interesse ist neben der Häufigkeit eines Begriffs vor allem dessen zeitliche Entwicklung.

Zeitliche Entwicklung (Trends)
Da es auch von besonderem Interesse ist, wie sich die Häufigkeit eines Begriffs innerhalb eines Zeitraums entwickelt, betrachten wir die fünfzig häufigsten Begriffe, die in allen fünf Ausgaben vorkommen. Zur Visualisierung verwenden wir eine Heatmap. Diese eignen sich besonders gut zur Darstellung von Häufigkeitsverteilungen von zweidimensionalen Datensätzen. Auf der horizontalen Achse sind die Jahreszahlen aufgetragen, auf der vertikalen Achse die 58 häufigsten Begriffe aufgetragen. Die jeweiligen Begriffshäufigkeiten sind als farbige Felder dargestellt. An der Legende am rechten Rand ist erkennbar, dass der Farbverlauf von Hell nach Dunkel die Wortintensität darstellt.
Verteilung
An der Heatmap ist erkennbar, wie sich Begriffe im zeitlichen Verlauf entwickeln. Im Allgemeinen kann man dieses Verfahren auch dazu verwenden, um Trends zu erkennen.

Einsatzmöglichkeiten und Vorteile
Der große Vorteil im Textmining ist die weitgehende Automatisierung. Dies ist zum einen sehr effizient (im Sinne von Schnelligkeit, Ressourcenaufwand und Ergebnisdarstellung)
Die Einsatzmöglichkeiten sind vielfältig. Beispielsweise kann das Vorgehen auch auf Interne Dokumente, BaFin-Rundschreiben, Magazine, Artikel auf Internetseiten oder Fachzeitschriften und Zeitungen angewendet werden. Auch der Webauftritt des eigenen Instituts, Posts und Kommentare aus Social Media können auf diese Weise ausgewertet werden. Gerade das Sentiment in Social Media über ein bestimmtes Themenfeld, oder das eigene Institut kann hiermit quantifiziert und gemessen werden. Somit wäre eine dauerhafte und automatisierte Überwachung in Form eines „Stimmungsbarometers“, oder eines Ampelmodels möglich. Big Data und Digitalisierung ermöglichen die Integration von solchen Assistenz- und Monitoringsystemen in das bestehende Geschäftsmodell. 

 

Mit besten Grüßen,

Ihr Markus Hausmann

 

Kontakt

  • Tobias Mielich
  • Associate Business Consultant
  • Tobias.Mielich@msg.group

BANKING.VISION: die meist gelesenen Artikel

Payments Transformation – vom abstrakten Vorhaben zur konkreten Realisierung
Payments, Innovation & FinTech , Banking der Zukunft

Payments Transformation – vom abstrakten Vorhaben zur konkreten Realisierung

Der Begriff Payments Transformation ist mittlerweile aus dem Bereich Financial Services nicht mehr wegzudenken. Die Weite der Begrifflichkeit birgt jedoch auch Herausforderungen. Was ist unter dem Begriff Payments Transformation zu verstehen und wie lässt sich so ein Vorhaben in eine geeignete Implementierungsstrategie überführen?

WIFSta - Optimal vorbereitet auf die Meldung zum Stichtag 31.03.2023
Aufsichtsrecht & Meldewesen

WIFSta - Optimal vorbereitet auf die Meldung zum Stichtag 31.03.2023

Die WIFSta ist veröffentlicht, nun müssen sich Institute auf die Meldung zum ersten Meldestichtag vorbereiten. Wir unterstützen dabei.

Virtuell und wirkungsvoll
#insidemsggillardon

Virtuell und wirkungsvoll

Das Handelsblatt untersucht, welche Consulting-Firmen Finanzdienstleister (auch virtuell) am besten beraten. Im Spitzenfeld dabei: msg GillardonBSM.

Kontakt

msg GillardonBSM AG
Amelia-Mary-Earhart-Straße 14
60549 Frankfurt a. M.
+49 69 580 045 - 0
info-banking@msg.group

  •    
  •    
  •    
  •    

Aktuell bei BANKING.VISION

Banking.Vision by msgGillardon

Banking.Vision ist die neue Plattform von msg GillardonBSM für aktuelle Themen im Banking. Hier veröffentlichen unsere Experten Blogbeiträge, Artikel, Videos und Newsletter, vermitteln fundiert Informationen und Hintergründe und Sie kommen mit Experten der Branche Banking ins Gespräch.

© 2022 Banking.Vision by msg GillardonBSM
  • Datenschutz
  • Impressum
  • AGBS
  • Search
  • Menu
    • Themengebiete
      • Strategie & Geschäftsmodelle
      • Finance, Risk & Compliance
      • Capital Markets
      • Payments
      • Digital Transformation & IT
      • Financial Artificial Intelligence
    • Beratung & Services
      • Business Consulting
      • IT Consulting
      • SAP Consulting
      • Salesforce Consulting
      • Software Engineering
      • IT Projekte
      • Application Management
    • Software
      • MARZIPAN
      • THINC
      • ORRP
      • EGP
      • BAIS
      • bankplanung.punkt
      • Metamaster
      • Rechenkerne & Kalkulationsservices
      • IDA
      • XEKU
    • Unternehmen
      • Über uns
      • Veranstaltungen
      • Publikationen
      • Studien
      • Karriere
      • Standorte
Cookie-Einstellungen

Die msg GillardonBSM AG verwendet Cookies, um Ihnen ein möglichst optimales und auf Ihre Bedürfnisse zugeschnittenes Webseiten-​Erlebnis zu bieten. Dazu zählen Cookies, die für den reibungslosen Betrieb der Seite und deren Sicherheit notwendig sind sowie solche, die zu anonymen Statistikzwecken, zur Erreichung unserer kommerziellen Unternehmensziele oder zur Anzeige personalisierter Inhalte genutzt werden. Sie können selbst entscheiden, welche der Kategorien Sie erlauben möchten. Bitte beachten Sie, dass auf Basis Ihrer Entscheidungen womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen. Weitere Informationen finden Sie in unseren Datenschutzhinweisen.

Notwendig
Statistik
Datenschutzerklärung
Details ausblenden
  • Notwendig

    Notwendige Cookies stellen den reibungslosen Betrieb der Seite sicher und erleichtern die Bedienung. Darüber hinaus werden sicherheitsrelevante Funktionen erlaubt. Außerdem können wir mit dieser Art von Cookies ebenfalls erkennen, ob Sie in Ihrem Profil eingeloggt bleiben möchten, um Ihnen unsere Dienste bei einem erneuten Besuch unserer Seite schneller zur Verfügung zu stellen.

  • Statistik

    Um unsere Inhalte, die Struktur und die Webseite im Allgemeinen laufend zu verbessern, erfassen wir zu statistischen Zwecken anonymisierte Daten. Mit Ihrer Zustimmung werden Daten zum Nutzerverhalten anonymisiert auch an Google Analytics übermittelt. Mithilfe dieser Cookies können wir beispielsweise die Anzahl der Aufrufe und den Effekt bestimmter Seiten unseres Web-Auftritts ermitteln und so Optimierungen vornehmen.