Was ist Datenanalyse? Definition und Beispiel

Die systematische Anwendung statistischer und logischer Techniken, um den Umfang der Daten zu beschreiben, die Struktur der Daten zu modulieren, die Darstellung der Daten zu verdichten, die Daten anhand von Bildern, Tabellen und Grafiken zu veranschaulichen und statistische Verzerrungen und Wahrscheinlichkeitsdaten zu bewerten, um sinnvolle Schlussfolgerungen zu ziehen, wird als Datenanalyse bezeichnet. Diese Analyseverfahren ermöglichen es uns, die zugrundeliegende Schlussfolgerung aus den Daten zu ziehen, indem wir das unnötige Chaos beseitigen, das durch den Rest der Daten entsteht. Die Datengenerierung ist ein kontinuierlicher Prozess; dies macht die Datenanalyse zu einem kontinuierlichen und iterativen Prozess, bei dem die Datenerfassung und die Datenanalyse gleichzeitig durchgeführt werden. Die Gewährleistung der Datenintegrität ist eine der wichtigsten Komponenten der Datenanalyse.

Es gibt zahlreiche Beispiele für den Einsatz von Datenanalysen im Verkehrswesen, in der Risiko- und Betrugserkennung, in der Kundeninteraktion, in der Stadtplanung im Gesundheitswesen, in der Websuche, in der digitalen Werbung und in vielen anderen Bereichen.

Nehmen wir das Beispiel des Gesundheitswesens: Wie wir vor kurzem beobachtet haben, stehen die Krankenhäuser durch den Ausbruch der Coronavirus-Pandemie vor der Herausforderung, so viele Patienten wie möglich zu behandeln, wobei die Datenanalyse die Überwachung der Nutzung von Maschinen und Daten in solchen Szenarien ermöglicht, um Effizienzgewinne zu erzielen.

Bevor Sie sich näher damit befassen, sollten Sie die folgenden Voraussetzungen für eine ordnungsgemäße Datenanalyse erfüllen:

  • Sicherstellen, dass die erforderlichen analytischen Fähigkeiten vorhanden sind.
  • Sicherstellung der ordnungsgemäßen Anwendung von Datenerhebungs- und Analysemethoden.
  • Bestimmen Sie die statistische Signifikanz
  • Prüfung auf unangemessene Analyse
  • Sicherstellen, dass legitime und unvoreingenommene Schlussfolgerungen gezogen werden
  • Sicherstellung der Zuverlässigkeit und Gültigkeit von Daten, Datenquellen, Datenanalysemethoden und abgeleiteten Schlussfolgerungen.
  • Berücksichtigen Sie den Umfang der Analyse

Methoden der Datenanalyse

Es gibt zwei Hauptmethoden der Datenanalyse:

1) Qualitative Analyse

Dieser Ansatz beantwortet hauptsächlich Fragen wie „warum“, „was“ oder „wie“. Jede dieser Fragen wird mit Hilfe quantitativer Techniken wie Fragebögen, Einstellungsskalen, standardisierten Ergebnissen und mehr behandelt. Diese Art der Analyse wird in der Regel in Form von Texten und Erzählungen durchgeführt, die auch Audio- und Videodarstellungen enthalten können.

2. Quantitative Analyse

Im Allgemeinen wird diese Analyse in Zahlen gemessen. Die Daten werden hier in Form von Messskalen dargestellt und für weitere statistische Manipulationen erweitert.

Andere Techniken umfassen:

3. Textanalyse

Textanalyse ist eine Technik zur Analyse von Texten, um maschinenlesbare Fakten zu extrahieren. Es zielt darauf ab, strukturierte Daten aus freien und unstrukturierten Inhalten zu erstellen. Der Prozess besteht darin, heterogene und unstrukturierte Dateistapel in Datenstücke zu zerlegen, die leicht zu lesen, zu verwalten und zu interpretieren sind. Sie wird auch als Text Mining, Textanalyse und Informationsextraktion bezeichnet.

Die Mehrdeutigkeit der menschlichen Sprache ist die größte Herausforderung der Textanalyse. Menschen wissen zum Beispiel, dass „Red Sox Tames Bull“ sich auf ein Baseballspiel bezieht, aber wenn dieser Text einem Computer ohne Vorkenntnisse eingegeben wird, dann würde er mehrere sprachlich gültige Interpretationen erzeugen, und manchmal könnten auch Menschen, die sich nicht für Baseball interessieren, Schwierigkeiten haben, ihn zu verstehen.

4. Statistische Analyse

Die Statistik umfasst die Sammlung, Interpretation und Validierung von Daten. Die statistische Analyse ist die Technik der Durchführung verschiedener statistischer Operationen zur Quantifizierung von Daten und zur Anwendung statistischer Analysen. Zu den quantitativen Daten gehören deskriptive Daten wie Erhebungen und Beobachtungsdaten. Sie wird auch als deskriptive Analyse bezeichnet. Es enthält verschiedene Werkzeuge zur Durchführung statistischer Datenanalysen wie SAS (Statistical Analysis System), SPSS (Statistical Package for the Social Sciences), Stat soft und andere.

5. Diagnostische Analyse

Die diagnostische Analyse ist ein weiterer Schritt der statistischen Analyse, um eine tiefere Analyse zur Beantwortung von Fragen durchzuführen. Sie wird auch als Ursachenanalyse bezeichnet, da sie Prozesse wie Datenermittlung, -suche und -auswertung umfasst.

Die diagnostische Analyse ist ein weiterer Schritt auf dem Weg zur statistischen Analyse, die eine tiefere Analyse zur Beantwortung von Fragen ermöglicht. Sie wird auch als Ursachenanalyse bezeichnet, da sie Prozesse wie Datenermittlung, Mining und Drill Down und Drill Through umfasst.

Die Funktionen der diagnostischen Analyse lassen sich in drei Kategorien einteilen:

  1. Erkennen von Anomalien: Nach der Durchführung der statistischen Analyse müssen die Analysten Bereiche identifizieren, die einer weiteren Untersuchung bedürfen, da solche Daten Fragen aufwerfen, die sich nicht durch die Betrachtung der Daten beantworten lassen.
  2. Vertiefung der Analyse (Discovery): Die Identifizierung von Datenquellen hilft den Analysten, Anomalien zu erklären. Dieser Schritt erfordert häufig, dass Analysten nach Mustern außerhalb bestehender Datensätze suchen und Daten aus externen Quellen extrahieren, um Korrelationen zu ermitteln und festzustellen, ob diese kausaler Natur sind.
  3. Ermittlung der kausalen Zusammenhänge: Versteckte Zusammenhänge werden aufgedeckt, indem die Ereignisse untersucht werden, die zu den festgestellten Anomalien geführt haben könnten. Wahrscheinlichkeitstheorie, Regressionsanalyse, Filterung und Zeitreihendatenanalyse können bei der Aufdeckung verborgener Geschichten in den Daten nützlich sein.

6. Prädiktive Analytik

Die prädiktive Analyse verwendet historische Daten und speist sie in das maschinelle Lernmodell ein, um kritische Muster und Trends zu erkennen. Das Modell wird auf aktuelle Daten angewandt, um vorherzusagen, was als nächstes passieren wird. Viele Unternehmen bevorzugen sie aufgrund ihrer verschiedenen Vorteile, wie z. B. Datenvolumen und -art, schnellere und billigere Computer, benutzerfreundliche Software, angespanntere wirtschaftliche Bedingungen und die Notwendigkeit, sich vom Wettbewerb abzuheben.

Nachfolgend werden häufige Verwendungszwecke der prädiktiven Analytik aufgeführt:

  • Betrugsaufdeckung: Mehrere Analysemethoden verbessern die Mustererkennung und verhindern kriminelles Verhalten.
  • Optimierung von Marketingkampagnen: Prognosemodelle helfen Unternehmen, ihre profitabelsten Kunden zu gewinnen, zu binden und zu vergrößern. Sie tragen auch dazu bei, Kundenreaktionen oder Käufe zu ermitteln und fördern so Cross-Selling-Möglichkeiten.
  • Verbesserung der Abläufe: Der Einsatz von Prognosemodellen betrifft auch die Bestandsvorhersage und das Ressourcenmanagement. So verwenden beispielsweise Fluggesellschaften Vorhersagemodelle, um die Ticketpreise festzulegen.
  • Verringerung des Risikos: Der Kreditscore, mit dem die Wahrscheinlichkeit des Zahlungsausfalls eines Käufers bewertet wird, wird mit Hilfe eines Vorhersagemodells erstellt, in das alle für die Kreditwürdigkeit einer Person relevanten Daten einfließen. Andere risikobezogene Verwendungszwecke sind Versicherungsansprüche und Inkasso.

7. Präskriptive Analyse

Die präskriptive Analytik schlägt verschiedene Handlungsoptionen vor und skizziert mögliche Konsequenzen, die sich aus der prädiktiven Analytik ergeben könnten. Prädiktive Analysen, die automatisierte Entscheidungen oder Empfehlungen generieren, erfordern spezifische, eindeutige und klare algorithmische Anweisungen von denjenigen, die die Analysetechniken anwenden.

Prozess der Datenanalyse

Sobald Sie sich auf den Weg machen, um Daten für die Analyse zu sammeln, sind Sie von der Menge der Informationen, die Sie finden müssen, um eine klare und präzise Entscheidung zu treffen, überwältigt. Bei so vielen zu verwaltenden Daten müssen Sie die relevanten Daten für Ihre Analyse identifizieren, um eine genaue Schlussfolgerung zu ziehen und fundierte Entscheidungen zu treffen. Die folgenden einfachen Schritte helfen Ihnen, Ihre Daten für die Analyse zu identifizieren und zu sortieren.

1. Spezifikation der Datenanforderungen – Definieren Sie den Umfang:

  • Definieren Sie kurze, klare Fragen, deren Antworten Sie letztendlich für eine Entscheidung benötigen.
  • Definieren Sie die Messparameter
  • Legen Sie fest, welche Parameter Ihnen vorschweben und über welche Sie zu verhandeln bereit sind.
  • Definieren Sie Ihre Maßeinheit. Zum Beispiel: Zeit, Währung, Gehalt und mehr.

2. die Datenerhebung

  • Erfassen Sie Ihre Daten auf der Grundlage Ihrer Messparameter.
  • Sammeln Sie Daten aus Datenbanken, Websites und vielen anderen Quellen. Diese Daten sind möglicherweise nicht strukturiert oder einheitlich, was uns zum nächsten Schritt führt.

3. Datenverarbeitung

  • Ordnen Sie Ihre Daten und fügen Sie ggf. ergänzende Notizen hinzu.
  • Überprüfen Sie Ihre Daten mit zuverlässigen Quellen.
  • Konvertieren Sie die Daten entsprechend der zuvor festgelegten Messskala.
  • Schließen Sie irrelevante Daten aus.

4. Analyse der Daten

  • Wenn Sie Ihre Daten gesammelt haben, sortieren Sie sie, stellen Sie sie dar und ermitteln Sie Korrelationen.
  • Wenn Sie Ihre Daten bearbeiten und organisieren, müssen Sie möglicherweise Ihre Schritte vom Anfang an zurückverfolgen, Ihre Frage ändern, Parameter neu definieren und Ihre Daten neu organisieren.
  • Nutzen Sie die verschiedenen Tools, die für die Datenanalyse zur Verfügung stehen.

5. Ableitung und Interpretation der Ergebnisse

  • Prüfen Sie, ob das Ergebnis Ihre ursprünglichen Fragen beantwortet.
  • Prüfen Sie, ob Sie alle Parameter berücksichtigt haben, um die Entscheidung zu treffen.
  • Prüfen Sie, ob es Faktoren gibt, die die Umsetzung des Beschlusses behindern.
  • Wählen Sie Datenvisualisierungstechniken, um die Botschaft besser zu vermitteln. Diese Visualisierungstechniken können Diagramme, Grafiken, Farbkodierungen und mehr sein.

Sobald Sie eine Schlussfolgerung gezogen haben, sollten Sie immer daran denken, dass es sich nur um eine Hypothese handelt. Realitätsnahe Szenarien können Ihre Ergebnisse immer beeinträchtigen. Im Prozess der Datenanalyse gibt es einige verwandte Begriffe, die mit verschiedenen Phasen des Prozesses identifiziert werden.

1. Data Mining

Dieser Prozess umfasst Methoden zur Ermittlung von Mustern in der Datenstichprobe.

2. die Datenmodellierung

Dies bezieht sich auf die Art und Weise, wie eine Organisation ihre Daten organisiert und verwaltet.

Techniken der Datenanalyse

Je nach Fragestellung, Art der Daten und Umfang der erhobenen Daten gibt es unterschiedliche Techniken der Datenanalyse. Jeder von ihnen konzentriert sich auf die Strategien zur Aufnahme neuer Daten, zur Gewinnung von Erkenntnissen und zur Vertiefung der Informationen, um Fakten und Zahlen in Parameter für die Entscheidungsfindung umzuwandeln. Dementsprechend lassen sich die verschiedenen Datenanalysetechniken wie folgt klassifizieren:

1. auf Mathematik und Statistik basierende Techniken.

  • Deskriptive Analyse: Die deskriptive Analyse berücksichtigt historische Daten und wichtige Leistungsindikatoren und beschreibt die Leistung im Vergleich zu einer gewählten Benchmark. Sie berücksichtigt vergangene Trends und deren möglichen Einfluss auf die künftige Leistung.
  • Streuungsanalyse: Streuung in dem Bereich, über den ein Datensatz verteilt ist. Diese Technik ermöglicht es den Datenanalysten, die Variabilität der untersuchten Faktoren zu bestimmen.
  • Regressionsanalyse: Bei dieser Technik wird die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen modelliert. Ein Regressionsmodell kann linear, mehrfach, logistisch, ridge, nicht-linear, Lebensdaten und mehr sein.
  • Faktorenanalyse: Mit dieser Technik lässt sich feststellen, ob eine Beziehung zwischen einer Reihe von Variablen besteht. In diesem Prozess werden andere Faktoren oder Variablen aufgedeckt, die die Muster der Beziehung zwischen den ursprünglichen Variablen beschreiben. Die Faktorenanalyse ist ein Sprungbrett für nützliche Gruppierungs- und Klassifizierungsverfahren.
  • Diskriminanzanalyse: Dies ist eine Klassifizierungstechnik im Data Mining. Es identifiziert verschiedene Punkte in verschiedenen Gruppen auf der Grundlage von Messungen der Variablen. Einfach ausgedrückt: Es wird ermittelt, was zwei Gruppen voneinander unterscheidet; dies hilft bei der Ermittlung neuer Punkte.
  • Zeitreihenanalyse: Bei dieser Art der Analyse werden die Messwerte über die Zeit verteilt, so dass eine Sammlung von organisierten Daten entsteht, die als Zeitreihe bezeichnet wird.

2. Auf künstlicher Intelligenz und maschinellem Lernen basierende Techniken

  • Künstliche neuronale Netze: Ein neuronales Netz ist ein biologisch inspiriertes Programmierparadigma, das eine Metapher für die Informationsverarbeitung durch das Gehirn darstellt. Ein künstliches neuronales Netz ist ein System, das seine Struktur auf der Grundlage der durch das Netz fließenden Informationen ändert. ANNs können verrauschte Daten akzeptieren und sind sehr genau. Sie können als sehr zuverlässig für Klassifizierungs- und Geschäftsprognoseanwendungen angesehen werden.
  • Entscheidungsbäume: Wie der Name schon sagt, handelt es sich um ein Baummodell, das Klassifizierungs- oder Regressionsmodelle darstellt. Es unterteilt einen Datensatz in kleinere Teilmengen, die sich gleichzeitig zu einem zusammenhängenden Entscheidungsbaum entwickeln.
  • Evolutionäre Programmierung: Diese Technik kombiniert die verschiedenen Arten der Datenanalyse mit Hilfe von evolutionären Algorithmen. Es handelt sich um eine domänenunabhängige Technik, die einen großen Suchraum erkunden kann und die Interaktion von Attributen sehr effizient handhabt.
  • Fuzzy-Logik: Dies ist eine wahrscheinlichkeitsbasierte Datenanalysetechnik, die bei der Handhabung von Unsicherheiten in Data-Mining-Techniken hilft.

3. Visualisierung und grafikbasierte Techniken

  • Säulendiagramm, Balkendiagramm: Beide Diagramme werden verwendet, um numerische Unterschiede zwischen Kategorien darzustellen. Das Säulendiagramm nimmt die Höhe der Säulen, um die Unterschiede widerzuspiegeln. Im Falle des Balkendiagramms sind die Achsen vertauscht.
  • Liniendiagramm: Dieses Diagramm wird verwendet, um die Veränderung von Daten über ein kontinuierliches Zeitintervall darzustellen.
  • Flächendiagramm: Dieses Konzept basiert auf dem Liniendiagramm. Außerdem wird der Bereich zwischen der Polylinie und der Achse farbig ausgefüllt, wodurch die Trendinformationen besser dargestellt werden.
  • Tortendiagramm: Dieses Diagramm wird verwendet, um den Anteil der verschiedenen Rankings darzustellen. Sie ist nur für eine einzige Datenreihe geeignet. Sie kann jedoch aus mehreren Ebenen bestehen, um den Anteil der Daten in verschiedenen Kategorien darzustellen.
  • Trichterdiagramm: Dieses Diagramm stellt den Anteil der einzelnen Phasen dar und spiegelt die Größe der einzelnen Module wider. Es ist hilfreich, die Ranglisten zu vergleichen.
  • Wortwolkendiagramm: Dies ist eine visuelle Darstellung von Textdaten. Dazu ist eine große Datenmenge erforderlich, und der Grad der Unterscheidung muss hoch sein, damit die Nutzer die hervorstechendsten Informationen wahrnehmen können. Es handelt sich nicht um eine sehr genaue Analysemethode.
  • Gantt-Diagramm: Zeigt die tatsächliche Zeit und den Fortschritt der Aktivität gegenüber den Anforderungen.
  • Radar-Chart: Dient zum Vergleich mehrerer quantifizierter Charts. Sie stellt dar, welche Variablen in den Daten höhere und welche niedrigere Werte haben. Ein Radardiagramm wird zum Vergleich von Rangfolgen und Reihen sowie zur proportionalen Darstellung verwendet.
  • Streudiagramm: Zeigt die Verteilung der Variablen als Punkte in einem rechteckigen Koordinatensystem. Die Verteilung der Datenpunkte kann die Korrelation zwischen den Variablen aufzeigen.
  • Blasendiagramm: Dies ist eine Variante des Streudiagramms. Hier stellt die Fläche der Blase zusätzlich zu den x- und y-Koordinaten den 3. Wert dar.
  • Graph: Dies ist eine Art materialisierter Graph. Hier steht die Skala für die Metrik und der Zeiger für die Dimension. Es handelt sich um eine Technik, die für die Darstellung von Intervallvergleichen geeignet ist.
  • Rahmendiagramm: Dies ist eine visuelle Darstellung einer Hierarchie in Form einer umgekehrten Baumstruktur.
  • Rechteckiges Baumdiagramm: Diese Technik wird verwendet, um hierarchische Beziehungen auf der gleichen Ebene darzustellen. Es ermöglicht eine effiziente Nutzung des Raums und stellt das Verhältnis zwischen den einzelnen rechteckigen Flächen dar.
  • Regionale Karte: Verwendet Farbe, um die Verteilung der Werte über einen Teil der Karte darzustellen.
  • Gepunktete Karte: Stellt die geografische Verteilung von Daten in Form von Punkten auf einem geografischen Hintergrund dar. Wenn die Punkte gleich groß sind, ist dies für einzelne Daten bedeutungslos, aber wenn die Punkte blasenförmig sind, repräsentiert es zusätzlich die Größe der Daten in jeder Region.
  • Flusskarte: Stellt die Beziehung zwischen einem Eingabebereich und einem Ausgabebereich dar. Sie stellt eine Verbindungslinie zwischen den geometrischen Schwerpunkten der Raumelemente dar. Die Verwendung von dynamischen Fließlinien trägt dazu bei, die visuelle Unübersichtlichkeit zu verringern.
  • Heatmap: Stellt die Gewichtung der einzelnen Punkte in einem geografischen Gebiet dar. Die Farbe steht hier für die Dichte.

Werkzeuge zur Datenanalyse

Auf dem Markt gibt es mehrere Datenanalysetools, die jeweils über einen eigenen Funktionsumfang verfügen. Die Auswahl der Werkzeuge sollte immer auf der Grundlage der Art der durchgeführten Analyse und der Art der zu verarbeitenden Daten erfolgen. Nachfolgend finden Sie eine Liste mit überzeugenden Tools für die Datenanalyse.

1. Excel

Es verfügt über eine Vielzahl überzeugender Funktionen, und mit zusätzlich installierten Plugins kann es eine riesige Datenmenge verarbeiten. Wenn Sie also Daten haben, die nicht in der Nähe der signifikanten Datengrenze liegen, dann kann Excel ein sehr vielseitiges Werkzeug für die Datenanalyse sein.

2. Tableau

Es fällt in die Kategorie der BI-Tools, die ausschließlich für die Analyse von Daten entwickelt wurden. Die Essenz von Tableau sind PivotTable und PivotChart, die Daten auf die benutzerfreundlichste Weise darstellen. Außerdem verfügt es über eine Datenbereinigungsfunktion und brillante analytische Funktionen.

3. BI Leistung

Ursprünglich als Plugin für Excel gestartet, hat es sich später zu einem der wichtigsten Datenanalyse-Tools entwickelt. Es gibt sie in drei Versionen: Free, Pro und Premium. Mit PowerPivot und der DAX-Sprache lassen sich anspruchsvolle fortgeschrittene Analysen ähnlich wie mit Excel-Formeln durchführen.

4. Schöner Bericht

Fine Report wird mit einer einfachen Drag-and-Drop-Operation geliefert, die dabei hilft, verschiedene Berichtsstile zu entwerfen und ein System zur Entscheidungsanalyse von Daten aufzubauen. Es kann direkt mit allen Arten von Datenbanken verbunden werden, und sein Format ist ähnlich wie Excel. Darüber hinaus bietet es eine Vielzahl von Dashboard-Vorlagen und mehrere selbst entwickelte visuelle Plug-in-Bibliotheken.

5. R und Python

Es handelt sich um sehr leistungsfähige und flexible Programmiersprachen. R eignet sich am besten für statistische Analysen, z. B. Normalverteilung, Clusterklassifizierungsalgorithmen und Regressionsanalysen. Darüber hinaus führt es individuelle prädiktive Analysen durch, wie z. B. das Kundenverhalten, die Ausgaben der Kunden, die bevorzugten Artikel der Kunden auf der Grundlage ihres Surfverhaltens und vieles mehr. Sie umfasst auch Konzepte des maschinellen Lernens und der künstlichen Intelligenz.

6. SAS

Es handelt sich um eine Programmiersprache für die Datenanalyse und -manipulation, mit der man leicht auf Daten aus beliebigen Quellen zugreifen kann. SAS hat eine umfassende Reihe von Produkten zur Erstellung von Kundenprofilen für Web-, Social Media- und Marketing-Analysen eingeführt. Sie können ihr Verhalten vorhersagen und die Kommunikation verwalten und optimieren.

Schlussfolgerung

Dies ist ein kompletter Leitfaden für Einsteiger in das Thema Was ist Datenanalyse? Datenanalyse ist der Schlüssel zu jedem Unternehmen, sei es, um ein neues Unternehmen zu gründen, Marketingentscheidungen zu treffen, eine bestimmte Vorgehensweise zu verfolgen oder eine komplette Stilllegung anzustreben. Die aus der Datenanalyse errechneten Schlussfolgerungen und statistischen Wahrscheinlichkeiten helfen bei den wichtigsten Entscheidungen, indem sie menschliche Voreingenommenheit ausschließen. Die verschiedenen Analyseinstrumente haben sich überschneidende Funktionen und unterschiedliche Grenzen, aber sie sind auch komplementäre Instrumente. Vor der Wahl eines Datenanalysewerkzeugs müssen der Arbeitsumfang, die infrastrukturellen Zwänge, die wirtschaftliche Machbarkeit und der zu erstellende Abschlussbericht berücksichtigt werden.