Cos’è l’analisi dei dati? Definizione ed esempio

L’applicazione sistematica di tecniche statistiche e logiche per descrivere la portata dei dati, modulare la struttura dei dati, condensare la rappresentazione dei dati, illustrare i dati usando immagini, tabelle e grafici, e valutare le distorsioni statistiche, i dati di probabilità, per trarre conclusioni significative è conosciuta come analisi dei dati. Queste procedure analitiche ci permettono di indurre l’inferenza sottostante dai dati eliminando il caos inutile creato dal resto dei dati. La generazione dei dati è un processo continuo; questo rende l’analisi dei dati un processo continuo e iterativo in cui la raccolta e l’analisi dei dati sono eseguite simultaneamente. Garantire l’integrità dei dati è uno dei componenti essenziali dell’analisi dei dati.

Ci sono diversi esempi in cui l’analitica dei dati è usata che vanno dai trasporti, il rischio e il rilevamento delle frodi, l’interazione con i clienti, l’assistenza sanitaria per la pianificazione urbana, la ricerca sul web, la pubblicità digitale e altro ancora.

Considerando l’esempio della sanità, come abbiamo recentemente osservato che con lo scoppio della pandemia di Coronavirus gli ospedali sono sfidati a far fronte alla pressione di trattare quanti più pazienti possibile, considerando che la data analytics consente di monitorare l’utilizzo di macchine e dati in tali scenari per ottenere guadagni di efficienza.

Prima di approfondire, fate i seguenti prerequisiti per una corretta analisi dei dati:

  • Assicurare la disponibilità delle competenze analitiche necessarie.
  • Assicurare la corretta applicazione dei metodi di raccolta e analisi dei dati.
  • Determinare la significatività statistica
  • Controllare se l’analisi è inadeguata
  • Assicurare la presenza di un’inferenza legittima e imparziale
  • Assicurare l’affidabilità e la validità dei dati, delle fonti dei dati, dei metodi di analisi dei dati e delle inferenze derivate.
  • Considerare l’ambito dell’analisi

Metodi di analisi dei dati

Ci sono due metodi principali di analisi dei dati:

1. Analisi qualitativa

Questo approccio risponde principalmente a domande come “perché”, “cosa” o “come”. Ognuna di queste domande è affrontata attraverso tecniche quantitative come questionari, scale di atteggiamento, risultati standardizzati e altro. Questo tipo di analisi è di solito condotta sotto forma di testi e narrazioni, che possono anche includere rappresentazioni audio e video.

2. Analisi quantitativa

Generalmente, questa analisi si misura in termini di numeri. I dati qui sono presentati in termini di scale di misura e sono estesi per ulteriori manipolazioni statistiche.

Altre tecniche includono:

3. Analisi del testo

L’analisi del testo è una tecnica di analisi del testo per estrarre fatti leggibili dalla macchina. Mira a creare dati strutturati da contenuti liberi e non strutturati. Il processo consiste nell’affettare e tagliare a dadini mucchi di file eterogenei e non strutturati in pezzi di dati che sono facili da leggere, gestire e interpretare. È anche conosciuto come text mining, analisi del testo ed estrazione di informazioni.

L’ambiguità delle lingue umane è la più grande sfida dell’analisi del testo. Per esempio, gli esseri umani sanno che “Red Sox Tames Bull” si riferisce a una partita di baseball, ma se questo testo viene dato in pasto a un computer senza conoscenze preliminari, allora genererebbe diverse interpretazioni linguisticamente valide, e a volte anche le persone che non sono interessate al baseball potrebbero avere problemi di comprensione.

4. Analisi statistica

La statistica comporta la raccolta, l’interpretazione e la convalida dei dati. L’analisi statistica è la tecnica di eseguire varie operazioni statistiche per quantificare i dati e applicare l’analisi statistica. I dati quantitativi coinvolgono dati descrittivi come i sondaggi e i dati osservativi. Si chiama anche analisi descrittiva. Include vari strumenti per eseguire l’analisi statistica dei dati come SAS (Statistical Analysis System), SPSS (Statistical Package for the Social Sciences), Stat soft, e altri.

5. Analisi diagnostica

L’analisi diagnostica è un ulteriore passo dell’analisi statistica per fornire un’analisi più profonda per rispondere alle domande. È anche conosciuta come analisi delle cause alla radice, poiché include processi come la scoperta, l’estrazione e la perforazione dei dati.

L’analisi diagnostica è un ulteriore passo verso l’analisi statistica per fornire un’analisi più profonda per rispondere alle domande. È anche conosciuta come analisi delle cause alla radice perché include processi come la scoperta dei dati, l’estrazione e il drill down e drill through.

Le funzioni dell’analisi diagnostica rientrano in tre categorie:

  1. Identificare le anomalie: dopo aver eseguito l’analisi statistica, gli analisti devono identificare le aree che richiedono ulteriori studi, poiché tali dati sollevano domande che non possono essere risposte guardando i dati.
  2. Approfondimento dell’analisi (scoperta): l’identificazione delle fonti di dati aiuta gli analisti a spiegare le anomalie. Questo passo spesso richiede agli analisti di cercare modelli al di fuori dei set di dati esistenti e richiede l’estrazione di dati da fonti esterne, identificando così le correlazioni e determinando se alcune di esse sono di natura causale.
  3. Determinazione delle relazioni causali: le relazioni nascoste sono scoperte guardando gli eventi che potrebbero aver portato alle anomalie identificate. La teoria della probabilità, l’analisi della regressione, il filtraggio e l’analisi dei dati in serie temporali possono essere utili per scoprire storie nascoste nei dati.

6. Analisi predittiva

L’analitica predittiva utilizza i dati storici e li alimenta nel modello di apprendimento automatico per trovare modelli e tendenze critiche. Il modello viene applicato ai dati attuali per prevedere cosa succederà dopo. Molte organizzazioni lo preferiscono per i suoi vari vantaggi, come il volume e il tipo di dati, i computer più veloci ed economici, il software facile da usare, le condizioni economiche più rigide e la necessità di differenziazione competitiva.

Gli usi comuni dell’analitica predittiva sono elencati di seguito:

  • Rilevamento delle frodi: metodi analitici multipli migliorano il rilevamento dei modelli e prevengono i comportamenti criminali.
  • Ottimizzazione delle campagne di marketing: i modelli predittivi aiutano le aziende ad attrarre, mantenere e far crescere i loro clienti più redditizi. Aiutano anche a determinare le risposte o gli acquisti dei clienti, promuovendo le opportunità di cross-selling.
  • Migliorare le operazioni: L’uso di modelli predittivi coinvolge anche la previsione dell’inventario e la gestione delle risorse. Per esempio, le compagnie aeree usano modelli predittivi per fissare i prezzi dei biglietti.
  • Riduzione del rischio: il punteggio di credito utilizzato per valutare la probabilità che un acquirente non paghi gli acquisti è generato da un modello predittivo che incorpora tutti i dati rilevanti per l’affidabilità creditizia di una persona. Altri usi legati al rischio includono i reclami assicurativi e le riscossioni.

7. Analisi prescrittiva

L’analitica prescrittiva suggerisce vari corsi d’azione e delinea possibili implicazioni che potrebbero essere raggiunte dopo l’analitica predittiva. L’analitica prescrittiva che genera decisioni o raccomandazioni automatizzate richiede una direzione algoritmica specifica e unica e chiara da parte di chi utilizza le tecniche analitiche.

Processo di analisi dei dati

Una volta che ti metti a raccogliere dati per l’analisi, sei sopraffatto dalla quantità di informazioni che devi trovare per prendere una decisione chiara e concisa. Con così tanti dati da gestire, è necessario identificare i dati rilevanti per la vostra analisi per ricavare una conclusione accurata e prendere decisioni informate. I seguenti semplici passi ti aiutano a identificare e ordinare i tuoi dati per l’analisi.

1. Specificazione dei requisiti dei dati – definire la loro portata:

  • Definisci domande brevi e dirette, le cui risposte ti servono in definitiva per prendere una decisione.
  • Definire i parametri di misurazione
  • Definite quali parametri avete in mente e quali siete disposti a negoziare.
  • Definisci la tua unità di misura. Per esempio: tempo, valuta, stipendio e altro.

2. Raccolta di dati

  • Raccogliete i vostri dati in base ai vostri parametri di misurazione.
  • Raccogliere dati da database, siti web e molte altre fonti. Questi dati possono non essere strutturati o uniformi, il che ci porta al passo successivo.

3. Elaborazione dei dati

  • Organizza i tuoi dati e assicurati di aggiungere note supplementari, se disponibili.
  • Fai un controllo incrociato dei tuoi dati con fonti affidabili.
  • Convertire i dati secondo la scala di misurazione che avete definito in precedenza.
  • Escludere i dati irrilevanti.

4. Analisi dei dati

  • Una volta che avete raccolto i vostri dati, eseguite la classificazione, la tracciatura e l’identificazione delle correlazioni.
  • Man mano che manipoli e organizzi i tuoi dati, potresti dover ripercorrere i tuoi passi dall’inizio, dove potresti dover modificare la tua domanda, ridefinire i parametri e riorganizzare i tuoi dati.
  • Utilizzare i diversi strumenti disponibili per l’analisi dei dati.

5. Inferenza e interpretazione dei risultati

  • Controlla se il risultato risponde alle tue domande iniziali.
  • Controllate se avete considerato tutti i parametri per prendere la decisione.
  • Controllare se ci sono fattori che ostacolano l’attuazione della decisione.
  • Scegliere tecniche di visualizzazione dei dati per comunicare meglio il messaggio. Queste tecniche di visualizzazione possono essere tabelle, grafici, codici a colori e altro.

Una volta che avete un’inferenza, ricordate sempre che è solo un’ipotesi. Gli scenari della vita reale possono sempre interferire con i tuoi risultati. Nel processo di analisi dei dati, ci sono alcuni termini correlati che vengono identificati con diverse fasi del processo.

1. Estrazione di dati

Questo processo implica metodi per trovare modelli nel campione di dati.

2. Modellazione dei dati

Si riferisce al modo in cui un’organizzazione organizza e gestisce i suoi dati.

Tecniche di analisi dei dati

Ci sono diverse tecniche per l’analisi dei dati a seconda della domanda in questione, il tipo di dati e la quantità di dati raccolti. Ognuno di loro si concentra sulle strategie di prendere nuovi dati, estrarre intuizioni e scavare più a fondo nelle informazioni per trasformare fatti e cifre in parametri per prendere decisioni. Di conseguenza, le diverse tecniche di analisi dei dati possono essere classificate come segue:

1. Tecniche basate su matematica e statistica

  • Analisi descrittiva: l’analisi descrittiva prende in considerazione i dati storici, gli indicatori chiave di performance e descrive la performance rispetto a un benchmark scelto. Prende in considerazione le tendenze passate e come potrebbero influenzare la performance futura.
  • Analisi della dispersione: Dispersione nell’area su cui è diffuso un set di dati. Questa tecnica permette agli analisti di dati di determinare la variabilità dei fattori in studio.
  • Analisi di regressione: Questa tecnica funziona modellando la relazione tra una variabile dipendente e una o più variabili indipendenti. Un modello di regressione può essere lineare, multiplo, logistico, ridge, non lineare, dati sulla vita e altro.
  • Analisi dei fattori: Questa tecnica aiuta a determinare se c’è qualche relazione tra un insieme di variabili. In questo processo, rivela altri fattori o variabili che descrivono i modelli di relazione tra le variabili originali. L’Analisi Fattoriale fa un salto in avanti nelle procedure di raggruppamento e classificazione utili.
  • Analisi discriminante: Questa è una tecnica di classificazione nel data mining. Identifica diversi punti in diversi gruppi in base alle misure delle variabili. In termini semplici, identifica ciò che rende due gruppi diversi l’uno dall’altro; questo aiuta a identificare nuovi punti.
  • Analisi delle serie temporali: in questo tipo di analisi, le misurazioni sono distribuite nel tempo, dandoci un insieme di dati organizzati noti come serie temporali.

    2. Intelligenza artificiale e tecniche basate sull’apprendimento automatico

  • Reti neurali artificiali: una rete neurale è un paradigma di programmazione biologicamente ispirato che presenta una metafora del cervello per elaborare le informazioni. Una rete neurale artificiale è un sistema che cambia la sua struttura in base alle informazioni che scorrono attraverso la rete. Le ANN possono accettare dati rumorosi e sono molto accurate. Possono essere considerati altamente affidabili nelle applicazioni di classificazione e di previsione aziendale.
  • Alberi di decisione: come il nome implica, è un modello ad albero che rappresenta modelli di classificazione o regressione. Divide un insieme di dati in sottoinsiemi più piccoli che si sviluppano simultaneamente in un albero decisionale correlato.
  • Programmazione evolutiva: questa tecnica combina i diversi tipi di analisi dei dati utilizzando algoritmi evolutivi. È una tecnica indipendente dal dominio che può esplorare un grande spazio di ricerca e gestisce l’interazione degli attributi in modo molto efficiente.
  • Logica fuzzy: si tratta di una tecnica di analisi dei dati basata sulla probabilità che aiuta a gestire le incertezze nelle tecniche di estrazione dei dati.

    3. Visualizzazione e tecniche basate sulla grafica

  • Grafico a colonne, grafico a barre: entrambi i grafici sono utilizzati per presentare le differenze numeriche tra le categorie. Il grafico a colonne prende l’altezza delle colonne per riflettere le differenze. Gli assi sono scambiati nel caso del grafico a barre.
  • Grafico a linee: questo grafico è usato per rappresentare il cambiamento dei dati in un intervallo di tempo continuo.
  • Grafico ad area: questo concetto è basato sul grafico a linee. Inoltre, riempie di colore l’area tra la polilinea e l’asse, rappresentando così una migliore informazione sulla tendenza.
  • Grafico a torta: è usato per rappresentare la proporzione di diverse classifiche. È adatto solo per una singola serie di dati. Tuttavia, può essere composto da diversi strati per rappresentare la proporzione di dati in diverse categorie.
  • Funnel plot: Questo grafico rappresenta la proporzione di ogni fase e riflette la dimensione di ogni modulo. Aiuta a confrontare le classifiche.
  • Word Cloud Graph: si tratta di una rappresentazione visiva dei dati del testo. Richiede una grande quantità di dati, e il grado di discriminazione deve essere alto perché gli utenti percepiscano i più salienti. Non è una tecnica analitica molto precisa.
  • Grafico di Gantt: mostra il tempo effettivo e il progresso dell’attività rispetto ai requisiti.
  • Grafico radar: utilizzato per confrontare più grafici quantificati. Rappresenta quali variabili nei dati hanno valori più alti e quali più bassi. Un grafico a radar è usato per confrontare la classifica e le serie insieme alla rappresentazione proporzionale.
  • Scatter plot: mostra la distribuzione delle variabili come punti in un sistema di coordinate rettangolari. La distribuzione nei punti dei dati può rivelare la correlazione tra le variabili.
  • Grafico a bolle: Questa è una variazione del grafico a dispersione. Qui, oltre alle coordinate x e y, l’area della bolla rappresenta il 3° valore.
  • Grafico: questo è una specie di grafico materializzato. Qui la scala rappresenta la metrica, e il puntatore rappresenta la dimensione. È una tecnica adatta a rappresentare i confronti tra intervalli.
  • Frame diagram: è una rappresentazione visiva di una gerarchia sotto forma di una struttura ad albero invertita.
  • Diagramma ad albero rettangolare: questa tecnica è usata per rappresentare relazioni gerarchiche ma allo stesso livello. Fa un uso efficiente dello spazio e rappresenta la proporzione rappresentata da ogni area rettangolare.
  • Mappa regionale: utilizza il colore per rappresentare la distribuzione dei valori su una partizione della mappa.
  • Mappa a punti: Rappresenta la distribuzione geografica dei dati sotto forma di punti su uno sfondo geografico. Quando i punti sono della stessa dimensione, è senza significato per i dati individuali, ma se i punti sono a forma di bolla, allora rappresenta anche la dimensione dei dati in ogni regione.
  • Mappa di flusso: rappresenta la relazione tra un’area di input e un’area di output. Rappresenta una linea che collega i centri di gravità geometrici degli elementi spaziali. L’uso di linee di flusso dinamiche aiuta a ridurre il disordine visivo.
  • Mappa di calore: Rappresenta il peso di ogni punto in un’area geografica. Il colore qui rappresenta la densità.

Strumenti di analisi dei dati

Ci sono diversi strumenti di analisi dei dati disponibili sul mercato, ognuno con il proprio set di funzioni. La selezione degli strumenti dovrebbe sempre essere basata sul tipo di analisi eseguita e sul tipo di dati da elaborare. Di seguito è riportato un elenco di alcuni strumenti convincenti per l’analisi dei dati.

1. Excel

Ha una varietà di caratteristiche interessanti, e con plugin aggiuntivi installati, può gestire una quantità enorme di dati. Quindi, se hai dei dati che non sono affatto vicini al margine significativo dei dati, allora Excel può essere uno strumento molto versatile per l’analisi dei dati.

2. Tableau

Rientra nella categoria degli strumenti di BI, fatti al solo scopo di analizzare i dati. L’essenza di Tableau è PivotTable e PivotChart e lavora per rappresentare i dati nel modo più user-friendly. Ha anche una funzione di pulizia dei dati insieme a brillanti funzioni analitiche.

3. BI Power

Inizialmente iniziato come un plugin per Excel, si è poi ramificato da esso per svilupparsi in uno dei più importanti strumenti di analisi dei dati. È disponibile in tre versioni: Free, Pro e Premium. Il suo linguaggio PowerPivot e DAX può implementare sofisticate analisi avanzate simili alle formule di Excel.

4. Rapporto Fine

Fine Report è dotato di una semplice operazione di drag-and-drop, che aiuta a progettare vari stili di report e a costruire un sistema di analisi delle decisioni sui dati. Può connettersi direttamente a tutti i tipi di database, e il suo formato è simile a quello di Excel. Inoltre, fornisce anche una varietà di modelli di dashboard e diverse librerie di plug-in visivi sviluppati in proprio.

5. R e Python

Questi sono linguaggi di programmazione molto potenti e flessibili. R è il migliore nell’analisi statistica, come la distribuzione normale, gli algoritmi di classificazione dei cluster e l’analisi di regressione. Esegue anche analisi predittive individuali come il comportamento dei clienti, la loro spesa, gli articoli preferiti dai clienti in base alla loro cronologia di navigazione e altro ancora. Coinvolge anche l’apprendimento automatico e i concetti di intelligenza artificiale.

6. SAS

È un linguaggio di programmazione per l’analisi e la manipolazione dei dati, che può accedere facilmente ai dati da qualsiasi fonte. SAS ha introdotto un set completo di prodotti di profilazione dei clienti per il web, i social media e l’analisi di marketing. Puoi prevedere i loro comportamenti, gestire e ottimizzare le comunicazioni.

Conclusione

Questa è una guida completa per principianti su Cos’è l’analisi dei dati? L’analisi dei dati è la chiave per qualsiasi azienda, sia che si tratti di avviare una nuova impresa, prendere decisioni di marketing, perseguire una particolare linea d’azione, o andare per una chiusura completa. Le inferenze e le probabilità statistiche calcolate dall’analisi dei dati aiutano a informare le decisioni più critiche escludendo i pregiudizi umani. I diversi strumenti analitici hanno funzioni sovrapposte e diversi limiti, ma sono anche strumenti complementari. Prima di scegliere uno strumento di analisi dei dati, è essenziale considerare lo scopo del lavoro, i vincoli infrastrutturali, la fattibilità economica e il rapporto finale da preparare.