La rivoluzione dei Big Data: come risparmiare l’80% del tuo tempo
Cosa sono i Big Data?
Uno degli argomenti oggi più spesso ricorrenti nel settore della Data Analysis sono i cosiddetti “Big Data”.
Ma cosa si intende precisamente per “Big Data”?
Negli ultimi dieci anni la dimensione dei database è cresciuta a ritmo esponenziale, sia come numero di righe che come “occupazione di memoria”, registrata in byte.
Questo ha fatto si che la prima definizione dei Big Data enfatizzava la dimensione come parametro caratterizzante, definendoli come “database di estensione cosi elevata da non poter essere gestiti attraverso l’utilizzo di sistemi convenzionali”.
In realtà ci si è resi presto conto che ci sono altre grandezze da considerare e dobbiamo a Doug Laney, intorno agli anni 2000, la prima definizione più sistematica di questa nuova tipologia di dati. Laney introdusse altre due grandezze fondamentali per definire un Big Data oltre al Volume: la Velocità e la Varietà.
Per quanto riguarda il Volume, oggi i Big Data vengono misurati in milioni di righe (decine di milioni), mentre per quanto riguarda la dimensione siamo passati dai MegaBytes ai GigaBytes, quindi ai TeraBytes, poi ai PetaBytes (10 12 ), agli Exabyte 10 18 ) e la rincorsa continua fino a spingerci a livello degli ZettaBytes (10 21 ) e YottaBytes (10 24 ).
Tale enorme quantità di dati fluisce ad una Velocità sempre più considerevole e questo parametro viene anche detto “Speed of Change”, parametro che misura la rapidità di aggiornamento dei dati. Stiamo parlando infatti di un flusso di dati pressoché continuo, dove si ha l’esigenza di elaborazioni sempre più veloci al fine di garantire risultati “real-time”.
Infine non è da sottovalutare il terzo parametro, la Varietà.
La rivoluzione dei Big Data oggi
Oggi i Big Data vengono generati da sorgenti sempre più complesse e diversificate, che vanno dai Video-Streaming ai Social, alle analisi mediche sempre più dettagliate, alle simulazioni, senza dimenticare la domotica e l’internet delle cose, il cloud computing o l’Intelligenza Artificiale.
Recentemente l’evoluzione dei Big Data ha fatto si che almeno in alcuni settori si sono iniziate ad introdurre altri due parametri che risultano essere molto utili: la Variabilità e la Complessità. Si è notato infatti che il data-streaming spesso non è continuo, ma è invece soggetto a fluttuazioni periodiche e almeno a volte apparentemente inconsistenti, il che porterebbe quindi al dover gestire i “picchi” con frequenza giornaliera o settimanale.
Non solo, ma la Complessità sta crescendo di continuo, rendendo necessario stabilire relazioni tra diverse fonti di dati molto diversificate, il che introduce al problema della “perdita di informazioni”. In un mondo in continua evoluzione, il flusso di dati è talmente rapido che spesso le informazioni vengono perse, oppure evidenziate quando ormai è troppo tardi.
In questo contesto è chiaro che le metodologie convenzionali applicate al campo della Data Analysis vanno riviste: spesso infatti tali strumenti non sono adatti a gestire una tale mole di dati e a garantire aggiornamenti e risultati veloci quanto richiesto.
Da quanto sopra ne segue infatti che nell’ambito dei Big Data è necessario:
a) Gestire grosse dimensioni di dati, in particolare essere in grado di importare ed elaborare velocemente database dell’ordine di 5-10 milioni di righe al minimo
b) Gestire al meglio gli aggiornamenti e lo storage dei dati
c) Avere ambienti di calcolo stabili e veloci
Gli strumenti detti “convenzionali”, utilizzati oggi per l’elaborazioni di dati detti appunto “convenzionali “ mostrano già evidenti lacune intorno alle 800kr (800.000 righe)se i calcoli da eseguire sono di una certa complessità, ed inoltre esistono anche vincoli “architetturali” che impediscono di procedere oltre (ad esempio la limitazione di Excel che, nella configurazione standard, non può gestire datatabase di dimensione maggiore di circa 1.500.000 righe).
Dopo aver definito che cosa sono i Big Data, è molto importante capire da chi vengono utilizzati e perché grosse corporate, come ad esempio Microsoft, stiano investendo molto in nuove tecnologie adatte a gestire questi nuovi ambienti in continua evoluzione, e soprattutto, come diano soluzioni in grado di farti risparmiare fino all’80% del tuo tempo.
Microsoft Power Query
Sei pronto per il cambiamento? Stai per sostituire lo sforzo ripetitivo di pulizia dei dati in modo manuale con una serie di processi efficaci, veloci e che vi porteranno maggior precisione nelle informazioni raccolte, attraverso l’uso di Excel e Power Query, che danno la possibilità a qualsiasi utente con competenze di base di Excel di eseguire e automatizzare l’importazione, la rimodellazione e pulizia dei dati con semplici clic sull’interfaccia utente, potendo importare dati da diverse fonti.
Power Query è uno strumento di connettività dati e di trasformazione presente in Microsoft Excel, Power BI e in altri prodotti Microsoft. Da la possibilità a chiunque abbia delle conoscenze di Excel a connettersi a un ricco set di origini dati e raccogliere, combinare e trasformare i dati utilizzando una semplice interfaccia utente. Una volta modellati i dati possono essere caricati in un report in Excel e Power BI o memorizzato come tabella in altri prodotti che lo incorporano. Quindi, ogni volta che i dati vengono modificati, gli utenti saranno aggiornati in tempo reale.
Questo strumento è ancora poco usato in quanto esiste ancora poca consapevolezza sulla sua esistenza, sicuramente dal suo esordio su Excel 2013 diversi utenti esperti hanno iniziato ad implementarlo nei loro processi produttivi, A.D. Global Solution abbraccia l’innovazione e propone un percorso dedicato della durata di 16 ore che analizza l’utilizzo dello strumento introducendo le basi del linguaggio DAX fondamentale per l’inserimento di funzioni avanzate.
© RIPRODUZIONE RISERVATA