ADA.14.01.20 Data Science and Analytics
Documenti
Dimensioni
Casi
Promuovere operazioni di data cleaning, eliminando possibili errori e stabilendo dei meccanismi di comportamento in caso di dati mancanti, e di pre-processing, esplorando il target data ed effettuando un'analisi su base campionaria
Grado di complessità 4Selezionare, decodificare e segmentare i dati grezzi secondo criteri prestabiliti al fine di pervenire ad un sottoinsieme di variabili e di dati o di un campione di dati (structured data, unstructured data) che rappresentano un determinato target data o dati obiettivo
Grado di complessità 3Effettuare operazioni di trasformation, convertendo tipi di dati in altri o definendo nuovi dati ottenuti attraverso l'uso di operazioni matematiche o logiche sulle variabili, e configuration, effettuando una loro riconfigurazione in caso di provenienza da fonti diverse
Grado di complessità 2Raccogliere dati e informazioni “grezze”, disponibili in diversi format (.pdf, .csv, .txt, ecc.), utilizzando fonti attendibili, certificate e coerenti con il fabbisogno richiesto
Grado di complessità 1Stabilire la tipologia di tecnica di data mining da utilizzare (cluster analysis, regression analysis, classification analysis, anomaly detection analysis, intrusion detection, association rule learning, decision tree, neural networks, rule induction, data warehouse) più idonea rispetto all'obiettivo dell'analisi
Grado di complessità 2Selezionare il metodo da usare per ricercare patterns nei dati, definendo quali parametri possono essere più appropriati e integrando i metodi di data mining scelti con i criteri generali di Data Analytics (Knowledge Discovery in Databases)
Grado di complessità 2Adattare l'algoritmo standard prodotto al caso preso in esame, in base alla tipologia di data mining selezionata (cluster analysis, regression analysis, classification analysis, ecc.), applicandolo ad relativo database e fornendo come outcome la descrizione dell'informazione ricercata
Grado di complessità 1Analizzare e verificare i risultati ottenuti e le performance del sistema, anche valutando possibile retroazione a fasi precedenti, al fine di migliorare l'efficacia dei modelli di data analytics
Grado di complessità 1Dimensioni
Casi
Assicurare una maggiore comprensione analitica dei dati raccolti in funzione degli obiettivi delle analisi, in modo da avere una caratterizzazione più accurata delle informazioni disponibili
Grado di complessità 4Individuare e correggere I dati grezzi (raw data) provenienti da fonti diversi che contengono imprecisioni, armonizzando le relative informazioni mediante specifici dataset (es. Alteryx, Apache Spark, SAS, Big ML, MATLAB, Jupyter)
Grado di complessità 3Categorizzare i dati disponibili a seconda del loro uso finale creando nuove variabili dai valori originali, al fine di consentire un loro facile utilizzo
Grado di complessità 2Promuovere una standardizzazione del processo di data curation, attraverso l'utilizzo di processi semi-automatici (ontologies) di text mining per identificare eventuali sovrapposizioni di metadati
Grado di complessità 1Assegnare ogni campione alla giusta categoria, avendo a disposizione una serie di dati appartenenti ad un numero finito di categorie note
Grado di complessità 4Creare i gruppi in modo tale che gli elementi al loro interno abbiano dei punti in comune, avendo a disposizione una serie di dati appartenenti ad un numero finito di gruppi non noti
Grado di complessità 3Sfruttare le potenzialità dei modelli di elaborazione del linguaggio naturale (NLP) per il riconoscimento e l'estrazione automatica di informazioni
Grado di complessità 2Esaminare le caratteristiche chiave di una serie ordinata di campioni, per rilevare la stagionalità delle tendenze, l'influenza di fattori esterni, e prevedere i valori futuri di una variabile in base alla sua relazione con le altre o con determinate serie storiche
Grado di complessità 1Estrarre e intrepretare le informazioni mediante l'utilizzo di strumenti di data visualisation (es. Tableau, RawGraphs, ChartBlocks, PowerBI, QlikSense, ecc.), così da comunicare i risultati con i propri stakeholders in modo efficace
Grado di complessità 5Predisporre analisi “descrittive” con riferimento a dati riguardanti situazioni attuali o precedenti relativi al mercato, identificando i principali KPIs e gli indicatori di prestazione
Grado di complessità 4Predisporre analisi “predittive”, mediante l'utilizzo di tool programmati per fornire risposte relative alla tendenze del mercato nel futuro e avvalendosi di strumenti matematici (forecasting; regressione, applicazione modelli predittivi)
Grado di complessità 3Predisporre analisi “prescrittive”, proponendo soluzioni operative/strategiche, sulla base delle analisi svolte, fra le quali il decision maker potà scegliere
Grado di complessità 2Predisporre analisi “automatizzate”, capaci di mettere in atto autonomamente le scelte che, in base alle analisi svolte, ritengono valide rispetto agli obiettivi prefissati
Grado di complessità 1Dimensioni
Casi
Pianificare un modello organizzativo per la gestione dei dati business driven, in cui le competenze di Data Science sono localizzate all'interno delle singole unità di business
Grado di complessità 1Pianificare un approccio centralizzato per la gestione dei dati, identificando una specifica figura (Chief Data Scientist) che coordini le risorse in una struttura dedicata
Grado di complessità 1Pianificare un modello organizzativo per la gestione dei dati in cui il responsabile (Chief Data Scientist) pianifica le risorse distribuite all'interno delle aree di business
Grado di complessità 1Favorire lo svolgimento di operazioni real-time tramite l'utilizzo di asset strategici, in grado di convertire istantaneamente il processo di business in atto, fornendo anche dei feedback in tempo reale
Grado di complessità 3Supportare il processo decisionale fornendo opzioni di scelta al top management, basate sull'analisi di grandi volumi di dati, così da fornire soluzioni applicabili in tempo reale
Grado di complessità 2Supportare azioni di di fidelizzazione e customer care sulla base dell'analisi di grandi volumi di dati che consentano maggiore accuratezza nella profilazione dei clienti o personalizzazione del servizio
Grado di complessità 2Contribuire all'ideazione di nuovi prodotti o servizi innovativi grazie alle idee provenienti dai risultati dei processi di data analytics e business intelligence
Grado di complessità 1Fonti
- Cesarini, M., Fontana, M. Mercorio, F., Mezzancanica M. & Vegetti, N., Data Quality: Un Approccio Metodologico e Applicativo. “Il caso delle COB del mercato del lavoro in Lombardia”, Working Paper “Documentazione relativa alla ricostruzione di una metodologia unificata, ripetibile e aperta, CRISP E ARIFL
- EMC (2015), Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, John Wiley & Sons, Indianapolis
- European e-Competence Framework (E-CF), v.04: https://www.ecompetences.eu/
- Freitas, A. & Curry E. (2016). Big Data Curation, In Cavanillas, J.M & Curry E. (2016). New Horizons for a Data-Driven Economy. A Roadmap for Usage and Exploitation of Big Data in Europe, Big Data Public Private Forum, Springer Open, p. 87-119
- Gelernter, J. & Lesk, M. (2011), Use of Ontologies for Data Integration and Curation. In The International Journal of Digital Curation, Issue 1, Volume 6
- SITOGRAFIA
- MediaSapens, Data Curation: the essential step for integrated data-driven research
