ADA.14.01.20 Data Science and Analytics
Questa scheda fa riferimento solo a un risultato atteso dell'area di attività. Per consultare la scheda completa di tutti i risultati attesi clicca qui
Documenti
Dimensioni
Casi
Promuovere operazioni di data cleaning, eliminando possibili errori e stabilendo dei meccanismi di comportamento in caso di dati mancanti, e di pre-processing, esplorando il target data ed effettuando un'analisi su base campionaria
Grado di complessità 4Selezionare, decodificare e segmentare i dati grezzi secondo criteri prestabiliti al fine di pervenire ad un sottoinsieme di variabili e di dati o di un campione di dati (structured data, unstructured data) che rappresentano un determinato target data o dati obiettivo
Grado di complessità 3Effettuare operazioni di trasformation, convertendo tipi di dati in altri o definendo nuovi dati ottenuti attraverso l'uso di operazioni matematiche o logiche sulle variabili, e configuration, effettuando una loro riconfigurazione in caso di provenienza da fonti diverse
Grado di complessità 2Raccogliere dati e informazioni “grezze”, disponibili in diversi format (.pdf, .csv, .txt, ecc.), utilizzando fonti attendibili, certificate e coerenti con il fabbisogno richiesto
Grado di complessità 1Stabilire la tipologia di tecnica di data mining da utilizzare (cluster analysis, regression analysis, classification analysis, anomaly detection analysis, intrusion detection, association rule learning, decision tree, neural networks, rule induction, data warehouse) più idonea rispetto all'obiettivo dell'analisi
Grado di complessità 2Selezionare il metodo da usare per ricercare patterns nei dati, definendo quali parametri possono essere più appropriati e integrando i metodi di data mining scelti con i criteri generali di Data Analytics (Knowledge Discovery in Databases)
Grado di complessità 2Adattare l'algoritmo standard prodotto al caso preso in esame, in base alla tipologia di data mining selezionata (cluster analysis, regression analysis, classification analysis, ecc.), applicandolo ad relativo database e fornendo come outcome la descrizione dell'informazione ricercata
Grado di complessità 1Analizzare e verificare i risultati ottenuti e le performance del sistema, anche valutando possibile retroazione a fasi precedenti, al fine di migliorare l'efficacia dei modelli di data analytics
Grado di complessità 1Fonti
- Cesarini, M., Fontana, M. Mercorio, F., Mezzancanica M. & Vegetti, N., Data Quality: Un Approccio Metodologico e Applicativo. “Il caso delle COB del mercato del lavoro in Lombardia”, Working Paper “Documentazione relativa alla ricostruzione di una metodologia unificata, ripetibile e aperta, CRISP E ARIFL
- EMC (2015), Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, John Wiley & Sons, Indianapolis
- European e-Competence Framework (E-CF), v.04: https://www.ecompetences.eu/
- Freitas, A. & Curry E. (2016). Big Data Curation, In Cavanillas, J.M & Curry E. (2016). New Horizons for a Data-Driven Economy. A Roadmap for Usage and Exploitation of Big Data in Europe, Big Data Public Private Forum, Springer Open, p. 87-119
- Gelernter, J. & Lesk, M. (2011), Use of Ontologies for Data Integration and Curation. In The International Journal of Digital Curation, Issue 1, Volume 6
- SITOGRAFIA
- MediaSapens, Data Curation: the essential step for integrated data-driven research
