Se l’analisi di grossi quantitativi di dati sta diventando sempre di più una necessità, non solo nel campo del marketing, ma anche di settori come la medicina e la diagnostica, da alcuni anni ci si sta ponendo il problema di quali siano le metodologie migliori per trarre quanta più informazione utile possibile dai grandi dataset che possono essere reperiti in vari modi su internet (ad esempio nel caso di analisi di social media) o fanno parte del patrimonio di un’azienda. Di conseguenza, anche dal lato dell'organizzazione dei dati sono nati dei framework particolari per la gestione di queste grosse quantità di dati, il più recente dei quali è Spark. Spark può essere utilizzato con molti linguaggi di programmazione, dei quali R è il più recente. Per questa ragione molte possibili analisi dati possono venire implementate tramite i due pacchetti per la gestione di Spark in linguaggio R, che sono SparkR e sparklyr.
Gli attestati rilasciati permettono di acquisire competenze secondo quanto indicato dal Framework DigComp 2.1 e, quindi, in grado di attestare in maniera oggettiva le competenze digitali necessarie per operare correttamente a livello professionalizzante nel lavoro in Europa.
Il corso vi consentirà di imparare a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito più popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco.
Il corso è rivolto a chiunque voglia imparare a elaborare grandi quantità di dati in maniera distribuita. Chiunque voglia imparare a sfruttare il vantaggio competitivo dei Big Data.
Courseware multimediale
Introduzione - Installazione di Spark in locale con VirtualBox - Creare una macchina virtuale AWS EC2 - Creare un Cluster con AWS EMR -Utilizzare Spark con DataBricks - Il Resilient Distributed Dataset (RDD) - Analisi di 225 Milioni di Recensioni su Amazon [Laboratorio] - Il DataFrame - Analisi di 28 milioni di Recensioni di Film [Laboratorio] - Time Series - Analisi delle Azioni di Apple [Laboratorio] - Machine Learning con Spark MLlib - Kaggle e le sue API - Machine Learning Supervisionato - Regressione - Machine Learning Supervisionato - Classificazione - Sentiment Analysis sulle Recensioni di Yelp [Laboratorio] - Spark Streaming - Analisi in Tempo Reale dei Tweets pubblicati su Twitter [Laboratorio]