Connaître l’environnement de développement en Python
Acquérir les bases de la programmation en Python
Savoir utiliser les bibliothèques spécialisées
Maîtriser les méthodes et les outils pour visualiser et modéliser les données
PROGRAMME DE FORMATION:
Configurer efficacement son environnement de travail
Motivation autour du langage Python et de la librairie PySpark pour le traitement des données massives
Installer Python et la batterie des librairies nécessaires : numpy, pandas, Scikit-learn, PySpark
Paramétrer efficacement : divers fichiers et options
Travailler avec fluidité sur des projets où on distribue la Data et on parallélise les tâches
Se servir des fichiers sources de la formation
Du data munging avec PySpark
Quand distribuer les données et paralléliser les données ?
Principaux types de données et des concepts de Resilient Distributed Datasets (RDD) et DataFrame
Partition, transformations, lazy evaluations et les actions
Gestion des RDDs :
– Travailler sur les colonnes
– Travailler sur les lignes
– Travailler sur les dates
– Travailler sur les jointures
– Transformer un RDD : transformation map
– Agrégation de RDDs : reduce, aggregate
Analyse de données et régression logistique avec PySpark
Bien faire la différence entre une action et une transformation
– La transformation sample et l’action takeSample
Présentation et fonctionnalités de MLlib
Apprentissage Méthodes linéaires
Requêtage, filtrage et exploration avec SparkSQL
Construire un DataFrame depuis un dataframe de Pandas, depuis un csv, depuis un RDD
Requêtes SQL
Opérations sur un DataFrame
Définition des pipelines pour enchaîner les traitements
Introduction et fonctionnalités de SparkML
Estimator, Transformer et Param
Pipeline : par ex Tokenzine, Hash et Régression logistique