Big Data

DURÉE:
4 jours
ID:
BAP

Analyse Big data avec Python


OBJECTIFS :

  • Connaître l’environnement de développement en Python
  • Acquérir les bases de la programmation en Python
  • Savoir utiliser les bibliothèques spécialisées
  • Maîtriser les méthodes et les outils pour visualiser et modéliser les données

PROGRAMME DE FORMATION:

Configurer efficacement son environnement de travail

  • Motivation autour du langage Python et de la librairie PySpark pour le traitement des données massives
  • Installer Python et la batterie des librairies nécessaires : numpy, pandas, Scikit-learn, PySpark
  • Paramétrer efficacement : divers fichiers et options
  • Travailler avec fluidité sur des projets où on distribue la Data et on parallélise les tâches
  • Se servir des fichiers sources de la formation

Du data munging avec PySpark

  • Quand distribuer les données et paralléliser les données ?
  • Principaux types de données et des concepts de Resilient Distributed Datasets (RDD) et DataFrame
  • Partition, transformations, lazy evaluations et les actions
  • Gestion des RDDs :
    – Travailler sur les colonnes
    – Travailler sur les lignes
    – Travailler sur les dates
    – Travailler sur les jointures
    – Transformer un RDD : transformation map
    – Agrégation de RDDs : reduce, aggregate

Analyse de données et régression logistique avec PySpark

  • Bien faire la différence entre une action et une transformation
    – La transformation sample et l’action takeSample
  • Présentation et fonctionnalités de MLlib
  • Apprentissage Méthodes linéaires

Requêtage, filtrage et exploration avec SparkSQL

  • Construire un DataFrame depuis un dataframe de Pandas, depuis un csv, depuis un RDD
  • Requêtes SQL
  • Opérations sur un DataFrame

Définition des pipelines pour enchaîner les traitements

  • Introduction et fonctionnalités de SparkML
  • Estimator, Transformer et Param
  • Pipeline : par ex Tokenzine, Hash et Régression logistique

INFORMATIONS COMPLÉMENTAIRES :

PUBLIC VISÉ

  • Analystes
  • Statisticiens
  • Gestionnaires de bases de données

PRÉ-REQUIS

  • Connaissances de base en programmation
  • Connaissances de base en techniques statistiques

RESSOURCES

  • Supports pédagogiques
  • 30% de théorie
  • 70% de pratique

MODALITÉS D’ACCÈS

  • Présentiel
  • A distance
  • Interentreprises
  • Intra-entreprise

MÉTHODES PÉDAGOGIQUES

  • Apport magistral et interactivité
  • Travaux pratiques

ÉVALUATION

  • Exercices pratiques
  • Mise en situation