Accueil \ course

Big Data

DURÉE:

4 jours

ID:

BAP

DEMANDER UN DEVIS

Catégories

BIG DATA , Big data Analytics

Analyse Big data avec Python

OBJECTIFS :

Connaître l’environnement de développement en Python
Acquérir les bases de la programmation en Python
Savoir utiliser les bibliothèques spécialisées
Maîtriser les méthodes et les outils pour visualiser et modéliser les données

PROGRAMME DE FORMATION:

Configurer efficacement son environnement de travail

Motivation autour du langage Python et de la librairie PySpark pour le traitement des données massives
Installer Python et la batterie des librairies nécessaires : numpy, pandas, Scikit-learn, PySpark
Paramétrer efficacement : divers fichiers et options
Travailler avec fluidité sur des projets où on distribue la Data et on parallélise les tâches
Se servir des fichiers sources de la formation

Du data munging avec PySpark

Quand distribuer les données et paralléliser les données ?
Principaux types de données et des concepts de Resilient Distributed Datasets (RDD) et DataFrame
Partition, transformations, lazy evaluations et les actions
Gestion des RDDs :
– Travailler sur les colonnes
– Travailler sur les lignes
– Travailler sur les dates
– Travailler sur les jointures
– Transformer un RDD : transformation map
– Agrégation de RDDs : reduce, aggregate

Analyse de données et régression logistique avec PySpark

Bien faire la différence entre une action et une transformation
– La transformation sample et l’action takeSample
Présentation et fonctionnalités de MLlib
Apprentissage Méthodes linéaires

Requêtage, filtrage et exploration avec SparkSQL

Construire un DataFrame depuis un dataframe de Pandas, depuis un csv, depuis un RDD
Requêtes SQL
Opérations sur un DataFrame

Définition des pipelines pour enchaîner les traitements

Introduction et fonctionnalités de SparkML
Estimator, Transformer et Param
Pipeline : par ex Tokenzine, Hash et Régression logistique

INFORMATIONS COMPLÉMENTAIRES :

PUBLIC VISÉ

Analystes
Statisticiens
Gestionnaires de bases de données

PRÉ-REQUIS

Connaissances de base en programmation
Connaissances de base en techniques statistiques

RESSOURCES

Supports pédagogiques
30% de théorie
70% de pratique

MODALITÉS D’ACCÈS

Présentiel
A distance
Interentreprises
Intra-entreprise

MÉTHODES PÉDAGOGIQUES

Apport magistral et interactivité
Travaux pratiques

ÉVALUATION

Exercices pratiques
Mise en situation

DEMANDER UN DEVIS