Big Data

DURÉE:
4 jours
ID:
BMO

Catégories

BIG DATA , Mise en œuvre

Mise en œuvre de solutions d’analyse de données de masse


OBJECTIFS :

  • Acquérir les compétences techniques nécessaires à la mise en œuvre d’analyses Big Data
  • Comprendre le cadre juridique du stockage et de l’analyse de données
  • Savoir utiliser des outils de collecte Open Source
  • Être en mesure de choisir la bonne solution de stockage de données selon le type de projet
  • Maîtriser l’analyse des résultats et comprendre la signification des données extraites

PROGRAMME DE FORMATION:

La collecte de données

  • Où et comment collecter des données ?
  • Les sources de données, les API, les fournisseurs, les agrégateurs…
  • Les principaux outils de collecte et de traitement de l’information (ETL)
  • Prise en main de Talend ETL et de Talend Data Preparation (outils libres)
  • Les particularités de la collecte des données semi-structurées et nonstructurées

Le stockage les données

  • Les différentes formes de stockage des données : rappel de l’architecture relationnelle de stockage des données transactionnelles (SGBD/R) et multidimensionnelles (OLAP)
  • Les nouvelles formes de stockage des données – compréhension, positionnement et comparaison : Bases orientées clé-valeur, documents, colonnes, graphes
  • Panorama des bases de données NoSQL
  • Prise en main d’une base de données orientée colonne (Hbase)
  • Particularités liées au stockage des données non-structurées
  • Comment transformer des données non structurées en données structurées

L’écosystème Hadoop

  • Présentation des principaux modules de la distribution Apache Hadoop
  • Présentation et comparaison des principales distributions commerciales (Cloudera, Hortonworks…)
  • L’infrastructure matérielle et logicielle nécessaire au fonctionnement d’une distribution Hadoop en local ou dans le Cloud
  • Les concepts de base de l’architecture Hadoop : Data Node, Name Node, Job Tracker, Task Tracker
  • Présentation de HDFS (Système de gestion des fichiers de Hadoop)
  • Prise en main et exercices pratiques dans HDFS
  • Présentation de MapReduce (Outil de traitement de Hadoop)
  • Les commandes exécutées au travers de PIG
  • Utilisation de HIVE pour transformer du SQL en MapReduce

L’analyse de données

  • Requêter les données
  • Analyser et comprendre la signification des données extraites
  • Particularités liées à l’analyse des données non structurées
  • Analyse statistique : notions de base
  • Analyse prédictive : comment transformer des données du passé en prévisions pour le futur
  • Calculer des tendances
  • Développer des programmes simples d’automatisation des analyses (en Python) Machine Learning : les bases de l’apprentissage machine avec Spark
  • Deep Learning : notions de base de l’analyse future automatisée de données non structurées

Mise en œuvre de projets Big data

  • Automatisation de tâches avec Oozie
  • Mise en production de programmes de Machine Learning
  • L’utilisation des notebooks comme délivrables
  • Traitement du temps réel Gouvernance de données Big Data

INFORMATIONS COMPLÉMENTAIRES :

PUBLIC VISÉ

  • Data scientistes
  • Consultants
  • Chefs de projet
  • Développeurs
  • Analystes et statisticiens

PRÉ-REQUIS

  • Connaissances de base des modèles statistiques et des langages de programmation
  • Langage SQL

RESSOURCES

  • Supports pédagogiques
  • 40% de théorie
  • 60% de pratique

MODALITÉS D’ACCÈS

  • Présentiel
  • A distance
  • Interentreprises
  • Intra-entreprise

MÉTHODES PÉDAGOGIQUES

  • Apport magistral et interactivité
  • Travaux pratiques

ÉVALUATION

  • Exercices pratiques
  • Mise en situation