Mise en œuvre de solutions d’analyse de données de masse
OBJECTIFS :
- Acquérir les compétences techniques nécessaires à la mise en œuvre d’analyses Big Data
- Comprendre le cadre juridique du stockage et de l’analyse de données
- Savoir utiliser des outils de collecte Open Source
- Être en mesure de choisir la bonne solution de stockage de données selon le type de projet
- Maîtriser l’analyse des résultats et comprendre la signification des données extraites
PROGRAMME DE FORMATION:
La collecte de données
- Où et comment collecter des données ?
- Les sources de données, les API, les fournisseurs, les agrégateurs…
- Les principaux outils de collecte et de traitement de l’information (ETL)
- Prise en main de Talend ETL et de Talend Data Preparation (outils libres)
- Les particularités de la collecte des données semi-structurées et nonstructurées
Le stockage les données
- Les différentes formes de stockage des données : rappel de l’architecture relationnelle de stockage des données transactionnelles (SGBD/R) et multidimensionnelles (OLAP)
- Les nouvelles formes de stockage des données – compréhension, positionnement et comparaison : Bases orientées clé-valeur, documents, colonnes, graphes
- Panorama des bases de données NoSQL
- Prise en main d’une base de données orientée colonne (Hbase)
- Particularités liées au stockage des données non-structurées
- Comment transformer des données non structurées en données structurées
L’écosystème Hadoop
- Présentation des principaux modules de la distribution Apache Hadoop
- Présentation et comparaison des principales distributions commerciales (Cloudera, Hortonworks…)
- L’infrastructure matérielle et logicielle nécessaire au fonctionnement d’une distribution Hadoop en local ou dans le Cloud
- Les concepts de base de l’architecture Hadoop : Data Node, Name Node, Job Tracker, Task Tracker
- Présentation de HDFS (Système de gestion des fichiers de Hadoop)
- Prise en main et exercices pratiques dans HDFS
- Présentation de MapReduce (Outil de traitement de Hadoop)
- Les commandes exécutées au travers de PIG
- Utilisation de HIVE pour transformer du SQL en MapReduce
L’analyse de données
- Requêter les données
- Analyser et comprendre la signification des données extraites
- Particularités liées à l’analyse des données non structurées
- Analyse statistique : notions de base
- Analyse prédictive : comment transformer des données du passé en prévisions pour le futur
- Calculer des tendances
- Développer des programmes simples d’automatisation des analyses (en Python) Machine Learning : les bases de l’apprentissage machine avec Spark
- Deep Learning : notions de base de l’analyse future automatisée de données non structurées
Mise en œuvre de projets Big data
- Automatisation de tâches avec Oozie
- Mise en production de programmes de Machine Learning
- L’utilisation des notebooks comme délivrables
- Traitement du temps réel Gouvernance de données Big Data
INFORMATIONS COMPLÉMENTAIRES :
PUBLIC VISÉ
- Data scientistes
- Consultants
- Chefs de projet
- Développeurs
- Analystes et statisticiens
PRÉ-REQUIS
- Connaissances de base des modèles statistiques et des langages de programmation
- Langage SQL
RESSOURCES
- Supports pédagogiques
- 40% de théorie
- 60% de pratique
MODALITÉS D’ACCÈS
- Présentiel
- A distance
- Interentreprises
- Intra-entreprise
MÉTHODES PÉDAGOGIQUES
- Apport magistral et interactivité
- Travaux pratiques
ÉVALUATION
- Exercices pratiques
- Mise en situation