Big Data

DURÉE:
3 jours
ID:
BAS

Analyse statistique avec R – Les fondamentaux


OBJECTIFS :

  • Savoir installer l’environnement d’analyse R
  • Être en mesure d’importer et d’exporter des données
  • Réaliser des analyses statistiques basiques avec R
  • Être capable de restituer des résultats à l’aide de graphiques

PROGRAMME DE FORMATION:

Savoir installer et utiliser l’environnement R et RStudio

  • Motivation autour du langage R
  • Installer R et RStudio
  • Paramétrer efficacement : divers fichiers et options
  • Travailler avec fluidité sur des projets Data : créer des fichiers .Rprofile, exécuter des scripts R, installer des packages tiers, utiliser le help de R, etc.
  • Se servir des fichiers sources de la formation

Lire et écrire différents formats de données sur R

  • Importer et exporter des données :
    – Fichiers plats : csv, tsv, txt, etc.
    – Fichiers Excel
    – A partir d’une base de données relationnelles (SQL)
  • Diverses autres sources : SAS, Stata, xml, json…
  • Comprendre les différences entre un dataframe, un tibble et un datatable
  • Comprendre les différents types de colonnes d’un cadre de données
  • Transformer le cadre des données vers le format adéquat : long Vs. wide
  • Manipuler les autres objets de R : vecteurs, listes et matrices.

Réaliser des analyses statistiques de base avec R

  • Exploration des données avec dplyr
  • Traiter les valeurs manquantes et anormales
  • Calculer les indicateurs de position, de dispersion et de forme
  • Calculer les statistiques descriptives entre :
    – Une variable qualitative et une variable quantitative
    – Deux variables qualitatives
    – Deux variables quantitatives
  • Comprendre les jointures et les réaliser : inner join, left, right, full, etc.

Elaborer des graphiques à partir des résultats obtenus

  • Charger et contrôler ggplot2
  • Visualiser les données avec ggplot2
  • Rendre les graphiques interactifs : htmlwidgets, plotly
  • Rendre les graphiques en norme avec la charte de l’entreprise pour diffusion
  • Publier un graphique

Produire du code R plus poussé

  • Maîtriser les boucles for et les conditions if, else
  • Utiliser, de préférence, des fonctions vectorisées
  • Faire de l’échantillonnage
  • Maîtriser les formats dates.

Conclure cette formation d’analyse statistique avec R


INFORMATIONS COMPLÉMENTAIRES :

PUBLIC VISÉ

  • Analystes
  • Statisticiens
  • Ingénieurs
  • Toute personne intéressée par l’analyse statistique

PRÉ-REQUIS

  • Environnement Windows
  • Connaissances de base en statistiques et mathématiques

RESSOURCES

  • Supports pédagogiques
  • 40% de théorie
  • 60% de pratique

MODALITÉS D’ACCÈS

  • Présentiel
  • A distance
  • Interentreprises
  • Intra-entreprise

MÉTHODES PÉDAGOGIQUES

  • Apport magistral et interactivité
  • Travaux pratiques

ÉVALUATION

  • Exercices pratiques
  • Mise en situation