MODULE POUR L’ÉTUDE DU BIG DATA
Le module « Big Data » traite de l’étude du traitement et de l’analyse de grandes quantités de données dans le domaine de la science des données.
Le Big Data diffère des collectes de données traditionnelles par plusieurs caractéristiques : la quantité de données, le fait que les données sont généralement non structurées parce qu’elles proviennent de différentes sources et formes et, dans le cas de la transmission en temps réel, la vitesse à laquelle les données arrivent.
Dans le domaine des sciences de données, de nouvelles technologies ont été introduites pour la gestion et l’analyse de Big Data, ce qui permet de surmonter les limites des systèmes de gestion de données traditionnels tels que les SGBD relationnels (Systèmes de Gestion de Bases de Données).
Le module Big Data utilise Apache Spark, une structure Open Source de calcul parallèle en mémoire pour optimiser les performances des applications analysant le Big Data.
Il est utilisé par de nombreuses organisations à travers le monde, y compris IBM, NASA, Samsung et Yahoo!, et son utilisation est en constante expansion.