blob: 78053055eae53b5dc3a2005748ee5a616b0313f0 (
plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
|
# Définition de Big Data
On parle de Big Data quand on parle de données qui ont besoin de plusieurs machines pour être stockées
- **Volume** : quantité de données
- **Velocité** : Vitesse de génération, transmission et traitement des données
- **Variété** : Données sous différents formats (texte, image, vidéo...)
- Structurées : BDD SQL
- Semi-Structurées : JSON, XML
- Non-Structurées : Images, vidéos, audio, texte...
- **Véracité** : qualité, fiabilité, bruit
- **Valeur** : Capacité à extraire de la valeur exploitable des données
# Apache Hadoop
- Composants principalement en Java
- V1 en 2006
- Inspiré de Google MapReduce
- Insipiré par Google FileSystem (GFS)
Permet :
- Scalabilité
- Tolérance aux pannes
- Haute disponibilité
- Cache distribué et localité des données
- Rentabilité (pas besoin de matériel haut de gamme)
- Fournit une abstraction efficace du matériel sous-jacent
- Interfaçage SQL (ex: Cassandra)
# Propriétés d'un SGBD
- Consistence : Données récupérées correctes
- Disponibilité : Données récupérables tout le temps
- Tolérance aux pannes
Théorème de ?? : Un SGBD peut satisfaire au plus 2 des 3 propriétés
# HDFS
- Système de fichiers distribué
- Organisation en arbre
- L'utilisateur voit une système de fichiers Unix
- Blocs de taille fixe (64Mo ou 128Mo)
- Les blocs d'un fichier sont stockés et répliqués sur plusieurs machines
- Réplication permet d'accéder simultanément au fichier par plusieurs personnes et de se prémunir contre les pannes
Architecture master-slave :
- Maître = name node contient et stocke tous les nom et blocs des fichiers ainsi que leur localisation => annuaire
- Secondary name node => name node de secours, fait des sauvegardes régulières
- data nodes = noeuds de stockage
# MapReduce
Inspiré de diviser pour régner
2 opérations :
- Map (même op sur toutes les machines)
- Reduce (remontée des résultats pour combinaison)
Paradigme à part entière
|