summaryrefslogtreecommitdiff
path: root/IAML
diff options
context:
space:
mode:
Diffstat (limited to 'IAML')
-rw-r--r--IAML/Partitionnement - Clustering.md43
1 files changed, 43 insertions, 0 deletions
diff --git a/IAML/Partitionnement - Clustering.md b/IAML/Partitionnement - Clustering.md
new file mode 100644
index 0000000..9016706
--- /dev/null
+++ b/IAML/Partitionnement - Clustering.md
@@ -0,0 +1,43 @@
+-> trouver une structure de groupe dans un jeu de données
+# Hypothèses
+- Homogénéité inter clusters : similarité entre les données intra clusters
+- Séparation inter-clusters (frontières claires)
+- Forme des clusters (convexes, sphériques, ellipses...)
+- Nombre de clusters
+- Distribution de données
+- Equidistance entre les points
+- Linéarité des clusters
+- Stabilité des clusters
+- Représentation des données
+Varient selon l'algo de clustering
+# Algorithmes des kmeans
+- n points
+- Trouver K centroïdes de cluster $m_{k}, k=1,\dots,K$ qui minimise la distance par rapport aux centroïdes les plus proches
+- Résultats fortement dépendants de l'initialisation
+## kmeans++
+- Initialisation paramêtrée
+## Limites
+- Incapable de capturer autre chose que des formes sphériques
+- Nécessite que la moyenne ait un sens
+## Nombre optimal de clusters
+- Recherche des coudes
+- Coefficient de silhouette
+# Algorithme DBSCAN
+## Points
+- Points centraux
+- Points frontière
+- Points aberrants
+## Concepts
+- $\varepsilon$-voisinage : $V_{\varepsilon}(x) = \{ x' \in X | d(x,x') < \varepsilon\}$
+- m densité : nb minimum de voisins pour qu'un voisinage soit considéré comme dense
+## Algo
+-> calculs des $\varepsilon$-voisinages pour les points
+# Algorithme Affinity Propagation
+- Pts de données -> noeuds de graphe
+- A chaque itération, chaque noeud recoit des messages de tous les autres noeuds
+- Les messages estiment l'aptitude des noeuds à servir d'examples pour les autres
+- Les messages des tours précédents sont utilisés pour calculer un nouveau jeu de messages
+## Algo
+- Entrée : matrice de similarité S
+- Matrice de responsabilité R et de disponibilité A construites de manière itérative
+-