diff options
| author | marcellus <msimon_fr@hotmail.com> | 2025-06-25 10:02:33 +0200 |
|---|---|---|
| committer | marcellus <msimon_fr@hotmail.com> | 2025-06-25 10:02:33 +0200 |
| commit | a247722e1d28baf8c225d15761494ac99d6c2f98 (patch) | |
| tree | 3261657562fd05776208ada111e6c09a41a91e29 /IAML/Partitionnement - Clustering.md | |
| parent | 86f1ed1a4f122eb7dd2db0c312252224de0e222d (diff) | |
notes: 2025-06-25 10:02:33 from w11
Diffstat (limited to 'IAML/Partitionnement - Clustering.md')
| -rw-r--r-- | IAML/Partitionnement - Clustering.md | 43 |
1 files changed, 43 insertions, 0 deletions
diff --git a/IAML/Partitionnement - Clustering.md b/IAML/Partitionnement - Clustering.md new file mode 100644 index 0000000..9016706 --- /dev/null +++ b/IAML/Partitionnement - Clustering.md @@ -0,0 +1,43 @@ +-> trouver une structure de groupe dans un jeu de données +# Hypothèses +- Homogénéité inter clusters : similarité entre les données intra clusters +- Séparation inter-clusters (frontières claires) +- Forme des clusters (convexes, sphériques, ellipses...) +- Nombre de clusters +- Distribution de données +- Equidistance entre les points +- Linéarité des clusters +- Stabilité des clusters +- Représentation des données +Varient selon l'algo de clustering +# Algorithmes des kmeans +- n points +- Trouver K centroïdes de cluster $m_{k}, k=1,\dots,K$ qui minimise la distance par rapport aux centroïdes les plus proches +- Résultats fortement dépendants de l'initialisation +## kmeans++ +- Initialisation paramêtrée +## Limites +- Incapable de capturer autre chose que des formes sphériques +- Nécessite que la moyenne ait un sens +## Nombre optimal de clusters +- Recherche des coudes +- Coefficient de silhouette +# Algorithme DBSCAN +## Points +- Points centraux +- Points frontière +- Points aberrants +## Concepts +- $\varepsilon$-voisinage : $V_{\varepsilon}(x) = \{ x' \in X | d(x,x') < \varepsilon\}$ +- m densité : nb minimum de voisins pour qu'un voisinage soit considéré comme dense +## Algo +-> calculs des $\varepsilon$-voisinages pour les points +# Algorithme Affinity Propagation +- Pts de données -> noeuds de graphe +- A chaque itération, chaque noeud recoit des messages de tous les autres noeuds +- Les messages estiment l'aptitude des noeuds à servir d'examples pour les autres +- Les messages des tours précédents sont utilisés pour calculer un nouveau jeu de messages +## Algo +- Entrée : matrice de similarité S +- Matrice de responsabilité R et de disponibilité A construites de manière itérative +- |
