ML/03_classif/Classification.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69

Exemple du MNIST
$X$ = données d'entraînement
$y$ = valeur associée

# Classification Binaire
Identification d'un chiffre comme n ou pas n

## Mesure de performance
Plus compliqué que pour un régresseur
Validation croisée en k ensembles
On apprend sur k-1 sous-ensembles
Attention à la taille des sous-ensembles, accuracy pas forcément représentative

## Matrices de confusion

|              | prédit negatif | prédit positif |
| ------------ | -------------- | -------------- |
| reel negatif | Vrai negatifs  | faux positifs  |
| reel positif | faux negatifs  | vrai positifs  |
-> Compter le nb de fois les instances de la classe A sont classées B pour tout A/B

## Précision/Rappel
$$
acc = \frac{VP}{VP + FP}
$$
$$
rapp = \frac{VP}{VP + FN}
$$
Précision = banquier, veut se planter le moins possible
Rappel = Docteur, ne veut pas rater de positifs

## Score F pour combiner accu et recall
Pénalise bcp les modèles qui ont gros rappel et petite accu et inverse

Assignation à une classe en fonction du score
Recherche d'opti Précision/Rappel

## Courbe ROC
Utilisée communément avec classif binaire
Ratio taux faux positif / taux vrai positif

## Choix d'une courbe

- PR si classe positive rare/minoritaire ou si on se soucie plus des vrais positifs que des faux negatifs


# Classification multi-classes
## One versus rest/all
Autant de classifieurs que de classes (10 si chiffres)

## One versus one
Un classifieur pour chaque paire de classes (45 pour les chiffres)
Si $N$ classes : nbClassifieurs $= \frac{N\times(N+1)}{2}$

## Limites
- Sensibilité aux translations et rotations -> Preprocessing lourd et appliqué, ou augmentation de données

# Classification multi-labels
Ex : tags d'article comme sport et politique

# Classification multi-output
Prédiction d'un grand ensemble de valeurs
Ex : Débruitage

# Conclusion
- Bonnes métriques pour la classification
- Choix compromis recall accu
- Comparer les classifieurs
- Bons systèmes de classification sur une variété de tâches