Exemple du MNIST $X$ = données d'entraînement $y$ = valeur associée # Classification Binaire Identification d'un chiffre comme n ou pas n ## Mesure de performance Plus compliqué que pour un régresseur Validation croisée en k ensembles On apprend sur k-1 sous-ensembles Attention à la taille des sous-ensembles, accuracy pas forcément représentative ## Matrices de confusion | | prédit negatif | prédit positif | | ------------ | -------------- | -------------- | | reel negatif | Vrai negatifs | faux positifs | | reel positif | faux negatifs | vrai positifs | -> Compter le nb de fois les instances de la classe A sont classées B pour tout A/B ## Précision/Rappel $$ acc = \frac{VP}{VP + FP} $$ $$ rapp = \frac{VP}{VP + FN} $$ Précision = banquier, veut se planter le moins possible Rappel = Docteur, ne veut pas rater de positifs ## Score F pour combiner accu et recall Pénalise bcp les modèles qui ont gros rappel et petite accu et inverse Assignation à une classe en fonction du score Recherche d'opti Précision/Rappel ## Courbe ROC Utilisée communément avec classif binaire Ratio taux faux positif / taux vrai positif ## Choix d'une courbe - PR si classe positive rare/minoritaire ou si on se soucie plus des vrais positifs que des faux negatifs # Classification multi-classes ## One versus rest/all Autant de classifieurs que de classes (10 si chiffres) ## One versus one Un classifieur pour chaque paire de classes (45 pour les chiffres) Si $N$ classes : nbClassifieurs $= \frac{N\times(N+1)}{2}$ ## Limites - Sensibilité aux translations et rotations -> Preprocessing lourd et appliqué, ou augmentation de données # Classification multi-labels Ex : tags d'article comme sport et politique # Classification multi-output Prédiction d'un grand ensemble de valeurs Ex : Débruitage # Conclusion - Bonnes métriques pour la classification - Choix compromis recall accu - Comparer les classifieurs - Bons systèmes de classification sur une variété de tâches