ML/01_intro/CM.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76

# Machine Learning
- 1ère application mainstream : spam
- Prgrammer les ordinateurs pour qu'ils puissent apprendre sur les données

## Définition
Le champs d'étude qui permet aux ordinateurs d'apprendre sans être explicitement programmés pour

=> Découverte de patterns cachés et data mining

## Classification des modèles
- Supervision de l'entrainement

## Apprentissage supervisé : Régression
- Prédiction d'une valeur numeric cible

**Target** = valeur à prédire
**Label** = Etiquette de classification

## Apprentissage non-supervisé
Données non-étiquetées
Apprentissage :
- Clustering (formation de groupes de similitudes)
- Construction de règles d'association
- Réduction de dimensions pour la visualisation
- Détection d'anomalies

## Apprentissage semi-supervisé
QUelques instances labellisées

## Apprentissage auto-supervisé
Ex : génération du "reste" d'une image

## Apprentissage par transfert
Exploitation d'un modèle sur d'autres données => fine tuning du modèle

## Apprentissage par renforcement
Apprentissage sur les expériences prouvées comme fonctionelles et en innovant

# Batch learning
- "Mesures hors-ligne"
- Déclin de pertinence au fil du temps

# Online Learning
- "Mesures en-ligne"
- Mise à jour en continu du modèle

# Basé sur modèle ou sur instances - Généralisation
## Basé sur instances
Rapprochement à des classes existantes : KNN

## Basé sur modèle
Ex de modèles : régression linéaire / droite affine, à base de règle, deep learning

# Défis et limites
- Mauvaises données, outliers, valeurs manquantes
- Features inutiles / correlations absurdes
- mauvais algos, surapprentissage (overfitting) donc mauvaise généralisation sur de nouvelles instances => Résolu par régularisation, ajustement des hyperparametres
- underfitting : modèle trop simple qui n'arrive pas à généraliser

# Evaluation d'un modèle
Capacité d'adaptation du modèle
Séparer les données en un ensemble d'entrainement et de test (référence statique)
Modèle très bon sur données test mais pas entrainement = overfitting

## Tuning d'hyperparametres
dataset de validation en plus
souvent pas assez de données pour les 3 dataset

## No Free Lunch Theorem
Sans hypothèse sur les données, impossible de prédire quel sera le meilleur modèle (KNN, NN...)


# Conclusion
- Def ML
- Apprentissages de modèles
- Problématiques overfitting/underfitting