summaryrefslogtreecommitdiff
path: root/ML
diff options
context:
space:
mode:
authorMarcellus <msimon_fr@hotmail.com>2026-03-09 14:45:53 +0100
committerMarcellus <msimon_fr@hotmail.com>2026-03-09 14:45:53 +0100
commit5ba18af15a8d18d9ec8e576afc72a30129f26dcd (patch)
tree28534d2a3fecf9c6c2f6343c0dc9ec4d3b6ad1ad /ML
parent5d49c6f6c1e17027bcb94e0672756fbbebf9dd7e (diff)
fix: ignore generated html files
Diffstat (limited to 'ML')
-rw-r--r--ML/04_entrainement/Training models.md58
1 files changed, 56 insertions, 2 deletions
diff --git a/ML/04_entrainement/Training models.md b/ML/04_entrainement/Training models.md
index 59ab7dc..ac2a0b9 100644
--- a/ML/04_entrainement/Training models.md
+++ b/ML/04_entrainement/Training models.md
@@ -15,7 +15,7 @@ $X \rightarrow U\Sigma V^T$ et $X^+ = V\Sigma^+ U^T$
Eq normale : $O(n^2.4) \approx O(n^3)$
SVD : $O(n^2)$
-# Descente de Gradient
+# Descente de gradient
-> Recherche de minimum
Part d'un vecteur initialisé aléatoirement
Calcul de la dérivée de $f(\theta)$ (MSE par exemple)
@@ -32,4 +32,58 @@ Bien mieux que SVD et Normale
GridSearch pour trouver un bon learning rate
limiter le nombre d'époques pour éviter la convergence trop lente
Set le nombre d'époques grand mais interrompre si $\nabla$ très petit
-$O\left( \frac{1}{\epsilon} \right)$ \ No newline at end of file
+$O\left( \frac{1}{\epsilon} \right)$
+
+# Descente de gradient stochastique
+Bien plus rapide sur un gros dataset
+Peut permettre de sortir d'un minimum local
+
+# Mini-Batch gradient descent
+Bon compromis
+
+# Régression polynomiale
+Apprentissage d'une régression linéaire sur des features polynomiales
+Attention features multiples : potentielle explosion combinatoire avec nb de features et degré du polynome
+Degré haut => bon fitting, attention overfitting, utiliser *validation croisée* et *courbes d'entrainement*
+Underfit si degré trop faible (droite pas ouf pour parabole)
+
+# Erreurs
+- Biais (underfit)
+- Variance (overfit)
+- Erreur irréducible (bruit dans les données)
+
+# Régularisation
+Constriction des poids du modèle (Ridge, Lasso, Elastic)
+
+## Ridge (ou Tikhonov)
+Permet de garder les poids petits
+
+## Lasso
+Elimine les poids des features moins importantes
+
+## Elastic Net
+Mix des 2 autres
+pondération des régularisations sur Ridge et Lasso
+
+# Early stopping
+Arrêt de l'entrainement quand l'erreur de validation atteint un minimum
+
+# Régression logistique
+Usage de la régression pour la classif : probabilité d'appartenance à une classe
+=> Classifiction binaire
+La logistique est une sigmoide
+
+**Fonction** de coût ou cross-entropy binaire
+Permet de minimiser les erreurs mais aussi de maximiser les probabilités fortes
+Pas de forme fermée donc pas déquivalent à l'équation normale, mais descente de gradient possible
+**Régularisation** par l'inverse de $\alpha$ = C
+
+# Régression Softmax
+Classif multiclasses, généralisation de la logistique
+
+# Résumé
+- Entrainements possibles pour modèles linéaires en régression et classif, équation normale et descentes de gradient
+- Pénalités ajoutables à la fonction de cout pour régularisation : Ridge, Lasso, Elastic Net
+- Arrêt prématuré
+- Courbes d'apprentissages
+- Régressions logistique et softmax