From 5ba18af15a8d18d9ec8e576afc72a30129f26dcd Mon Sep 17 00:00:00 2001 From: Marcellus Date: Mon, 9 Mar 2026 14:45:53 +0100 Subject: fix: ignore generated html files --- ML/04_entrainement/Training models.md | 58 +++++++++++++++++++++++++++++++++-- 1 file changed, 56 insertions(+), 2 deletions(-) (limited to 'ML/04_entrainement/Training models.md') diff --git a/ML/04_entrainement/Training models.md b/ML/04_entrainement/Training models.md index 59ab7dc..ac2a0b9 100644 --- a/ML/04_entrainement/Training models.md +++ b/ML/04_entrainement/Training models.md @@ -15,7 +15,7 @@ $X \rightarrow U\Sigma V^T$ et $X^+ = V\Sigma^+ U^T$ Eq normale : $O(n^2.4) \approx O(n^3)$ SVD : $O(n^2)$ -# Descente de Gradient +# Descente de gradient -> Recherche de minimum Part d'un vecteur initialisé aléatoirement Calcul de la dérivée de $f(\theta)$ (MSE par exemple) @@ -32,4 +32,58 @@ Bien mieux que SVD et Normale GridSearch pour trouver un bon learning rate limiter le nombre d'époques pour éviter la convergence trop lente Set le nombre d'époques grand mais interrompre si $\nabla$ très petit -$O\left( \frac{1}{\epsilon} \right)$ \ No newline at end of file +$O\left( \frac{1}{\epsilon} \right)$ + +# Descente de gradient stochastique +Bien plus rapide sur un gros dataset +Peut permettre de sortir d'un minimum local + +# Mini-Batch gradient descent +Bon compromis + +# Régression polynomiale +Apprentissage d'une régression linéaire sur des features polynomiales +Attention features multiples : potentielle explosion combinatoire avec nb de features et degré du polynome +Degré haut => bon fitting, attention overfitting, utiliser *validation croisée* et *courbes d'entrainement* +Underfit si degré trop faible (droite pas ouf pour parabole) + +# Erreurs +- Biais (underfit) +- Variance (overfit) +- Erreur irréducible (bruit dans les données) + +# Régularisation +Constriction des poids du modèle (Ridge, Lasso, Elastic) + +## Ridge (ou Tikhonov) +Permet de garder les poids petits + +## Lasso +Elimine les poids des features moins importantes + +## Elastic Net +Mix des 2 autres +pondération des régularisations sur Ridge et Lasso + +# Early stopping +Arrêt de l'entrainement quand l'erreur de validation atteint un minimum + +# Régression logistique +Usage de la régression pour la classif : probabilité d'appartenance à une classe +=> Classifiction binaire +La logistique est une sigmoide + +**Fonction** de coût ou cross-entropy binaire +Permet de minimiser les erreurs mais aussi de maximiser les probabilités fortes +Pas de forme fermée donc pas déquivalent à l'équation normale, mais descente de gradient possible +**Régularisation** par l'inverse de $\alpha$ = C + +# Régression Softmax +Classif multiclasses, généralisation de la logistique + +# Résumé +- Entrainements possibles pour modèles linéaires en régression et classif, équation normale et descentes de gradient +- Pénalités ajoutables à la fonction de cout pour régularisation : Ridge, Lasso, Elastic Net +- Arrêt prématuré +- Courbes d'apprentissages +- Régressions logistique et softmax -- cgit v1.2.3