# Linear Regression - 1 poids par input - Représentation vectorielle : $ŷ = h_{{\theta}}(x) = \theta \cdot x$ - $h_{\theta}$ = fonction d'apprentissage - $\theta$ = vecteur à apprendre Usage de la RMSE à optimiser ## Equation Normale $\hat{\theta} = (X^TX)^{-1}X^TX$ Pseudo inverse ## Decomposition en valeur singulière (SVD) $X \rightarrow U\Sigma V^T$ et $X^+ = V\Sigma^+ U^T$ ## Complexités Eq normale : $O(n^2.4) \approx O(n^3)$ SVD : $O(n^2)$ # Descente de gradient -> Recherche de minimum Part d'un vecteur initialisé aléatoirement Calcul de la dérivée de $f(\theta)$ (MSE par exemple) $\theta' = \theta - \alpha f'(\theta)$ $\alpha$ = learning rate Si $\alpha$ est trop petit : convergence trop lente Si $\alpha$ est trop grand : risque de "saut de vallée" et divergence De toute façon risque de tomber dans un minimum local Normalisation capitale pour la descente de gradient Bien mieux que SVD et Normale GridSearch pour trouver un bon learning rate limiter le nombre d'époques pour éviter la convergence trop lente Set le nombre d'époques grand mais interrompre si $\nabla$ très petit $O\left( \frac{1}{\epsilon} \right)$ # Descente de gradient stochastique Bien plus rapide sur un gros dataset Peut permettre de sortir d'un minimum local # Mini-Batch gradient descent Bon compromis # Régression polynomiale Apprentissage d'une régression linéaire sur des features polynomiales Attention features multiples : potentielle explosion combinatoire avec nb de features et degré du polynome Degré haut => bon fitting, attention overfitting, utiliser *validation croisée* et *courbes d'entrainement* Underfit si degré trop faible (droite pas ouf pour parabole) # Erreurs - Biais (underfit) - Variance (overfit) - Erreur irréducible (bruit dans les données) # Régularisation Constriction des poids du modèle (Ridge, Lasso, Elastic) ## Ridge (ou Tikhonov) Permet de garder les poids petits ## Lasso Elimine les poids des features moins importantes ## Elastic Net Mix des 2 autres pondération des régularisations sur Ridge et Lasso # Early stopping Arrêt de l'entrainement quand l'erreur de validation atteint un minimum # Régression logistique Usage de la régression pour la classif : probabilité d'appartenance à une classe => Classifiction binaire La logistique est une sigmoide **Fonction** de coût ou cross-entropy binaire Permet de minimiser les erreurs mais aussi de maximiser les probabilités fortes Pas de forme fermée donc pas déquivalent à l'équation normale, mais descente de gradient possible **Régularisation** par l'inverse de $\alpha$ = C # Régression Softmax Classif multiclasses, généralisation de la logistique # Résumé - Entrainements possibles pour modèles linéaires en régression et classif, équation normale et descentes de gradient - Pénalités ajoutables à la fonction de cout pour régularisation : Ridge, Lasso, Elastic Net - Arrêt prématuré - Courbes d'apprentissages - Régressions logistique et softmax