1 files changed, 35 insertions, 0 deletions
diff --git a/ML/04_entrainement/Training models.md b/ML/04_entrainement/Training models.md
new file mode 100644
index 0000000..59ab7dc
--- /dev/null
+++ b/ML/04_entrainement/Training models.md
@@ -0,0 +1,35 @@
+# Linear Regression
+- 1 poids par input
+- Représentation vectorielle : $ŷ = h_{{\theta}}(x) = \theta \cdot x$
+	- $h_{\theta}$ = fonction d'apprentissage
+	- $\theta$ = vecteur à apprendre
+Usage de la RMSE à optimiser
+## Equation Normale
+$\hat{\theta} = (X^TX)^{-1}X^TX$
+Pseudo inverse
+
+## Decomposition en valeur singulière (SVD)
+$X \rightarrow U\Sigma V^T$ et $X^+ = V\Sigma^+ U^T$
+
+## Complexités
+Eq normale : $O(n^2.4) \approx O(n^3)$
+SVD : $O(n^2)$
+
+# Descente de Gradient
+-> Recherche de minimum
+Part d'un vecteur initialisé aléatoirement
+Calcul de la dérivée de $f(\theta)$ (MSE par exemple)
+$\theta' = \theta - \alpha f'(\theta)$
+$\alpha$ = learning rate
+Si $\alpha$ est trop petit : convergence trop lente
+Si $\alpha$ est trop grand : risque de "saut de vallée" et divergence
+
+De toute façon risque de tomber dans un minimum local
+
+Normalisation capitale pour la descente de gradient
+Bien mieux que SVD et Normale
+
+GridSearch pour trouver un bon learning rate
+limiter le nombre d'époques pour éviter la convergence trop lente
+Set le nombre d'époques grand mais interrompre si $\nabla$ très petit
+$O\left( \frac{1}{\epsilon} \right)$
+\ No newline at end of file