# Machine Learning - 1ère application mainstream : spam - Prgrammer les ordinateurs pour qu'ils puissent apprendre sur les données ## Définition Le champs d'étude qui permet aux ordinateurs d'apprendre sans être explicitement programmés pour => Découverte de patterns cachés et data mining ## Classification des modèles - Supervision de l'entrainement ## Apprentissage supervisé : Régression - Prédiction d'une valeur numeric cible **Target** = valeur à prédire **Label** = Etiquette de classification ## Apprentissage non-supervisé Données non-étiquetées Apprentissage : - Clustering (formation de groupes de similitudes) - Construction de règles d'association - Réduction de dimensions pour la visualisation - Détection d'anomalies ## Apprentissage semi-supervisé QUelques instances labellisées ## Apprentissage auto-supervisé Ex : génération du "reste" d'une image ## Apprentissage par transfert Exploitation d'un modèle sur d'autres données => fine tuning du modèle ## Apprentissage par renforcement Apprentissage sur les expériences prouvées comme fonctionelles et en innovant # Batch learning - "Mesures hors-ligne" - Déclin de pertinence au fil du temps # Online Learning - "Mesures en-ligne" - Mise à jour en continu du modèle # Basé sur modèle ou sur instances - Généralisation ## Basé sur instances Rapprochement à des classes existantes : KNN ## Basé sur modèle Ex de modèles : régression linéaire / droite affine, à base de règle, deep learning # Défis et limites - Mauvaises données, outliers, valeurs manquantes - Features inutiles / correlations absurdes - mauvais algos, surapprentissage (overfitting) donc mauvaise généralisation sur de nouvelles instances => Résolu par régularisation, ajustement des hyperparametres - underfitting : modèle trop simple qui n'arrive pas à généraliser # Evaluation d'un modèle Capacité d'adaptation du modèle Séparer les données en un ensemble d'entrainement et de test (référence statique) Modèle très bon sur données test mais pas entrainement = overfitting ## Tuning d'hyperparametres dataset de validation en plus souvent pas assez de données pour les 3 dataset ## No Free Lunch Theorem Sans hypothèse sur les données, impossible de prédire quel sera le meilleur modèle (KNN, NN...) # Conclusion - Def ML - Apprentissages de modèles - Problématiques overfitting/underfitting