# modèles de régression et classification ## regression linéaire Déterminer une relation linéaire entre l'évolution de deux variables. - est-ce que la distance parcourue dans une certaine cathégorie de véhicules routiers ets affectée par le prix de l'essence ? - est-ce que le niveau de cholesterol est affecté psi un individu suit une diète ? est-ce que d'autres variables entrent e ligne de compte ( age, genre ) ? ### objectifs - Technique statistique objective pour synthétiser l'information disponiable. - On cherche un modèle parcimonieux. - Simplification, on cherche un modèle plus simple pour des performances comparables. ### spécifications Le choix d'un modèle est guidé par des considération indiquant des relations existantes entre les valeurs > #### exemple > Loi de newton dans un système Souvent, le modèle est inconnu mais nous cherchons à trouver une approximation fiable. > #### exemple > Relation entre le revenus par population des pays et leur taux de natalité ### Jeu de données de forbes Principe : Substituer la lecture d'une grandeur par la lecture d'une autre grandeur et chercher la valeur de la grandeur initiale par proportionnalité. Démarche : constituer un ensemble de relevés des grandeurs à mettre en relation, puis approximer la relation entre les évolutions dans cet ensemble et estimer l'erreur. > #### historiquement > Lire la pression de l'air dans un milieu en y faisant boullir de l'eau, a servi à trouver la relation entre l'haltitude et la pression de l'air. ## Apprentissage suppervisé Tâche de classification : entrainer un modèle à catégoriser des entrées dans une classe de donnée après un entrainement sur des entrées étiquetées. ### hypothèse Il existe une fonction f : observation -> étiquette de catégorie f est inconnue, nous faisons des hypothèses sur sa forme Nous cherchons les paramètres de la forme de f ### Approche - Espace d'entré X, espace de sortie Y - variables aléatoires (x, y) e X × Y, suivant une loie inconnue P - données D_n = { x_i,y_i } observations de variables respectant P trouver une fonction f : X -> Y qui décrit Y en fonction de X en minimisant l'erreur théorique risque R : (f) : E_p[L(X, Y, f)] avec : - L(X, Y, f) une fonction de perte, quadratique pour une loi linéaire > note > on ne peut pas évaluer R(f) car c'est le risque d'une loi inconnue Chercher des alternatives à f, minimisant le risque - f_D_e = arg min Régularisation : pénaliser la complexité à travers reg(f) ?? - f_D_e = argmin [ R_d_e(f) + reg(f) ] Minimisation du risque structurel - séquence F_i, i e N, de modèles à capacité crossante. ### Composantes du risque - Risque résiduel - présent en cas de bruit - la relation X -> Y n'est pas une fonctiont déterministe - Erreur d'approximation - présent si le modème n'est pas bien choisi par rapport à la relation réelle - Erreur d'estimation - présent si les relevés sont faites d'une manière imparfaite - proportionnelle à la taille et l'amplitude de l'échantillon - Élargir F - Baisse l'erreur d'approximation. - Augmente l'erreur d'estimation. > note > - le risque empirique doit avoir tendance à augmenter avec la taille de l'échantillon > - le risque ??? doit avoir tendance à diminuer > - idéalement, nous cherchons une convergence entre les deux ### Dimension de vapnik Chervonenkis avec un échangillon E { x_i } dans R^n - il y a 2^n façons de séparer en 2 sous-échantillon (grouper en deux catégories) - un ensemble F de fonction f classifiant un x dans une de deux cathégories - F pulvérise E si elle classifie tous les éléments de E - F est dit de VC-dimension si, pour un h donnée - F pulvérise un échantillon de h vecteurs - F ne pulvérise pas d'échantillon de h+1 vecteurs #### Théorème la minimisation du risque est cohérente uniquement si la VC-dimension de F est finie. #### Illustration dans un plan R^2, ``` | | o | | x o -|---------- | ``` Pour toute catégorisation de trois points, il existe une droite capable de séparer tous les points. L'ensemble de ces droites pulvérise l'ensemble de 3 points. ``` | | o x | | x o -|---------- | ``` Il n'existe aucune droite catégorisant les points `o` et les points `x`. L'ensemble des droites ne pulvérise pas les ensembles de 4 points. ### Ensembles de donnée de l'apprentissage Bases de donnée pour l'apprentissage - éntrées étiquetées. - échantillonées de manière représentative. - trois bases utiles - base d'apprentissabe : utilisé pour optimiser les paramètres du modèle avec certains hyper-paramètres. - base de validation : utilisé pour faire un choix des hyper-paramètres du modèle. - base de test : utilisé pour évaluer la fiabilité du modèle. ### arbre de décision Dans un modèle de catégorisation à plusieurs paramètres, Pour catégoriser une entrée, nous pouvons hiérarchiser les parapètres et prendre des décisions de classification successives organisées en arbre en fonction d'un seul paramètre à la fois jusqu'à une catégorisation. ``` [ condition 1 ] / \ True False / \ ( CAT_1 ) [ condition 2 ] / \ True False / \ ( CAT_2 ) ( CAT_1 ) ``` - Un arbre de décision est déterministe. - Il existe toujours un arbre de décision pour une fonction de catégorisation déterministe. - Dans le pire des cas, il existe un chemin par donnée entrée. - Un arbre ne représente pas forcément la relation de manière cohérente. #### Illustration Prédiction de l'attente dans un restaurant en fonction des attributs du restaurant [ voir slide ] #### Entropie ??? - Anti-proportionnelle à la certitude de la classification - ' cout qu'il reste pour trouver la classification idéale ' - Dans une classification, nous voulons minimiser l'antropie. ### Mesures de la performance - précision : taux de prédiction justes - matrice de confusion : tableau d'occurences des cas d'erreur - courbe RDC : ??? - Rappel : ??? - score F1 : ??? (voiture ?) - Aire sous la courbe : ??? ## classes linéairement séparables Pour un set de donnée d'apprentissage D = { x_i, y_i } Dans le cas idéal, il existe une droite séparant les points de D en deux catégories que nous souhaitons séparer Une possibilité : choisir la séparation qui maximise la marge entre la séparation et les premiers points - plusieurs séparations peuvent être possibles ## Courbes ROC ( Receiver Operating Characteristics ) - Permet d'estimer le résultat d'une classification sur un ensemble de donnée. - Table de vérité de type : ``` \ | classe présente | classe absente --------------------|-----------------|--------------- classe détectée | Vrai Positif | Faux Positif --------------------|-----------------|--------------- classe Non détectée | Faux Négatif | Vrai Négatif ``` En fonction d'un seuil de décision fixé - sensitivité - = Q Vrai positifs / Q Positif - = Q Vrai Positifs / (Q Vrai Positifs + Q Faux Négatifs) - = 'Taux de Vrai Positifs' - 1 - Spécificité - = Q Faux Positifs / Q Négatifs - = Q Faux Positifs / (Q Vrai Négatifs + Q Faux Positifs) - = 1 - ( Q Vrai Négatifs / (Q Vrai Négatifs + Q Faux Positifs) ) - = 'Taux de Faux Négatifs'