233 lines
7.3 KiB
Markdown
233 lines
7.3 KiB
Markdown
# modèles de régression et classification
|
||
|
||
## regression linéaire
|
||
|
||
Déterminer une relation linéaire entre l'évolution de deux variables.
|
||
- est-ce que la distance parcourue dans une certaine cathégorie de véhicules routiers ets affectée par le prix de l'essence ?
|
||
- est-ce que le niveau de cholesterol est affecté psi un individu suit une diète ? est-ce que d'autres variables entrent e ligne de compte ( age, genre ) ?
|
||
|
||
### objectifs
|
||
|
||
- Technique statistique objective pour synthétiser l'information disponiable.
|
||
- On cherche un modèle parcimonieux.
|
||
- Simplification, on cherche un modèle plus simple pour des performances comparables.
|
||
|
||
### spécifications
|
||
|
||
Le choix d'un modèle est guidé par des considération indiquant des relations existantes entre les valeurs
|
||
|
||
> #### exemple
|
||
> Loi de newton dans un système
|
||
|
||
Souvent, le modèle est inconnu mais nous cherchons à trouver une approximation fiable.
|
||
|
||
> #### exemple
|
||
> Relation entre le revenus par population des pays et leur taux de natalité
|
||
|
||
### Jeu de données de forbes
|
||
|
||
Principe : Substituer la lecture d'une grandeur par la lecture d'une autre grandeur et chercher la valeur de la grandeur initiale par proportionnalité.
|
||
|
||
Démarche : constituer un ensemble de relevés des grandeurs à mettre en relation, puis approximer la relation entre les évolutions dans cet ensemble et estimer l'erreur.
|
||
|
||
> #### historiquement
|
||
> Lire la pression de l'air dans un milieu en y faisant boullir de l'eau, a servi à trouver la relation entre l'haltitude et la pression de l'air.
|
||
|
||
|
||
## Apprentissage suppervisé
|
||
|
||
Tâche de classification : entrainer un modèle à catégoriser des entrées dans une classe de donnée après un entrainement sur des entrées étiquetées.
|
||
|
||
### hypothèse
|
||
|
||
Il existe une fonction f : observation -> étiquette de catégorie
|
||
f est inconnue, nous faisons des hypothèses sur sa forme
|
||
Nous cherchons les paramètres de la forme de f
|
||
|
||
### Approche
|
||
|
||
- Espace d'entré X, espace de sortie Y
|
||
- variables aléatoires (x, y) e X × Y, suivant une loie inconnue P
|
||
- données D_n = { x_i,y_i } observations de variables respectant P
|
||
|
||
trouver une fonction f : X -> Y qui décrit Y en fonction de X en minimisant l'erreur théorique
|
||
|
||
risque R : (f) : E_p[L(X, Y, f)]
|
||
avec :
|
||
- L(X, Y, f) une fonction de perte, quadratique pour une loi linéaire
|
||
|
||
> note
|
||
> on ne peut pas évaluer R(f) car c'est le risque d'une loi inconnue
|
||
|
||
Chercher des alternatives à f, minimisant le risque
|
||
- f_D_e = arg min
|
||
|
||
Régularisation : pénaliser la complexité à travers reg(f) ??
|
||
- f_D_e = argmin [ R_d_e(f) + reg(f) ]
|
||
|
||
Minimisation du risque structurel
|
||
- séquence F_i, i e N, de modèles à capacité crossante.
|
||
|
||
### Composantes du risque
|
||
|
||
- Risque résiduel
|
||
- présent en cas de bruit
|
||
- la relation X -> Y n'est pas une fonctiont déterministe
|
||
|
||
- Erreur d'approximation
|
||
- présent si le modème n'est pas bien choisi par rapport à la relation réelle
|
||
|
||
- Erreur d'estimation
|
||
- présent si les relevés sont faites d'une manière imparfaite
|
||
- proportionnelle à la taille et l'amplitude de l'échantillon
|
||
|
||
- Élargir F
|
||
- Baisse l'erreur d'approximation.
|
||
- Augmente l'erreur d'estimation.
|
||
|
||
> note
|
||
> - le risque empirique doit avoir tendance à augmenter avec la taille de l'échantillon
|
||
> - le risque ??? doit avoir tendance à diminuer
|
||
> - idéalement, nous cherchons une convergence entre les deux
|
||
|
||
|
||
### Dimension de vapnik Chervonenkis
|
||
|
||
avec un échangillon E { x_i } dans R^n
|
||
- il y a 2^n façons de séparer en 2 sous-échantillon (grouper en deux catégories)
|
||
|
||
- un ensemble F de fonction f classifiant un x dans une de deux cathégories
|
||
- F pulvérise E si elle classifie tous les éléments de E
|
||
- F est dit de VC-dimension si, pour un h donnée
|
||
- F pulvérise un échantillon de h vecteurs
|
||
- F ne pulvérise pas d'échantillon de h+1 vecteurs
|
||
|
||
#### Théorème
|
||
|
||
la minimisation du risque est cohérente uniquement si la VC-dimension de F est finie.
|
||
|
||
#### Illustration
|
||
|
||
dans un plan R^2,
|
||
|
||
```
|
||
|
|
||
| o
|
||
|
|
||
| x o
|
||
-|----------
|
||
|
|
||
|
||
```
|
||
|
||
Pour toute catégorisation de trois points, il existe une droite capable de séparer tous les points.
|
||
L'ensemble de ces droites pulvérise l'ensemble de 3 points.
|
||
|
||
```
|
||
|
|
||
| o x
|
||
|
|
||
| x o
|
||
-|----------
|
||
|
|
||
|
||
```
|
||
|
||
Il n'existe aucune droite catégorisant les points `o` et les points `x`.
|
||
L'ensemble des droites ne pulvérise pas les ensembles de 4 points.
|
||
|
||
### Ensembles de donnée de l'apprentissage
|
||
|
||
Bases de donnée pour l'apprentissage
|
||
- éntrées étiquetées.
|
||
- échantillonées de manière représentative.
|
||
- trois bases utiles
|
||
- base d'apprentissabe : utilisé pour optimiser les paramètres du modèle avec certains hyper-paramètres.
|
||
- base de validation : utilisé pour faire un choix des hyper-paramètres du modèle.
|
||
- base de test : utilisé pour évaluer la fiabilité du modèle.
|
||
|
||
### arbre de décision
|
||
|
||
Dans un modèle de catégorisation à plusieurs paramètres,
|
||
Pour catégoriser une entrée, nous pouvons hiérarchiser les parapètres et prendre des décisions de classification successives
|
||
organisées en arbre en fonction d'un seul paramètre à la fois jusqu'à une catégorisation.
|
||
|
||
```
|
||
|
||
[ condition 1 ]
|
||
/ \
|
||
True False
|
||
/ \
|
||
( CAT_1 ) [ condition 2 ]
|
||
/ \
|
||
True False
|
||
/ \
|
||
( CAT_2 ) ( CAT_1 )
|
||
|
||
```
|
||
|
||
- Un arbre de décision est déterministe.
|
||
- Il existe toujours un arbre de décision pour une fonction de catégorisation déterministe.
|
||
- Dans le pire des cas, il existe un chemin par donnée entrée.
|
||
- Un arbre ne représente pas forcément la relation de manière cohérente.
|
||
|
||
#### Illustration
|
||
|
||
Prédiction de l'attente dans un restaurant en fonction des attributs du restaurant
|
||
|
||
[ voir slide ]
|
||
|
||
#### Entropie
|
||
|
||
???
|
||
|
||
- Anti-proportionnelle à la certitude de la classification
|
||
- ' cout qu'il reste pour trouver la classification idéale '
|
||
|
||
- Dans une classification, nous voulons minimiser l'antropie.
|
||
|
||
### Mesures de la performance
|
||
|
||
- précision : taux de prédiction justes
|
||
- matrice de confusion : tableau d'occurences des cas d'erreur
|
||
- courbe RDC : ???
|
||
|
||
- Rappel : ???
|
||
- score F1 : ??? (voiture ?)
|
||
- Aire sous la courbe : ???
|
||
|
||
|
||
## classes linéairement séparables
|
||
|
||
Pour un set de donnée d'apprentissage D = { x_i, y_i }
|
||
Dans le cas idéal, il existe une droite séparant les points de D en deux catégories que nous souhaitons séparer
|
||
|
||
Une possibilité : choisir la séparation qui maximise la marge entre la séparation et les premiers points
|
||
- plusieurs séparations peuvent être possibles
|
||
|
||
## Courbes ROC
|
||
( Receiver Operating Characteristics )
|
||
|
||
- Permet d'estimer le résultat d'une classification sur un ensemble de donnée.
|
||
- Table de vérité de type :
|
||
```
|
||
\ | classe présente | classe absente
|
||
--------------------|-----------------|---------------
|
||
classe détectée | Vrai Positif | Faux Positif
|
||
--------------------|-----------------|---------------
|
||
classe Non détectée | Faux Négatif | Vrai Négatif
|
||
```
|
||
|
||
En fonction d'un seuil de décision fixé
|
||
|
||
- sensitivité
|
||
- = Q Vrai positifs / Q Positif
|
||
- = Q Vrai Positifs / (Q Vrai Positifs + Q Faux Négatifs)
|
||
- = 'Taux de Vrai Positifs'
|
||
|
||
- 1 - Spécificité
|
||
- = Q Faux Positifs / Q Négatifs
|
||
- = Q Faux Positifs / (Q Vrai Négatifs + Q Faux Positifs)
|
||
- = 1 - ( Q Vrai Négatifs / (Q Vrai Négatifs + Q Faux Positifs) )
|
||
- = 'Taux de Faux Négatifs'
|
||
|