notes-ing2/ia/02_intro.md
2024-02-26 15:36:47 +01:00

233 lines
7.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# modèles de régression et classification
## regression linéaire
Déterminer une relation linéaire entre l'évolution de deux variables.
- est-ce que la distance parcourue dans une certaine cathégorie de véhicules routiers ets affectée par le prix de l'essence ?
- est-ce que le niveau de cholesterol est affecté psi un individu suit une diète ? est-ce que d'autres variables entrent e ligne de compte ( age, genre ) ?
### objectifs
- Technique statistique objective pour synthétiser l'information disponiable.
- On cherche un modèle parcimonieux.
- Simplification, on cherche un modèle plus simple pour des performances comparables.
### spécifications
Le choix d'un modèle est guidé par des considération indiquant des relations existantes entre les valeurs
> #### exemple
> Loi de newton dans un système
Souvent, le modèle est inconnu mais nous cherchons à trouver une approximation fiable.
> #### exemple
> Relation entre le revenus par population des pays et leur taux de natalité
### Jeu de données de forbes
Principe : Substituer la lecture d'une grandeur par la lecture d'une autre grandeur et chercher la valeur de la grandeur initiale par proportionnalité.
Démarche : constituer un ensemble de relevés des grandeurs à mettre en relation, puis approximer la relation entre les évolutions dans cet ensemble et estimer l'erreur.
> #### historiquement
> Lire la pression de l'air dans un milieu en y faisant boullir de l'eau, a servi à trouver la relation entre l'haltitude et la pression de l'air.
## Apprentissage suppervisé
Tâche de classification : entrainer un modèle à catégoriser des entrées dans une classe de donnée après un entrainement sur des entrées étiquetées.
### hypothèse
Il existe une fonction f : observation -> étiquette de catégorie
f est inconnue, nous faisons des hypothèses sur sa forme
Nous cherchons les paramètres de la forme de f
### Approche
- Espace d'entré X, espace de sortie Y
- variables aléatoires (x, y) e X × Y, suivant une loie inconnue P
- données D_n = { x_i,y_i } observations de variables respectant P
trouver une fonction f : X -> Y qui décrit Y en fonction de X en minimisant l'erreur théorique
risque R : (f) : E_p[L(X, Y, f)]
avec :
- L(X, Y, f) une fonction de perte, quadratique pour une loi linéaire
> note
> on ne peut pas évaluer R(f) car c'est le risque d'une loi inconnue
Chercher des alternatives à f, minimisant le risque
- f_D_e = arg min
Régularisation : pénaliser la complexité à travers reg(f) ??
- f_D_e = argmin [ R_d_e(f) + reg(f) ]
Minimisation du risque structurel
- séquence F_i, i e N, de modèles à capacité crossante.
### Composantes du risque
- Risque résiduel
- présent en cas de bruit
- la relation X -> Y n'est pas une fonctiont déterministe
- Erreur d'approximation
- présent si le modème n'est pas bien choisi par rapport à la relation réelle
- Erreur d'estimation
- présent si les relevés sont faites d'une manière imparfaite
- proportionnelle à la taille et l'amplitude de l'échantillon
- Élargir F
- Baisse l'erreur d'approximation.
- Augmente l'erreur d'estimation.
> note
> - le risque empirique doit avoir tendance à augmenter avec la taille de l'échantillon
> - le risque ??? doit avoir tendance à diminuer
> - idéalement, nous cherchons une convergence entre les deux
### Dimension de vapnik Chervonenkis
avec un échangillon E { x_i } dans R^n
- il y a 2^n façons de séparer en 2 sous-échantillon (grouper en deux catégories)
- un ensemble F de fonction f classifiant un x dans une de deux cathégories
- F pulvérise E si elle classifie tous les éléments de E
- F est dit de VC-dimension si, pour un h donnée
- F pulvérise un échantillon de h vecteurs
- F ne pulvérise pas d'échantillon de h+1 vecteurs
#### Théorème
la minimisation du risque est cohérente uniquement si la VC-dimension de F est finie.
#### Illustration
dans un plan R^2,
```
|
| o
|
| x o
-|----------
|
```
Pour toute catégorisation de trois points, il existe une droite capable de séparer tous les points.
L'ensemble de ces droites pulvérise l'ensemble de 3 points.
```
|
| o x
|
| x o
-|----------
|
```
Il n'existe aucune droite catégorisant les points `o` et les points `x`.
L'ensemble des droites ne pulvérise pas les ensembles de 4 points.
### Ensembles de donnée de l'apprentissage
Bases de donnée pour l'apprentissage
- éntrées étiquetées.
- échantillonées de manière représentative.
- trois bases utiles
- base d'apprentissabe : utilisé pour optimiser les paramètres du modèle avec certains hyper-paramètres.
- base de validation : utilisé pour faire un choix des hyper-paramètres du modèle.
- base de test : utilisé pour évaluer la fiabilité du modèle.
### arbre de décision
Dans un modèle de catégorisation à plusieurs paramètres,
Pour catégoriser une entrée, nous pouvons hiérarchiser les parapètres et prendre des décisions de classification successives
organisées en arbre en fonction d'un seul paramètre à la fois jusqu'à une catégorisation.
```
[ condition 1 ]
/ \
True False
/ \
( CAT_1 ) [ condition 2 ]
/ \
True False
/ \
( CAT_2 ) ( CAT_1 )
```
- Un arbre de décision est déterministe.
- Il existe toujours un arbre de décision pour une fonction de catégorisation déterministe.
- Dans le pire des cas, il existe un chemin par donnée entrée.
- Un arbre ne représente pas forcément la relation de manière cohérente.
#### Illustration
Prédiction de l'attente dans un restaurant en fonction des attributs du restaurant
[ voir slide ]
#### Entropie
???
- Anti-proportionnelle à la certitude de la classification
- ' cout qu'il reste pour trouver la classification idéale '
- Dans une classification, nous voulons minimiser l'antropie.
### Mesures de la performance
- précision : taux de prédiction justes
- matrice de confusion : tableau d'occurences des cas d'erreur
- courbe RDC : ???
- Rappel : ???
- score F1 : ??? (voiture ?)
- Aire sous la courbe : ???
## classes linéairement séparables
Pour un set de donnée d'apprentissage D = { x_i, y_i }
Dans le cas idéal, il existe une droite séparant les points de D en deux catégories que nous souhaitons séparer
Une possibilité : choisir la séparation qui maximise la marge entre la séparation et les premiers points
- plusieurs séparations peuvent être possibles
## Courbes ROC
( Receiver Operating Characteristics )
- Permet d'estimer le résultat d'une classification sur un ensemble de donnée.
- Table de vérité de type :
```
\ | classe présente | classe absente
--------------------|-----------------|---------------
classe détectée | Vrai Positif | Faux Positif
--------------------|-----------------|---------------
classe Non détectée | Faux Négatif | Vrai Négatif
```
En fonction d'un seuil de décision fixé
- sensitivité
- = Q Vrai positifs / Q Positif
- = Q Vrai Positifs / (Q Vrai Positifs + Q Faux Négatifs)
- = 'Taux de Vrai Positifs'
- 1 - Spécificité
- = Q Faux Positifs / Q Négatifs
- = Q Faux Positifs / (Q Vrai Négatifs + Q Faux Positifs)
- = 1 - ( Q Vrai Négatifs / (Q Vrai Négatifs + Q Faux Positifs) )
- = 'Taux de Faux Négatifs'