notes-ing2/ia/02_intro.md
2024-02-26 15:36:47 +01:00

7.3 KiB
Raw Blame History

modèles de régression et classification

regression linéaire

Déterminer une relation linéaire entre l'évolution de deux variables.

  • est-ce que la distance parcourue dans une certaine cathégorie de véhicules routiers ets affectée par le prix de l'essence ?
  • est-ce que le niveau de cholesterol est affecté psi un individu suit une diète ? est-ce que d'autres variables entrent e ligne de compte ( age, genre ) ?

objectifs

  • Technique statistique objective pour synthétiser l'information disponiable.
  • On cherche un modèle parcimonieux.
  • Simplification, on cherche un modèle plus simple pour des performances comparables.

spécifications

Le choix d'un modèle est guidé par des considération indiquant des relations existantes entre les valeurs

exemple

Loi de newton dans un système

Souvent, le modèle est inconnu mais nous cherchons à trouver une approximation fiable.

exemple

Relation entre le revenus par population des pays et leur taux de natalité

Jeu de données de forbes

Principe : Substituer la lecture d'une grandeur par la lecture d'une autre grandeur et chercher la valeur de la grandeur initiale par proportionnalité.

Démarche : constituer un ensemble de relevés des grandeurs à mettre en relation, puis approximer la relation entre les évolutions dans cet ensemble et estimer l'erreur.

historiquement

Lire la pression de l'air dans un milieu en y faisant boullir de l'eau, a servi à trouver la relation entre l'haltitude et la pression de l'air.

Apprentissage suppervisé

Tâche de classification : entrainer un modèle à catégoriser des entrées dans une classe de donnée après un entrainement sur des entrées étiquetées.

hypothèse

Il existe une fonction f : observation -> étiquette de catégorie f est inconnue, nous faisons des hypothèses sur sa forme Nous cherchons les paramètres de la forme de f

Approche

  • Espace d'entré X, espace de sortie Y
  • variables aléatoires (x, y) e X × Y, suivant une loie inconnue P
  • données D_n = { x_i,y_i } observations de variables respectant P

trouver une fonction f : X -> Y qui décrit Y en fonction de X en minimisant l'erreur théorique

risque R : (f) : E_p[L(X, Y, f)] avec :

  • L(X, Y, f) une fonction de perte, quadratique pour une loi linéaire

note on ne peut pas évaluer R(f) car c'est le risque d'une loi inconnue

Chercher des alternatives à f, minimisant le risque

  • f_D_e = arg min

Régularisation : pénaliser la complexité à travers reg(f) ??

  • f_D_e = argmin [ R_d_e(f) + reg(f) ]

Minimisation du risque structurel

  • séquence F_i, i e N, de modèles à capacité crossante.

Composantes du risque

  • Risque résiduel

    • présent en cas de bruit
    • la relation X -> Y n'est pas une fonctiont déterministe
  • Erreur d'approximation

    • présent si le modème n'est pas bien choisi par rapport à la relation réelle
  • Erreur d'estimation

    • présent si les relevés sont faites d'une manière imparfaite
    • proportionnelle à la taille et l'amplitude de l'échantillon
  • Élargir F

    • Baisse l'erreur d'approximation.
    • Augmente l'erreur d'estimation.

note

  • le risque empirique doit avoir tendance à augmenter avec la taille de l'échantillon
  • le risque ??? doit avoir tendance à diminuer
  • idéalement, nous cherchons une convergence entre les deux

Dimension de vapnik Chervonenkis

avec un échangillon E { x_i } dans R^n - il y a 2^n façons de séparer en 2 sous-échantillon (grouper en deux catégories)

  • un ensemble F de fonction f classifiant un x dans une de deux cathégories
    • F pulvérise E si elle classifie tous les éléments de E
    • F est dit de VC-dimension si, pour un h donnée
      • F pulvérise un échantillon de h vecteurs
      • F ne pulvérise pas d'échantillon de h+1 vecteurs

Théorème

la minimisation du risque est cohérente uniquement si la VC-dimension de F est finie.

Illustration

dans un plan R^2,

 |
 |   o
 |
 |   x    o
-|----------
 |

Pour toute catégorisation de trois points, il existe une droite capable de séparer tous les points. L'ensemble de ces droites pulvérise l'ensemble de 3 points.

 |
 |   o    x
 |
 |   x    o
-|----------
 |

Il n'existe aucune droite catégorisant les points o et les points x. L'ensemble des droites ne pulvérise pas les ensembles de 4 points.

Ensembles de donnée de l'apprentissage

Bases de donnée pour l'apprentissage - éntrées étiquetées. - échantillonées de manière représentative. - trois bases utiles - base d'apprentissabe : utilisé pour optimiser les paramètres du modèle avec certains hyper-paramètres. - base de validation : utilisé pour faire un choix des hyper-paramètres du modèle. - base de test : utilisé pour évaluer la fiabilité du modèle.

arbre de décision

Dans un modèle de catégorisation à plusieurs paramètres, Pour catégoriser une entrée, nous pouvons hiérarchiser les parapètres et prendre des décisions de classification successives organisées en arbre en fonction d'un seul paramètre à la fois jusqu'à une catégorisation.


    [ condition 1 ]
      /         \
    True       False
    /             \
( CAT_1 )   [ condition 2 ]
               /        \
            True       False
             /            \
        ( CAT_2 )      ( CAT_1 )

  • Un arbre de décision est déterministe.
  • Il existe toujours un arbre de décision pour une fonction de catégorisation déterministe.
  • Dans le pire des cas, il existe un chemin par donnée entrée.
  • Un arbre ne représente pas forcément la relation de manière cohérente.

Illustration

Prédiction de l'attente dans un restaurant en fonction des attributs du restaurant

[ voir slide ]

Entropie

???

  • Anti-proportionnelle à la certitude de la classification

  • ' cout qu'il reste pour trouver la classification idéale '

  • Dans une classification, nous voulons minimiser l'antropie.

Mesures de la performance

  • précision : taux de prédiction justes

  • matrice de confusion : tableau d'occurences des cas d'erreur

  • courbe RDC : ???

  • Rappel : ???

  • score F1 : ??? (voiture ?)

  • Aire sous la courbe : ???

classes linéairement séparables

Pour un set de donnée d'apprentissage D = { x_i, y_i } Dans le cas idéal, il existe une droite séparant les points de D en deux catégories que nous souhaitons séparer

Une possibilité : choisir la séparation qui maximise la marge entre la séparation et les premiers points

  • plusieurs séparations peuvent être possibles

Courbes ROC

( Receiver Operating Characteristics )

  • Permet d'estimer le résultat d'une classification sur un ensemble de donnée.
  • Table de vérité de type :
\                   | classe présente | classe absente
--------------------|-----------------|---------------
classe détectée     | Vrai Positif    | Faux Positif
--------------------|-----------------|---------------
classe Non détectée | Faux Négatif    | Vrai Négatif

En fonction d'un seuil de décision fixé

  • sensitivité

    • = Q Vrai positifs / Q Positif
    • = Q Vrai Positifs / (Q Vrai Positifs + Q Faux Négatifs)
    • = 'Taux de Vrai Positifs'
  • 1 - Spécificité

    • = Q Faux Positifs / Q Négatifs
    • = Q Faux Positifs / (Q Vrai Négatifs + Q Faux Positifs)
    • = 1 - ( Q Vrai Négatifs / (Q Vrai Négatifs + Q Faux Positifs) )
    • = 'Taux de Faux Négatifs'