DÉTECTION D’ANOMALIE

À LA CARTE BANCAIRE

 

I. Introduction
La détection d’anomalies (dite aussi détection d’outliers) est une tâche de l’apprentissage
automatique qui consiste à déceler dans les données, les instances (individus) ayant un comportement
différent (inhabituel) des autres instances de la base dites normales. Dans le cas de la détection des fraudes
par exemple, toute dépense très étrange par carte de crédit est suspecte. Les variations possibles sont si
nombreuses et les exemples de formation si rares, qu’il n’est pas possible de savoir à quoi ressemble une
activité frauduleuse ou un incident.
La détection d’anomalies en machine learning est un problème particulier que l’on peut traiter d’une
manière supervisée ou non supervisée. Dans une approche supervisée, il est possible d’aborder ceci comme
un problème de classification binaire, le but étant alors de classifier chaque observation en tant qu’anomalie
ou non. La particularité du problème est que les anomalies constituent la classe minoritaire représentée par
un très petit pourcentage de l’ensemble des données. En général, il y a un problème de détection d’anomalie
lorsque le pourcentage de la classe minoritaire ne dépasse pas 1%, selon l’étude de « l’International Data
Corporation ».
Je choisis ce sujet parce que ça tombe bien avec le sujet de mon stage à MoviDone qui va dérouler
dans quelques jours.

 

II. Objectifs

  • Détection des anomalies en apprenant à quoi ressemble l’activité normale (à l’aide d’un historique de transactions supposées normaux) et d’identifier tout ce qui est très différent.
  • Approches supervisées et d’autres non supervisées de détection d’anomalie ou de fraude. 
  • Expérimentation des solutions permettant de répondre à différents problèmes liés à la détection d’anomalies avec le langage Python, dans le domaine bancaire et financier.

 

III. Les données
Le jeu de données comprend 284807 lignes et 31 colonnes. La première colonne fait référence au Temps
(Time) et les 2 dernières colonnes sont le montant (Mount) et la classe (classification, 1:Anomalie,
0:Normal). Les colonnes V1-V28 sont la sortie des transformations PCA (Principal component analysis).
IV. Modèles de détection d’anomalies
La détection d’anomalie par des outils d’analyse prédictive et de détection des anomalies comporte deux
phases :

  • L’analyse d’implication et l’analyse criminalistique des données historiques pour construire le modèle d’apprentissage automatique. 
  • L’utilisation du modèle en production pour établir des prédictions sur les événements. 

Le choix des algorithmes dépend de la temporalité et du nombre de cas d’anomalies ou de fraudes
dans l’ensemble d’une base de données :
Si les cas de fraudes ne représentent qu’une faible proportion de la totalité des observations, les
algorithmes d’apprentissage non-supervisé sont souvent les plus appropriés.

 

Dans cette approche, la détection d’une anomalie comme une fraude nécessite de classifier des
actions « normales » en se basant sur des caractéristiques communes. Les actions « anormales »
correspondent au nombre et au pourcentage des comportements non classifiés comme normaux. Dans cette
solution non-supervisée, les outliers déclarés comme des cas anormaux se trouvent loin de leurs pairs.
D'après la figure ci-dessus, il est clair que l'ensemble de données n'est pas équilibré. Les transactions
<<Normal>> dépassent les transactions <<Anomalie>> dans une énorme marge.

 

Nous pouvons noter qu'il semble que le Temps de la transaction compte vraiment.

 

4.1. Modification des métriques
Une autre solution pour améliorer les performances des algorithmes sur des jeux de données déséquilibrés est
de travailler sur la métrique de validation. Pour la détection de fraude, plutôt que d’utiliser l’accuracy, nous
utiliserons les métriques suivantes :
• Le Rappel
• Précision
• F1
• Score du coefficient

 

4.2. Algorithme réseaux de neurones
Comme solution à ce problème de temporalité, Il existe des méthodes semi-supervisées contrôlant le jeu de
données à court et à long terme par des architectures spécifiques de réseaux de neurones.

 

Résultat d'entraînement

 

Évaluation

 

Prédiction

 

Erreur de reconstruction
Nous appliquons le pipeline de transformation à notre ensemble de tests. Ensuite, nous transmettons les
données via l'autoencodeur formé.

 

 

 

 

Rappel et Précision

 

 

 

Visualisation de la classification des anomalies
Nous pouvons tracer les erreurs quadratiques moyennes par rapport au seuil sélectionné pour avoir une idée
du succès de notre méthode.

 

Matrice de confusion
Le modèle semble attraper beaucoup de cas frauduleux. Bien sûr, il y a un hic. Le nombre de transactions
normales classées comme anomalies est vraiment élevé. Est-ce vraiment un problème? C'est probablement le
cas. Dans ce cas, nous pourrions vouloir augmenter ou diminuer la valeur du seuil, selon le problème.

 

V. Conclusion
L’augmentation des volumes de données et de la performance des algorithmes mettent en évidence la
nécessité d’intégration de ces nouvelles techniques dans les systèmes traditionnels de traitement de l’analyse
des anomalies ou des actes frauduleux.
L’utilisation des modèles non supervisés permet d’atteindre cet objectif de réactivité en permettant
d’identifier tous les comportements qui s’éloignent de la normale.