Bonjour à tous,
Je vais vous présenter mon stage chez XYZ SAS à Strasbourg. Le sujet de mon stage est le réglage fin des paramètres de stockage des données pour les mises à jour de modèles dans la détection des fraudes. D’abord, je vais présenter l’introduction comme le contexte du projet et le profil d’entreprise. Ensuite, la mission que j’ai effectué comme la transaction stocké, étiquetage dynamique, comment gérer de haut risques et de modèle a jour, je vais les expliquer dans la section travail proposé. La section suivante est les performances et les résultats. Ici, on vas voir les performances de modèles. Et a la fin, la conclusion.
INTRODUCTION
On vas commencer par l’introduction. Comme vous le savez que, Le commerce en ligne en France est en augmentation. Environ de 14 % des paiements sont faites en ligne par carte bancaire, et ces payements sont responsable pour 70 % des fraudes. Cette situation justifie l’utilisation de dispositifs de paiement d’authentification renforcée, tel que le 3D-Secure (3DS). Mais, ce système conduit à environ 16 % de taux d’abandon des transactions, ce qui n’est pas la méthode idéale pour les commerçants. Et Cela nous amène à une deuxième stratégie, c’est d’utiliser une « machine learning » pour détecter les transactions frauduleuses.
L’entreprise XYZ est créée en février 2019 dans le contexte d’une expérience de presque 10 ans dans le domaine de développement informatique, sécurisation bancaire et solutions sécurisés de paiement en ligne. Cette démarche a commencé en 2010 avec la création de Movidone, qui est une entreprise spécialisée dans le domaine de l’ingénierie d’outils web et mobiles pour la diffusion vidéo, infrastructure serveur et sécurisation bancaire.
L’XYZ développe un système capable d’utiliser des algorithmes d’intelligence artificielle pour retrouver de façon automatique dans les données les motifs de fraude. Des modèles ainsi construits peuvent être utilisés pour identifier des transactions à haut risque de fraude. On peut donc déclencher le 3DS seulement pour les transactions à haut risque et réduire significativement les pertes dues à la fraude et en même temps augmenter la conversion du panier. Par ailleurs, en déclenchant régulièrement des mises à jour des modèles d’IA, on peut ainsi adapter les modèles pour identifier des nouvelles stratégies de fraude, et assurer de cette façon des bonnes performances de détection dans le temps.
MISSION #1: Transaction Storage and Tagging Dynamics
Le but de stage est d’étudier et d’optimiser les paramètres de stockage et d’extraction des données pour l’entraînement du modèles, afin de trouver les meilleures performances et stabilité du modèle dans le temps.
Les problèmes qu’ils rencontrent actuellement sont :
Afin de former un modèle «aujourd’hui» (td), nous ne pouvons pas simplement utiliser toutes les données précédentes!
Pourquoi ?
Je veux dire que nous ne pouvons tout simplement pas adapter le modèle à nos données d’entraînement et espérons qu’il fonctionnera avec précision pour les données réelles qu’il n’a jamais vues auparavant. Nous avons besoin d’une sorte d’assurance que notre modèle a la plupart des modèles des données corrects.
En plus, cette procédure pourrait produire une erreur de marquage.
Et donc ?
Nous avons besoin d’extraire des données.
Nous devons d’abord remonter dans le temps un montant Delta t_ lag puis extraire les données à la fenêtre temporelle Delta t_ train avant cela, c’est-à-dire que les données pour la formation seront comprises entre les instants t1 = td – Delta t_ lag – Delta t_ train et t2 = td – Delta t_ lag.
Cependant, cela peut poser des problèmes alors que Delta t_lag ou Delta t_train est trop petit ou trop grand.
MISSION #2: High-Risk Transactions & Model Update
Il y a un autre problème de stockage de données qui est très important pour la mise à jour du modèle. Toutes les transactions avec une probabilité de fraude au-delà d’un certain seuil « threshold » (appelé transaction à haut risque) seront soit soumises à une 3DS. Les transactions légitimes doivent généralement passer la 3DS. Inversement, les éléments frauduleux à haut risque seront bloqués, ils ne seront donc plus disponibles pour la formation de modèles à l’avenir.
Et donc, la fraction optimale pour les transactions à haute risque doit être estimée à partir des données pour maximiser les performances de prédiction.
TRAVAUX PROPOSÉS
Et maintenant, nous allons parler du travail proposé.
Nous appelons cela « Réglage fin des paramètres d’extraction et de stockage des données ».
Comme vous pouvez le voir ici, nous avons quelques paramètres à régler, comme :
◦ le dataset
◦ fenêtre temporelle des données d’entraînement (Delta_t_train)
◦ jusqu’où nous allons dans le passé à partir d’aujourd’hui (td)
◦ quelle est la fraction des transactions à haut risque que nous laisserons passer (frac_hr_pass)
Comment ?
◦ nous effectuons des simulations
Et pour les paramètres de contrôle, ici par exemple nous avons utilisé :
La simulation effectue certaines opérations avec des données historiques sur une période de temps. Il y a un processus de boucle à l’intérieur de la simulation où la boucle est sur plusieurs itérations dépend des paramètres de contrôle donnés. Chaque itération correspond à l’exécution du processus ci-dessus mais avec un décalage de fenêtre temporelle sur l’ensemble de données, qui dans notre cas actuel est de 30 jours d’intervalle, ce qui signifie qu’il effectue périodiquement le cycle tous les 30 jours. La simulation exécute certaines routines comme suite:
En termes d’indicateurs de performance, nous avons utilisé ces 3 indicateurs, qui sont fpr, tpr et ROC AUC, car ce sont des critères majeurs pour le système de détection des fraudes.
Nous effectuons 2 types de simulations , « Single Fit » et « Retraining ». Le « Single Fit » signifie qu’un modèle unique est formé au début de la période, puis déployé pour le reste de la période. Cela signifie que le modèle est statique, car aucun « retraining » (mises à jour du modèle) n’est effectué. D’autre part, le « Retraining » fait référence à la réexécution du processus qui a généré le modèle précédemment sélectionné sur un nouvel ensemble de données d’apprentissage.
RESULTAT
Et puis pour les performances et les résultats…:)
Voyons un exemple pour la configuration Δt_train = 180 jours, Δt_lag = 93 jours, frac_hr_pass = 10%.
à partir du fichier journal, nous pouvons voir que :
CONCLUSIONS
Certains paramètres de réglage ont été optimisés et simulés dans ces simulations de paramètres de stockage de données pour les mises à jour du modèle d’XYZ.
D’après les résultats de nos simulations, nous pouvons dire heuristiquement que le modèle préférable que nous pouvons obtenir est une configuration donnée pour un « Single Fit » modèle avec Delta t_ train de 180 jours, Delta t_ lag de 90 jours et frac_hr_pass de 10 %. Cela est dû à cette configuration qui a une efficacité de détection raisonnable (environ 50%) et une valeur fpr plus petite. Cependant, il était attendu le pire.
Certains travaux a venir qui pourraient être entrepris, tels que la façon de définir le seuil de manière optimale, de comprendre comment détecter les nouveaux modèles de fraude évolutifs et de modéliser les variations de performances au fil du temps, ainsi que de trouver un moyen de définir les valeurs des paramètres de Delta t_train , Delta t_ lag et frac_hr_pass de manière optimale.