
Les données et les algorithmes comme un outil support pour la conformité
Si les solutions informatiques sont déjà largement déployées pour la gestion des risques et de la conformité, la quantité de données présentes aujourd’hui permet aussi de se pencher vers des outils « data » voire « big data ».
Que ce soit pour la LCB-FT (Lutte Contre le Blanchiment d’argent et le Financement du Terrorisme) ou pour le KYC (Know Your Customer, ou connaissance du client), la récolte d’informations permet de suivre les clients et leurs activités au sein d’une institution financière. Les outils de consolidations de données, d’automatisation de traitement et de visualisations (reporting, suivis etc.) seraient une première application facilitant l’accès à l’information.
Ensuite, on peut envisager l’intégration des outils d’exploitation de données plus avancées. A l’aide des algorithmes d’apprentissage (machine learning), la vérification automatique des documents est possible, notamment pour les exemples suivants :
- Entrée en relations avec des clients.
La récolte d’informations auprès des clients dès l’entrée en relation peut être une démarche administrative lourde. Elle pourrait être facilitée par des outils de reconnaissance d’images. Par exemple, la vérification des documents valides (comme les pièces d’identité) est tout à fait pensable au vu des progrès techniques de deep learning. L’algorithme pourra reconnaître rapidement le type de document, ou encore vérifier sa validité (date d’expiration, authenticité du document). - Clauses obligatoires pour les sous-traitants.
Lorsque les institutions financières souhaitent externaliser une partie de leur activité, le contrat établi avec les prestataires doit comprendre certaines clauses obligatoires. (les règlementations Prestations de Services Essentiels Externalisés). Comme le premier exemple, les outils de reconnaissance d’images permettent d’effectuer une première vérification. En particulier, il est possible d’extraire les textes d’un document à partir des technologies de Reconnaissance Optique de Caractères (OCR) et de les analyser avec les techniques de text mining ou de traitement automatique de langues.
En parallèle de cette application, les algorithmes d’apprentissage sont aussi des outils d’analyse : c’est le cas par exemple pour la LCB-FT avec la détection de comportement anormaux.
Focus sur la LCB-FT : comment les algorithmes peuvent détecter des comportements douteux ?
L’étape de détection dans la LCB-FT a pour objectif d’identifier les comportements et les transactions douteuses pour pouvoir les traiter et les communiquer (gels des avoirs, renseignement Tracfin). En établissant des scenarii et des règles métiers, il est possible d’isoler un premier groupe de comportements douteux. En revanche, si les règles et les scenarii sont trop rigides, les fraudeurs peuvent trouver un moyen de les détourner et « passer en dessous des radars ». Pour compléter cette détection, les algorithmes d’apprentissage peuvent être une alternative avec une approche statistique. Ils sont en effet reconnus pour :
- Repérer les patterns récurrents
- Assimiler plusieurs informations pour déterminer une frontière (règle) de décision.
C’est particulièrement le cas pour les algorithmes d’apprentissage non-supervisé. En effet, ils seront entraînés sur les données de transactions “normales” pour repérer des caractéristiques statistiques récurrentes. Ainsi, en l’absence de ces caractéristiques, les algorithmes identifieront les transactions « anormales ».
Pour illustrer cette approche, on présente deux types d’algorithmes spécifiques (figures ci-dessous) :
- Clustering : l’algorithme DB-scanregroupe des échantillons en fonction de leur distance et permet de repérer des outliers.
- Arbres de décision : l’algorithme isolation forestrepère un groupe d’échantillons anormaux sur les principes d’arbres de décision

(figure en bas à gauche) Les points jaunes sont les transactions détectées selon l’approche clustering. Les points extrêmes ont été détectés.
(figure en bas à droite) Les points jaunes sont les transactions détectées selon les arbres de décision. Les points extrêmes horizontaux ont été détectés.Bien que l’apprentissage supervisé puisse être utilisé pour cette application, le phénomène de classes déséquilibrées peut être un point bloquant à l’apprentissage. En effet, la proportion entre les transactions douteuses et celles normales est souvent extrême (dans l’exemple présenté, il s’agit d’un rapport de 1 transaction frauduleuse pour 1000 transactions normales). Étant donné que l’apprentissage supervisé est ciblé sur cette information, les résultats pourraient être aussi déséquilibrés. La classe minoritaire pourrait même être négligée alors que c’est elle qui nous intéresse.Ce problème ne concerne pas l’apprentissage non-supervisé puisqu’il n’a pas besoin de ce ciblage.Le choix des différents algorithmes dépendra de la nature des données. C’est pourquoi un travail préalable de traitement et d’exploration de données est nécessaire pour obtenir des résultats convaincants. La création de caractéristiques (“feature engineering”) ou encore des méthodes de projection/décomposition peuvent être un moyen pour aborder la question.L’analyse de documents et la détection de comportements semblent être les applications les plus efficaces pour la conformité. Cependant, on pourrait tout à fait envisager d’autres applications mais qui seraient plus spécifiques aux activités des institutions financières. Par exemple, une banque de particuliers pourrait proposer un système de recommandations de produits financiers ; cela permettrait un contrôle plus systématique sur ces produits en les adaptant au « profil risque » du client (protection du consommateur, réglementation MIF2).
En fait, si ces outils n’accompagnent pas les acteurs de la conformité, ils ne seraient pas valables. Ils sont prévus pour compléter et non pas remplacer.
Sung Hyuk Pang, consultant CMG Conseil