Journal scientifique #2 : Machine « Learning »

Journal scientifique #2 : Machine « Learning »

Lorsqu’on commence à travailler avec les données, on ne peut pas passer à côté du terme machine leaning aujourd’hui. Ce terme peut vite donner une impression d’outils et de techniques complexes. « Machine » nous rappelle les structures informatiques telles que les ordinateurs. Cependant, lorsqu’on s’attarde à l’histoire du machine learning, ou en français « apprentissage automatique », on trouve une autre version de l’étymologie. Certains chercheurs pionniers de ce domaine ont utilisé le terme de « machine » pour illustrer un objet conceptuel reliant une réponse à une question posée comme pour un questionnaire à choix multiples. En mathématique cela se traduit par une fonction.

Combiné avec le terme “learning” on commence à y entrevoir une forme d’intelligence. Ce terme fait probablement référence au schéma d’apprentissage expérimental ou empirique : on essaie, on se trompe et on commence à fonder une connaissance en corrigeant les erreurs. Comment ce schéma est-il inscrit dans ces algorithmes ? On propose de démystifier cet « apprentissage » des algorithmes, en prenant exemple sur deux types les plus connus : l’apprentissage supervisé et le non-supervisé. On pourra se rendre compte qu’à priori on est encore loin des robots capables de donner une réponse à toutes les questions.

L’apprentissage supervisé

Pour illustrer nos propos, prenons l’exemple de transactions bancaires : l’objectif est de déterminer si une transaction est frauduleuse. On annote les transactions qui sont effectivement frauduleuses et on considère les différentes informations de la transaction (montant, date, lieu etc.). Les algorithmes d’apprentissage supervisé se basent alors sur ces données annotées (fraude ou non) pour identifier les caractéristiques spécifiques aux transactions frauduleuses : un paiement sur internet à 3h du matin a probablement plus de chance d’être frauduleux qu’un achat à 17h dans un supermarché. En approvisionnant cette information annotée, on “supervise” l’algorithme pour qu’il puisse être capable de donner une réponse juste en fonction des caractéristiques.

Cet apprentissage intègre les données petit à petit pour calibrer la réponse. Cette intégration s’opère grâce aux outils mathématiques. Pour que cette réponse soit la plus correcte possible, l’intégration itérative peut être longue et peut nécessiter un nombre de données important.  C’est souvent le cas pour le Deep Learning (“apprentissage profond”) qui est un algorithme particulier du machine learning. Un des défis majeurs consiste donc à trouver un équilibre entre la quantité de données nécessaires et la qualité de ces algorithmes.

Cependant, l’apprentissage expérimental n’est probablement pas le seul moyen d’acquérir une connaissance chez nous les humains ; nous n’avons pas toujours besoin de répéter plusieurs fois les expériences et de nous dire à chaque fois la réponse. Est-il alors possible de concevoir des algorithmes capables d’apprendre “tout seul” ?

A l’état de l’art, la quantité de données reste inévitable pour que ces algorithmes soient stables. En revanche, de nombreux algorithmes ont été proposés pour reconnaître automatiquement des événements ou des faits particuliers sans indications explicites (le rôle des données annotées). En contradiction aux algorithmes supervisés, on les appelle “non-supervisés”.

Apprentissage non-supervisé et les autres types d’apprentissage

Les données annotées ne sont plus nécessaires pour ces autres types d’apprentissage et cela rend les possibilités de modélisation nombreuses. Par exemple, le type non-supervisé a pour objectif de trouver au sein de ces données des caractéristiques, des informations, des patterns qui pourraient en ressortir. Cette recherche d’éléments significatifs n’a donc pas de réponse unique et cela peut dépendre de l’application souhaitée. Si on reprend l’exemple des transactions bancaires, les algorithmes non-supervisés pourraient constituer des groupes de transactions partageant des caractéristiques similaires : un groupe de transactions ayant les plages horaires et les régions géographiques proches ou encore un groupe constituant les transactions récurrentes etc.. Bien qu’on ne réponde pas directement à notre question initiale (fraude ou non), ces regroupements peuvent donner des critères de décisions : les transactions régulières ont probablement peu de chance d’être frauduleuses. Cela dit, la quantité de données reste nécessaire pour que ces groupes soient significatifs et stables.

Il existe d’autres types d’apprentissage comme l’apprentissage par renforcement, qui a permis d’élaborer des stratégies optimales d’échec ou de go comme l’a démontré l’AlphaGo [ https://fr.wikipedia.org/wiki/AlphaGo]. Pour ce type d’apprentissage, on aura besoin d’un cadre précis dans lequel l’algorithme pourrait interagir avec l’environnement (pour les jeux d’échec ou de go, l’algorithme interagit avec la décision de l’adversaire). Ainsi l’algorithme assimilera son environnement à travers de multiples allers-retours.

 

L’ingénierie mathématique derrière cet « apprentissage »

Quel que soit le type d’apprentissage, ces algorithmes reposent fondamentalement sur les outils mathématiques déjà utilisés dans l’ingénierie. On y retrouve notamment l’inversion et les décompositions de matrices, les méthodes de descentes de gradient, ou encore les questions d’estimations statistiques. En mettant bout à bout ces techniques, les algorithmes ont su imiter l’apprentissage « par cœur » ; le principe consistant à répéter plusieurs fois pour intégrer une information. Cette répétition peut devenir problématique puisqu’elle nécessite une quantité de données importantes. Par conséquent, le machine learning se retrouve face aux défis pratiques (comment stocker ces données et les manipuler ?) et théoriques (comment intégrer de manière efficace toutes les informations ?). Pour y remédier, la communauté de machine learning continue d’investiguer sur les différentes techniques. Récemment les statistiques bayésiennes refont surface car elles permettent d’accélérer l’apprentissage en posant des hypothèses a priori.
Finalement, ce n’est peut-être pas si surprenant de constater que les ordinateurs sont capables de gagner aux jeux de stratégie puisqu’ils connaissent par cœur tous les coups menant à la victoire !

SH.Pang, consultant CMG Conseil

1024 494 CMG Consulting Group
CMG Consulting Group
Rechercher...