
L’idée de ce journal scientifique est de partager les réflexions scientifiques et les concepts utilisés dans le domaine de Big Data et IA.
Dans cette première note, nous nous intéressons à comment chercher l’information au sein des données. En présence de quantité importante de données (large panel d’information et d’échantillon) il n’est pas toujours évident de discerner les données pertinentes.
Une réponse peut se trouver dans la théorie de l’information. L’objectif de cette théorie est d’étudier la quantification et la communication de l’information. Il en découle diverses applications qui ont permis des progrès technologiques dont l’IA. Nous présentons ici quelques concepts et les perspectives d’application.
L’entropie (de Shannon)
La théorie de l’information nous propose l’entropie pour mesurer l’information au sein des données. L’idée de cette mesure est la suivante : plus les données sont variées, plus l’entropie est importante (et inversement, lorsqu’il y a peu de variation, l’entropie est faible).
Prenons un exemple pour illustrer ce concept : regardons les données de températures de régions géographiques différentes. Dans une région de climat équatorial, on observe des températures constantes durant toute l’année. L’entropie sera alors faible. En revanche, dans un climat continental, on trouvera des températures plus variées durant l’année (en fonction des saisons) et l’entropie sera plus élevée.
C’est justement cette variété au sein des données qui nous intéresse puisque l’on peut en tirer parti pour analyser ou pour prédire.
L’entropie mesurant la variété, on parle aussi de mesure de « désordre » ou « d’incertitude ».
L’information mutuelle
Si on a pu mesurer l’information d’une seule source de données, il peut être intéressant de comparer l’information provenant de deux sources différentes. Pour ce faire, on utilise la mesure appelée information mutuelle. Intrinsèquement, elle mesure la variabilité qu’il y a « en commun » entre les deux sources d’information.
Pour reprendre l’exemple précédent, supposons qu’on a, en plus des données de températures, les saisons correspondantes. Dans un climat continental, ces deux informations seront fortement liées : en été, la température sera plus élevée et en hiver plus basse. L’information mutuelle entre ces deux types de données sera alors élevée.
Les applications
L’utilisation de ces mesures s’est vue tout d’abord dans la télécommunication. Comment transmettre une information (message vocal ou textuel) efficacement ? En utilisant l’entropie, il est alors possible d’élaborer des stratégies pour transmettre les messages à moindre coût (une vidéo illustrant bien ce propos : https://www.youtube.com/watch?v=2s3aJfRr9gE)
La finance quantitative s’est aussi penchée sur ces notions à commencer par la gestion de portefeuille (portefeuille log-optimal). En effet, l’entropie, en tant que mesure d’incertitude, est aussi utilisée comme une mesure de risques financiers.
Pour les data scientists et les statisticiens, ces notions sont déjà ancrées dans leurs outils d’analyse de données et de modélisation comme la sélection de variables ou encore les algorithmes de machine learning. Quant à l’apprentissage profond (Deep Learning), qui a permis diverses applications en IA, on a repris ces notions d’information pour améliorer les chat-bots, les moteurs de recherche ainsi que les algorithmes de recommandation.
Bien que ces notions soient présentes depuis le début du 20ème siècle, l’exploration reste ouverte : de nombreux algorithmes d’IA et de machine learning reprennent les notions pour perfectionner et pour proposer davantage d’applications. Aussi, la recherche ne se restreint pas à appliquer ces notions dans un seul domaine : les sciences cognitives ou encore la biologie ont pu profiter de ces outils pour leurs études.
S.H.PANG