Big Data: qu’est ce qui change?

Big Data: qu’est ce qui change?

Ces dernières années, l’augmentation exponentielle des données numériques oblige à réfléchir à de nouvelles manières de voir et d’analyser le monde. Il s’agit de trouver de nouvelles techniques concernant la collecte, la recherche, le partage, le stockage, l’analyse et la présentation des données. C’est ainsi qu’est né le Big Data. Les progrès technologiques ont permis la naissance et le développement du Big Data, notamment les technologies de stockage portées particulièrement via le déploiement du Cloud Computing et les technologies de traitement ajustées, comme le développement de nouvelles bases de données adaptées aux informations non-structurées et la mise au point de modes de calcul à haute performance.

Analyse des échantillons versus analyse de la population

Avant la naissance de Big Data, pour traiter et pour analyser les grandes masses de données complexes avec les méthodes statistiques traditionnelles, il fallait d’abord construire un échantillon jugé statistiquement représentatif d’une population. La capacité pour collecter, partager, stocker et analyser les données n’était pas suffisante. Grâce au Big Data, nous pouvons collecter beaucoup plus d’informations. Le Big Data, signifie littérairement « grosses données » ou « données massives ». Il permet d’analyser un ensemble très volumineux de données. Il répond en particulier à deux problématiques : d’une part, la gestion de la quantité des données qu’un outil classique ne peut pas administrer, d’autre part la structure ou le format des données qu’un outil de gestion de l’information ne peut pas traiter. L’augmentation de la taille de l’échantillon permet non seulement d’améliorer l’exactitude du résultat et donc l’analyse, mais aussi d’obtenir plus de détails et d’information qu’on ne pouvait pas obtenir auparavant.

Logique orientée versus données orientées

Les modèles analytiques traditionnels sont souvent basés sur la compréhension d’une logique raison-résultat. Cette approche permet au lecteur de comprendre la logique intrinsèque et les détails du modèle : données, algorithmes, logique, etc. Par exemple, avec l’hypothèse où le taux d’intérêt diminue, l’indice CAC40 augmente. A partir des données historiques et des tests statistiques, on trouve une corrélation entre le mouvement des taux d’intérêt et du CAC40 pour conclure que la diminution du taux d’intérêt a une influence sur l’indice. Derrière cette conclusion, il y a toute une série de théories économiques et mathématiques qui permettent de comprendre le résultat obtenu. En fait, il faut comprendre les éléments du modèle tout en essayant de vérifier sa cohérence. C’est pourquoi des contrôles d’intégrité sont effectués.

Maîtriser les risques

Les technologies liées au Big Data continuent de se développer, les modèles moins transparents ou complètement opaques seront de plus en plus utilisés. La validation et le suivi permanent de ces modèles sont donc devenus de plus en plus importants et de véritables enjeux.

Les équipes de Data Science doivent prendre la responsabilité d’un modèle tout au long du cycle de développement. Elles doivent non seulement avoir les connaissances sur le développement IT mais aussi des compétences sur le métier pour pouvoir interpréter correctement le modèle construit.
Les utilisateurs de ces modèles « boîte noire » doivent continuer à approfondir leur connaissance sur le modèle qu’ils utilisent pour mieux questionner, valider et maintenir les outils d’aide à la décision.

Le rôle des experts externes spécialisés dans l’algorithme sera de plus en plus important. Avec leurs compétences spécialisées sur le domaine (Data Science), ils accompagneront leurs clients lors du développement et de la mise en place des modèles, tout en gardant une vision indépendante.

Hao Q.
Pôle Règlementaire

958 780 CMG Consulting Group
CMG Consulting Group
Rechercher...