Accueil Nos publications Blog Les perspectives d’une data plus responsable

Les perspectives d’une data plus responsable

Il n’est pas rare d’entendre que le numérique est néfaste pour l’environnement ! Bien évidemment et comme souvent dans ce type de situation, tout n’est pas si simple… Découvrons ensemble l’impact de la Data sur le numérique responsable !


Nous avons refermé cette année 2022 avec ce que j’estime être une accélération de la prise de conscience sur les enjeux liés au numérique responsable. Très longtemps sous-estimé, l’impact environnemental du numérique est remonté dans les sujets d’actualité avec un fort relai des médias.

A ce bilan global écologique, j’ajouterai que l’année passée aura été riche dans le domaine de la Data avec de nouvelles réglementations et de nouvelles approches qui auront à leur tour un impact sur notre bilan énergétique si nous continuons sur la même voie. Afin de contribuer à l’enjeu global de réduction de l’empreinte carbone, différentes solutions sont à étudier :

  • Comment améliorer nos pratiques ?
  • Quelles réglementations entrent en jeu ?
  • Comment mesurer l’impact et identifier les leviers du changement ?

 

Autant de sujets qui vont bouleverser le marché de la Data dans les prochains mois ; Autant d’éléments à démystifier et à expliquer ….

 

Quelles pratiques pouvons-nous changer au niveau de la Tech et plus particulièrement de la Data ?

Le numérique a suivi les évolutions technologiques et l’augmentation des capacités des machines en suivant la fameuse loi de Moore qu’on nous a enseigné très tôt. Ce principe ne nous a donc pas contraint à la sobriété, ce qu’on résume aujourd’hui par l’effet rebond. Au contraire, l’exploitation des ressources disponibles est orientée sur l’ajout progressif de fonctionnalités, l’amélioration du niveau de service rendu et l’ergonomie du produit mais la consommation des algorithmes est rarement étudiée : manque de moyens, pratiques méconnues. L’optimisation ou la factorisation de code est peu répandue et la disponibilité immédiate de nouveaux matériels, toujours plus puissants, ne laisse pas le temps de se poser la question.

 

Et pourtant ! En un peu plus de 15 ans, j’ai constaté de nombreux exemples d’optimisations au niveau des projets Data qui permettent de réduire les temps de traitements en passant de l’heure à la minute, sans changer le matériel. Et dans notre domaine , les leviers sont nombreux :

 

  • la sélection et le filtrage des données manipulées fait partie des pratiques simples et souvent oubliées par les développeurs ;
  • de bonnes connaissances dans la conception des algorithmes et la maitrise des bases de données sont des clés importantes pour réduire la consommation des pipelines ;
  • le choix des langages et des librairies peuvent également avoir un impact important sur les ressources consommées pour un même niveau de fonctionnalité.

D’autres leviers sont également à prendre en compte que ce soit dans l’architecture des plateformes Data ou dans la méthodologie projet :

 

  • Le monitorting des ressources et la mise en place de métriques tout au long du cycle de vie des projets sont des pratiques incontournables actuellement. On reviendra prochainement sur le #DataOps
  • La simplification des architectures applicatives, la rationalisation des environnements, le maillage et la virtualisation sont des réponses concrètes pour limiter la redondance des données mais le #DataMesh doit encore faire ses preuves avant d’être généraliser
  • L’adaptation des solutions de stockage en fonction de la fréquence de consultation des données – aussi appelé température des données en référence aux données froides (archives) et au données chaudes (récentes).

La constitution d’un patrimoine de données par les organisations est un réel atout pour leur développement. A ce titre, des socles de données conséquents ont été constitués et vont continuer à être alimentés par de nouvelles données, toujours plus nombreuses. Afin de rester en maitrise de ce patrimoine et éviter une croissance exponentielle, il est essentiel que ces bonnes pratiques soient partagées.

 

Quelle approche retenir face aux demandes qui nous sont formulées ?

L’utilisation des données dans les organisations s’est démocratisée depuis un peu plus de 10 ans. La prise de conscience des usages possibles et la recherche des applications les plus lucratives a fait renaitre d’anciennes disciplines comme la Data Science. Là aussi les capacités techniques ont ouvert la voie à de nouvelles possibilités permettant l’expérimentation et la construction empirique de nouveaux modèles par la simple exploitation des données : « En prenant l’ensemble des données dont on dispose on va bien réussir à générer un modèle intéressant ! ». Cette pratique a conduit à de nombreux échecs faute d’objectifs. Ça fait partie de l’apprentissage …

 

Cette vision de la Data Science a été progressivement remplacée par une approche méthodique, axée sur les usages et la réponse aux besoins. On peut voir apparaitre aujourd’hui des retours d’expérience intéressants et bénéfiques pour la communauté : optimisation logistique permettant de réduire le poids du transport, pilotage énergétique des bâtiments en fonction de l’utilisation, maintenance prédictive permettant de réduire l’impact des pannes, … Le numérique se met au service du collectif :#ITforGreen.

S’ajoute à ce changement majeur, des réflexions de fond sur la pertinence de l’apprentissage automatique vis-à-vis d’une intelligence artificielle symbolique : #IASymolique. La notion de pertinence nécessite de prendre en compte la valeur d’un résultat vis-à-vis des moyens mis en œuvre pour l’obtenir. Dans la recherche de cet équilibre certaines solutions sont aujourd’hui repensées pour remplacer des systèmes apprenants par des algorithmes moins couteux mais suffisamment robustes pour être viables. Il serait prématuré de parler de tendance à ce jour mais challenger la pertinence de l’approche retenue fait là aussi partie des bonnes pratiques conduisant à des solutions plus sobres.

Enfin dernier changement notable qui impactera la Data Science dans les mois à venir : la réglementation #AI Act . Ce texte qui entrera en vigueur en 2024 permettra de fixer des limites sur les usages en fonction du niveau de risque qu’il porte. Une avancée significative dans le domaine de l’éthique …

 

Quels sont les autres réglementations prévues pour une data responsable ?

Comme indiqué par la Commission Européenne dans sa stratégie européenne des données : « la Commission vise à mettre davantage de données à disposition en vue de leur utilisation et à établir des règles pour déterminer qui peut accéder à quelles données et les utiliser, et à quelles fins, dans tous les secteurs économiques de l’UE. Les nouvelles règles devraient générer 270 milliards d’euros de PIB supplémentaire pour les États membres de l’UE d’ici à 2028 en s’attaquant aux problèmes juridiques, économiques et techniques à l’origine d’une sous-utilisation des données ». A ce titre, en complément des limitations portées par la #RGPD et l’#IAAct d’autres textes ont vocation à faciliter le développement de l’économie liée aux données. Les 2 textes à retenir concernent le #DataGouvernanceAct (ou #DGA) et la #DataAct.

 

Le #DGA vise à favoriser le partage des données (personnelles et non personnelles) en posant les principes des structures d’intermédiation. Pour vous représenter un exemple concret de ce type de structure vous pouvez prendre en référence la plateforme #HealthDataHub. Le texte, adopté en mai 2022 entrera en vigueur en septembre 2023. Après une phase de mise en conformité des plateformes existantes, on peut également supposer que ce nouveau cadre facilitera l’arrivée de nouveaux acteurs sur le marché.

 

Le #DataAct est plus récent car il n’en est aujourd’hui qu’à sa version initiale et n’a pas encore été adopté . Ce texte favorise la mise à disposition des données, facilite leur partage et leur portabilité entre entreprises mais aussi avec le consommateur. Il s’attaque aux problèmes juridiques, économiques et techniques à l’origine d’une sous-utilisation des données. Ce texte viendra ainsi lever le verrou sur ces contraintes contractuelles qui freinent certaines initiatives liées à l’utilisation des données.

 

Ces 4 textes réunis favorisent l’utilisation et le partage des données – normalisation, interopérabilité – dans un cadre qui se veut maitriser – en termes d’éthique, de données manipulées. Comme abordé précédemment, nous voyons ici que la quantité de données exploitées et le nombre d’acteurs concernés va continuer à augmenter. Ces prévisions incitent donc à travailler dès aujourd’hui sur une approche responsable et des pratiques plus sobres permettant de rester en maitrise de son patrimoine de données.

 

Et comment s’assurer que nos pratiques s’améliorent ?

Beaucoup se sont essayés à calculer le poids du numérique au niveau de l’empreinte mondiale. Cette démarche est louable et légitime car il est important de se baser sur des éléments mesurables. En tant que spécialiste de la Data, je ne peux que valider cette démarche qui est essentielle pour (1) dresser un constat, (2) évaluer le poids des actions que l’on peut mener et (3) identifier les priorités. Les premières estimations qui sont ressorties de ces études sont impressionnantes et nous commençons à voir apparaître des détracteurs qui remettent en cause ces chiffres.

 

Pourquoi ? Comment ? Nous vous proposons de le découvrir dans un nouvel article qui sera publié prochainement…