Un retour d’expériences sur l’usage des données des opérateurs d’énergie

Cet article revient sur notre expérience d'utilisateur de données des opérateurs énergétiques pour pointer les principales difficultés d’utilisation rencontrées et, ensemble, les dépasser.

L’article 179 de la loi de transition énergétique pour la croissance verte d’août 2015 a acté l’obligation, pour les gestionnaires de réseaux, de mise à disposition des personnes publiques « des données de consommation et de production [...] dont ils assurent la gestion, dès lors que ces données sont utiles à l'accomplissement des compétences exercées par ces personnes publiques, en particulier pour l'élaboration et la mise en œuvre des plans climat-air-énergie territoriaux ».

Logo TECV

Déjà 3 ans d’application de l’article 179 ...

Trois ans, deux décrets, et un arrêté d’application plus tard, le SDES vient tout juste de sortir un bilan de la période écoulée (Bilan du dispositif de collecte et de diffusion des données locales d’énergie « article 179 ») accessible en ligne. On y trouve plusieurs informations intéressantes, parmi lesquelles :

  • le calendrier de mise à disposition des données nous indique que la plupart des obligations des gros opérateurs sont remplies à la maille de l’EPCI et de l’IRIS. Les petits devront, au cours de l’année 2019, s’aligner sur les gros. A une échelle plus fine, la consommation annuelle par bâtiment agrégée à 10 points de livraison si la consommation résidentielle est inférieure à 200MWh reste à libérer.
  • Un point sur la gouvernance rappelle le rôle du SDES dans la collecte et la publication des données des opérateurs de distribution et transport d’énergie et revient sur les apports dus à la mise en œuvre de l’article 179 de la LTECV.
  • Un bilan des moyens humains mis en œuvre et de la traduction opérationnelle pour répondre à ces nouvelles obligations en est fait. Le rapport évoque la création de l’agence ORE (Opérateur de Réseaux d’énergie) qui regroupe les GRD et qui met à disposition leurs données dans un format agrégé à travers une plateforme opendata disposant d’API. La plateforme Open Data Réseaux Énergies (ODRE) mutualise, quand à elle, les données des transporteurs. Initiée par RTE et GRTGaz, elle réunit aujourd’hui (fin 2018) 8 acteurs. La plateforme opendata d’ENEDIS est également citée.
  • Les difficultés de mise en œuvre par certains opérateurs sont également pointées, liées à la protections des données (limites des 11 sites résidentiels, par exemple), au partage de référentiel aux temporalités différentes (base IGN/INSEE/IRIS) ou à la qualité des données. Le SDES vérifie lui-même la qualité des données et s’assure de leur anonymisation – en proposant de le faire pour l’ensemble des GRD par souci d’harmonisation méthodologique. Ce qui semble une excellente idée !

D’autres enseignements figurent encore au bilan. Mais côté usage de ces données, le document rentre peu dans l’analyse pratique. Il est fait état d’une enquête menée auprès d’une vingtaine de collectivités qui, pour une petite moitié, dit utiliser lesdites données. C’est peu, alors qu’elles en sont les premiers destinataires. Une enquête menée par l’association Amorce dresse le même constat : « ces données étaient en 2017 encore assez peu connues puisque la moitié des interrogés admettaient qu’ils connaissent mal, pas vraiment ou pas du tout ces nouvelles données. »

Nous-mêmes avons eu, durant ces dernières années, plusieurs occasions d’utiliser ces données pour nos besoins propres ou ceux de nos clients (souvent publics, parfois privés), de suivre l’évolution des jeux mis à disposition, de pratiquer les différents formats et API, de faire des tests de croisements et de valorisation. Nous proposons de revenir sur nos expériences pour pointer les principales difficultés d’utilisation rencontrées et, ensemble, les dépasser.

Des données qui peinent à trouver leurs utilisateurs

Les données opendata de l’énergie n’échappent pas à ce qui est observé dans d’autres domaines : malgré les promesses incantatoires et consensuelles entendues ici et là, le nouvel or noir peine à trouver ces utilisateurs. Aujourd’hui, peu de collectivités et même peu de bureaux d’études (pourtant avec une approche souvent plus technique) les utilisent. L’indisponibilité des données sur les produits pétroliers à l’échelle locale y est sans doute pour beaucoup et laisse une place privilégiées aux données fournies par les observatoires régionaux qui, par un travail de modélisation, fournissent un panorama local toutes énergies.

Le ministère de la transition écologique et de la solidarité a, en 2018, lancé un concours de data-visualisation des données locales de l’énergie pour stimuler l’innovation autour de leurs usages. Peu d’acteurs ont retiré le dossier de candidature et encore moins ont effectivement déposé un projet, preuve de la faible appropriation du sujet à ce jour notamment par les BE spécialisés de l’énergie quasi-absent.

ENEDIS, GRDF, RTE, GRTGaz, O(D)RE, SDES … des données à la source

Le déluge soudain de données implique de faire les bons choix. La mise en œuvre de l’article 179 se traduit par une redondance de données déstabilisantes pour l’utilisateur potentiel. On peut se réjouir de l’élaboration d’un portail unique dédié au transport d’électricité et de gaz (ODRE) et du choix de fermer les plateformes devenues caduques de RTE et GRTGaz. On peut aussi espérer que peu d’utilisateurs avaient conçu des produits sur la base des plateformes fermées et que la plateforme de l’ODRE sera plus pérenne. Côté distributeurs, des choix différents ont été faits. On trouve des jeux de données redondants chez ENEDIS ou sur la plateforme de l’ORE qui centralise les données des GRD. Le premier désirant mettre à disposition des jeux de données extra-réglementaires, il a souhaité conserver son espace de liberté. L’agence ORE 1, association des opérateurs de distribution a pour rôle d’offrir un guichet unique de données en agrégeant environ 170 sources.

Membres de l'agence ORE

Cette redondance des plateformes et des jeux de données créer de la confusion chez l’utilisateur potentiel qui doit avant toute utilisation faire un choix parmi les fournisseurs de données disponibles, en fonction de l’échelle de travail, des spécificités de chaque jeu de données et de ses besoins.

Elle implique aussi des coûts supplémentaires, notamment humains pour préparer et mettre à disposition les jeux de données mais aussi énergétiques afin d’en garantir un accès H24. Plutôt que de développer un argumentaire complet sur ce point, nous renverrons juste vers un article en ligne du journal du CNRS intitulé « Numérique : le grand gâchis énergétique ».

Des données utiles … à condition qu’elles soient de qualité

Nous étions familier des données de consommation énergétique du SDES, qui, si elles ne sont pas faciles à trouver, ont le mérite d’être complètes et homogènes. La création de l’outil en.zo, dans le cadre du concours cité plus haut, nous a poussé à explorer les nouvelles sources disponibles à travers les plateformes des opérateurs.

Le jeu de données de production d’électricité renouvelable d’ENEDIS est précieux ! Et nous attendons avec impatience qu’il soit étendu, au plus vite, aux ELD et rendu accessible depuis la plateforme ORE afin d’offrir une vision nationale exhaustive. Mais le schéma même du jeu de données ENEDIS manque aujourd’hui de rigueur : à titre d’illustration, pour l’EPCI de Vitré communauté, le schéma JSON n’est pas homogène. Le champ nb_sites_hydraulique_enedis est présent sur les enregistrements 0 et 2 mais absent sur le 1, celui qui retourne les valeurs pour le segment de tension "BT <= 36 kVA". On constate une erreur similaire sur le champ nb_sites_photovoltaique_enedis pour la CC du Pays des Herbiers.

Ce genre d’erreur est gérable, mais induit des temps de développement supplémentaires pour effectuer des contrôles de cohérence / intégrité des données qui devraient être fait une fois par toute par le producteur / diffuseur.

Des données (in)disponibles grâce aux API

La mise à disposition des données énergétiques par les opérateurs reposent sur des infrastructures logicielles permettant des consultations sous format tabulaires et cartographiques et disposent d’API (Application Programming Interface) accessibles via le protocole HTTP. Ces dernières permettent et facilitent les interactions entre applications à travers des possibilités de requêtage. Elles renvoient, en temps réel, des réponses standardisées (en partie, voir le problème évoqué plus haut).

API d'ENEDIS

Récemment, Anthony Masure a documenté dans un long article ce qu’offre les API, leurs paradoxes en ce qu’elles permettent autant d’ouvrir et de fermer l’accès aux données (« nouveaux péages du Web ») et leurs faiblesses (structurelles, financières, ...). Parmi ces faiblesses, il y en a une sur laquelle nous souhaiterions insister : l’instabilité de leur fonctionnement. A titre d’illustration, nous avons fait l’expérience de la mise à jour d’un jeu de données, entraînant purement et simplement l’arrêt de service de l’API sur le jeu en question – pendant plusieurs heures – et sans aucune information permettant dans connaître la cause. Il y avait peu d’enjeu concernant notre outil, mais il pourrait y en avoir sur d’autres applicatifs, surtout si de nouveaux services reposent sur ce genre de technologie comme la tendance le veut voire l’exige. Comment garantir la disponibilité des données jusqu’au basculement vers le nouveau jeu ? A minima, il conviendrait d’informer l’utilisateur impuissant de ce qui lui arrive.

La répétition des erreurs

Il y a quelques mois, la fédération des AASQA (Associations agréées de surveillance de la qualité de l'air) communiquait sur l’ouverture des données sur la qualité de l’air. L’annonce prometteuse, relayée par le Réseau durable, s’inscrit dans la continuité de la mise à disposition des données de l’énergie. Nous n’avons pas exploré l’ensemble des données disponibles mais les quelques minutes passées à observer les contenus nous ont conduit à ouvrir un jeu de données au hasard, en Bretagne. On y trouve des données concernant plusieurs polluants dont les PM10, PM2.5, SO2, … réglementaires dans le cadre de l’élaboration de PCAET. Mais il y a, du point de vue de l’usager, des données inacceptables pour en faire une utilisation automatisée. En Bretagne, le code EPCI qui, lorsqu’il répond à la nomenclature géographique de l’INSEE correspond à son code SIREN, est dégradé. Il prend des valeurs tels que 2, 25, … comme en atteste la capture d’écran ci-dessous, complexifiant tout type de rapprochement avec d’autres sources de données dont l’identifiant est … le code EPCI.

Un code EPCI dégradé dans un jeu de données AASQA

Cela signifie qu’il y a eu, lors d’une chaîne de traitement, une dégradation volontaire de ce code et qu’aucun contrôle n’a permis d’identifier ce problème et de le restaurer avant publication.

Le traitement de données impliquant bien souvent de collecter plusieurs sources et de les croiser, il est bien évident que la gestion d’erreurs imposées aux développeurs et la rupture des champs de jointure tels qu’un code EPCI sont autant de signaux négatifs qui leurs sont envoyés.

Le nombre et la qualité des participations au concours de valorisation des données sur la qualité de l’air extérieur permettront d’en juger.

Pour conclure, … utiliser les données pour simplifier la réutilisation et garantir une qualité du service de la donnée

On peut considérer que les opérateurs énergétiques ont rempli leur obligation réglementaire ou sont en passe de le faire et que, par conséquent, il y aurait désormais peu à faire. Mais cette libération de données semble susciter d’autres espoirs en termes de réutilisation, y compris dans leurs équipes.

Les données de l’énergie ou de la qualité de l’air n’ont peut-être pas (encore) trouvé leurs utilisateurs mais leur exhaustivité, leur intégrité, leurs conditions d’accès permettent-elles des usages pertinents ? Il est bien entendu possible de créer de la valeur ajoutée avec les données d’ores et déjà disponibles (et en.zo en est une modeste illustration) mais il semble évident que des progrès sont toujours à réaliser de la part des producteurs et diffuseurs de données pour faciliter l’accès, la disponibilité et l’utilisation de leurs données. Il ne s’agit pas seulement de mieux communiquer sur les données disponibles comme le propose le bilan du SDES mais il s’agit aussi d’assurer une qualité de service de la donnée incluant l’intégrité de la donnée elle-même mais aussi sa disponibilité. En d’autre termes, c’est ce préoccuper du contenu (la donnée), du contenant (l’infrastructure technique) et de ce qui les lie (les conditions et d’utilisation).

Le meilleur garant de la qualité du service de la donnée offert par les opérateurs d’énergie serait probablement qu’ils fassent eux mêmes une utilisation poussée et régulière de ce qu’ils mettent à disposition. Ce modèle s’applique à l’industrie logicielle. Il permet d’identifier les anomalies, dysfonctionnements et limites pour mieux définir une feuille de route fixant les principales améliorations à fournir aux usagers. On espère que le prochain bilan effectué par le ministère chargé de l’énergie fera, dans 6 ans, état de grandes avancées dans ce sens !


  1. On peut regretter la proximité orthographique et phonétique de la plateforme fédérant distributeurs et transporteurs qui peut favoriser la confusion des deux acteurs. 

Précédente actualité