Les freins à l’exploitation de l’open data : l’exemple des demandes de logement social
Par Mathieu Chevallier (SPALLIAN) et Julia Dumont (datactivist)
Des rapports sur les demandes de logements sociaux sont publiés chaque année. Ces informations servent aux acteurs du logement soucieux d’améliorer la qualité de l’offre sociale, et contribuent à la transparence des politiques sociales de l’habitat. Pourtant, réutiliser ces données est ardu et l’on peine à les qualifier d’ « ouvertes ». Enquête sur ce qui pourrait devenir un jeu phare de l’open data français.
La gestion des demandes : le Système National d’Enregistrement
2 millions : c’est le nombre de demandes de logements sociaux en cours au début de l’année 2020.
Les demandes faites sur l’ensemble du territoire français sont déposées et gérées via le Système National d’Enregistrement (SNE). Ce dispositif informatique, déployé en 2011, présente plusieurs avantages, notamment :
- Faciliter le dépôt des demandes de logement social ;
- Favoriser la transparence du système d’attribution des logements ;
- Permettre la production de données statistiques sur la demande de logement social et ses attributions.
Le Groupement d’Intérêt Public en charge du SNE (on parle du GIP SNE) publie ces données statistiques sur la plateforme data.logement.gouv.fr. Téléchargeables sous forme de rapports, elles doivent permettre à l’ensemble des acteurs du logement tels que les collectivités locales, organismes de logement social, entreprises du bâtiment, citoyens, etc. d’obtenir un état objectif, précis et territorialisé de la demande de logement social.
Depuis la loi Lemaire parue en 2016, l’administration française est tenue de mettre à disposition du public un certain nombre de données. Ministères, collectivités territoriales, établissements publics… se doivent de publier leurs données dont la publication présente un intérêt économique, social, sanitaire ou environnemental.
De multiples réutilisations possibles…
Pourquoi demander à l’administration française de publier certaines de leurs données ? Afin qu’elles puissent être exploitées par des acteurs publics et privés et ainsi bénéficier au plus grand nombre. Les données du GIP SNE constituent un puissant outil de diagnostic du marché de l’habitat social pour les collectivités territoriales et les bailleurs sociaux.
Voyons concrètement quelques réutilisations imaginables à partir de ces données. Pour cela, nous tenterons de nous mettre dans la peau d’un bailleur social sur la Métropole de Bordeaux.
1- Cartographier les demandes de logement social
Projeter les demandes de logements par commune introduit une dimension spatiale à notre analyse et permet d’identifier les zones prioritaires dans lesquelles construire des logements.
Ici les demandes de logements sociaux sont concentrées au sud du territoire. Après Bordeaux et ses 15 869 demandes en cours, les villes les plus demandées sont Mérignac (4 182 demandes) et Pessac (2 838 demandes).
2- Évaluer l’offre à l’aune de la demande, par croisement de jeux ouverts
Avec les statistiques SNE, le répertoire des logements locatifs des bailleurs sociaux (RPLS) est l’autre jeu de données phare de l’open data du logement social. Ce dernier recense l’ensemble des logements sociaux (hors logements conventionnés des sociétés d’économie mixte) en France au 1er janvier de chaque année.
Projeter les logements sociaux existants (ou seulement les logements vacants) par-dessus les données sur la demande ouvre des possibilités d’analyse plus poussées.
Sur la carte précédente, nous avons ajouté les logements sociaux présents à Bordeaux Métropole. Ils sont géolocalisés et représentés ici par des clusters noirs. La superposition de ces informations nous permet de confronter l’offre et la demande du logement social.
En tant que bailleur social, la logique serait de construire des logements sociaux sur les communes où la demande est forte et l’offre faible.
Pour faciliter l’interprétation de ces données, nous pourrions également imaginer un agrégat statistique, qui met en relation les demandes en cours (SNE) avec le nombre de logements sociaux (RPLS).
3- Illustrer les données pour les analyser et arbitrer
Les statistiques des demandes de logement social présentent l’avantage d’être particulièrement bien détaillées : une distinction des demandes est opérée selon leurs caractéristiques (l’ancienneté de la demande, l’âge du demandeur ou encore les revenus de son ménage…). En tout, une quinzaine de typologies différentes sont proposées.
Par exemple, il est possible de savoir, pour une commune, combien de demandes ont été faites par type de logement (T1, T2, T3,…). À partir de cette information, les bailleurs sociaux peuvent construire des logements en adéquation avec la demande locale.
Dans Bordeaux et sa banlieue, la majorité des logements sociaux recherchés sont des T2, pourtant la zone est majoritairement pourvue de T3. A la lumière de ces informations, les bailleurs sociaux pourraient pour prendre en compte ce décalage entre offre et demande et adapter leurs projets de construction en faveur de surfaces plus nombreuses quitte à être plus petites.
…Mais une exploitation (très) complexe
Comme nous venons de le voir, plusieurs exploitations peuvent être imaginées à partir des données sur les demandes de logement social. Malheureusement, la manière dont les données sont fournies par le GIP SNE n’est pas propice à leur réutilisation, et il est très difficile de réaliser les visualisations que nous venons de présenter.
Les trois principaux freins à la réutilisation des données SNE que nous avons identifiés sont les suivants :
#1 : Une interface complexe, beaucoup de fichiers
« Plus de 5000 jeux de données sont téléchargeables au travers du moteur de recherche ».
Le GIP SNE a fait le choix de créer une interface web permettant à l’utilisateur de télécharger des rapports ciblés, pour un territoire et un type de demande donné. Mais le portail pousse un peu trop loin les possibilités de tri, de sorte qu’il est finalement compliqué de trouver ce que l’on cherche. De plus, si une personne souhaite télécharger et réutiliser l’ensemble des données SNE, il lui faut télécharger et intégrer plusieurs milliers de fichiers. Cette première barrière exclut les non experts de la donnée. De solides compétences sont nécessaires pour télécharger et concaténer 5 000 fichiers, sans garantie de résultat.
#2 : Une structure de fichier inadaptée aux machines
Si la structure des rapports a été pensée pour être facilement lisible par un humain, avec des titres, des sauts de colonnes, des fusions de cellules, etc. , celle-ci empêche leur exploitation par un ordinateur. Or, pour être qualifié d’open data, un jeu doit pouvoir être exploitable par un système de traitement automatisé. Le choix qui a été fait par le GIP SNE de proposer des rapports orientés humain rend impossible l’exploitation des données par des logiciels de traitement, d’analyse et de visualisation.
#3 : Pas de code géographique, pas de croisement !
Imaginons que l’on ait réussi à télécharger l’ensemble des fichiers dont nous avions besoin, et que soient les problèmes de format et de structure de fichiers soient réglés. Il demeure une barrière pour pouvoir réutiliser les données, et non des moindres : l’absence de codes géographiques.
Les données SNE sont des données territoriales, c’est-à-dire qu’elles fournissent des informations sur les territoires : communes, EPCI, département, région. La valeur informationnelle est grandement accrue lorsqu’elles sont projetées sur une carte, comme illustré avec l’exemple Bordeaux Métropole.
Mais lors de la création de la carte sur une interface interactive de visualisation de données, comment associer (ou croiser) la valeur d’une commune du fichier SNE avec le contour des communes de mon fond de carte ? Grâce aux Codes Officiels Géographiques (COG) !
Développés par l’Insee, les Codes Officiels Géographiques sont des numérotations qui permettent de référencer les territoires. Par exemple, le COG de Mérignac est ‘33281’. Attention, bien que ressemblant, le COG des communes est distinct de son code postal, qui lui est développé par la Poste (deux communes peuvent avoir le même code postal).
Au-delà de la projection sur carte, le code géographique est nécessaire pour croiser des jeux de données à des data territoriales, comme nous avons pu le faire avec le RPLS, en superposant les demandes de logements avec l’offre. Un croisement manuel des données, commune par commune, est chronophage et limite fortement les usages. Par exemple, elle rend impossible la création d’un tableau de bord interactif, où les données visualisées s’adaptent en fonction de la commune sélectionnée.
Conclusion
A l’heure actuelle, les données SNE ne peuvent pas être considérées comme de l’Open Data. En effet, l’un des critères pour pouvoir considérer une donnée comme ouverte est son caractère réutilisable : les données doivent être fournies sous des conditions permettant la réutilisation et la redistribution, ce qui implique les croisements avec d’autres jeux de données.
Comme nous venons de le voir, ce n’est pas le cas actuellement. Mais quelques modifications permettraient de révéler le potentiel de ces données. Par exemple, le GIP SNE pourrait :
- Proposer des fichiers CSV regroupant l’ensemble des données brutes sur les demandes de logement social. Ces fichiers pourraient être téléchargeables depuis data.gouv.fr, plateforme de diffusion officielle de données publiques, en complément des rapports statistiques actuellement disponibles sur data.logement.gouv.fr. Idéalement, les jeux de données devraient respecter les règles mentionnées par Etalab (encodage, en-tête des colonnes, séparateur, gestion des champs non attribuées,…)
- Rajouter une colonne ‘COG‘ dans ces fichiers, dans laquelle on retrouvera le code officiel géographique de chaque territoire.
- Documenter les données : description générale des jeux de données, de leur mode de production ainsi que leurs métadonnées; mention des changements majeurs et point de contact…
Ce faisant, le GIP SNE donnerait aux acteurs du logement un outil puissant pour mieux loger la population française, et aux citoyens un gage de transparence sur l’accès aux logements sociaux. Espérons que ces changements seront opérés d’ici peu !
Pour plus de détails concernant les défis de l’open data, rendez-vous sur le feuilleton « Les Experts de l’Open Data » réalisé par @Spallian. Vous pouvez également consulter les guides d’Etalab pour en savoir plus sur les bonnes pratiques relatives à l’ouverture des données.
Rédaction
Mathieu Chevallier, Data Analyst, Spallian
Julia Dumont, Consultante Open Data, Datactivist
Cet article résulte de la réflexion menée par un groupe de travail constitué en Novembre 2020 lors de la Non Conférence des données ouvertes de Bercy. Cet événement a réuni de nombreux acteurs de l’open data français, dont le député Éric Bothorel.