Open Data et prix des logements : analyse comparative des indicateurs Cerema et Notaires

9 min readNov 15, 2021

Les fichiers bruts DVF (Demandes de Valeurs Foncières) sont mis à disposition par la DGFIP sur le site data.gouv.fr, depuis l’ouverture publique de cette base de données en 2019. Parallèlement à cette mise à disposition de données brutes, le Cerema¹ a mis en ligne des indicateurs de prix sur les maisons et appartements, à l’échelle de la commune et de l’EPCI, pour toute la France, issus de DV3F (croisement des bases DVF et Fichiers fonciers²). Jusqu’alors, les notaires étaient (avec les services fiscaux de l’État) les seuls détenteurs des informations issues des actes de ventes. Ils étaient également les seuls à les utiliser pour calculer des indicateurs de prix à l’échelle nationale, qui étaient commercialisés.

S’il existe depuis longtemps des simulateurs de prix en ligne permettant d’estimer la valeur de son bien immobilier ; c’est la première fois que sont fournis, librement et gratuitement, des fichiers bruts contentant de tels indicateurs de prix. Ces informations appellent à de nombreuses réutilisations : du data scientist qui souhaite alimenter un algorithme de prédiction en passant par l’élu qui veut cartographier les prix sur les territoires, les usages sont multiples. Pour certains de ces usages, les indicateurs du Cerema viennent concurrencer les indicateurs vendus par les notaires. Il existe donc désormais deux bases d’indicateurs de prix à l’échelle nationale, que nous appellerons les indicateurs Cerema et les indicateurs Notaires.

Mais les prix issus des indicateurs Cerema sont-ils les mêmes que ceux communiqués par les notaires ? Peut-on utiliser indifféremment les deux sources d’indicateurs ? L’objectif de cet article est de mesurer les différences de prix qui peuvent exister entre les indicateurs Cerema et les indicateurs Notaires.

Méthodologie : nous avons récupéré les indicateurs de prix au m² (premier quartile, prix médian, dernier quartile) des maisons anciennes pour l’ensemble des EPCI d’Île-de-France en 2019, du Cerema et des Notaires. Nous avons ensuite comparé les valeurs issues des deux sources au travers de visualisations de données. Nous avons retenu l’échelle de l’EPCI et non l’échelle communale pour cette analyse afin d’éliminer les biais liés aux seuils statistiques : si le nombre de transactions observées sur un territoire est trop faible, l’indicateur de prix manque de fiabilité et n’est pas communiqué.

Démarche et résultats de l’analyse comparative

Après une phase préalable de preprocessing (nettoyage des données, concaténation et rattachement de chaque code EPCI à sa région), nous avons débuté cette analyse comparative en visualisant les indicateurs de prix sous forme de nuage de points.

Cette première représentation des indicateurs de prix nous laisse à penser que les prix du Cerema sont globalement plus élevés que ceux calculés par les Notaires. En effet, en observant chacun des trois nuages de points, nous pouvons identifier un schéma récurrent : les points oranges (indicateurs Cerema) sont plutôt concentrés vers le haut des nuages, tandis que les points bleus (indicateurs Notaires)sont concentrés vers le bas.

Si l’on se concentre sur les prix médians (nuage du milieu), les deux prix les plus élevés sont ceux observés par le Cerema sur l’Intercommunalité-Métropole de CA Versailles Grand Paris et l’Intercommunalité-Métropole de CA Saint-Germain Boucles de Seine. Les prix médians au m² y sont respectivement de 5 845€ et 5 647 €. Toujours sur le nuage du milieu, les deux points bleus, situés juste en dessous, correspondent assez logiquement aux prix au m² des mêmes EPCI, mais cette fois ci selon les indicateurs Notaires. Ici, les prix médians au m² sont respectivement de 5 030 € et 5 060 €. Pour ces deux territoires, la différence de prix observée est supérieure à 10% entre les deux séries d’indicateurs, ce qui est significatif lorsque l’on parle de prix de l’immobilier.

Ce premier constat nous permet de formuler l’hypothèse suivante : les prix au m² proposés par le Cerema sont significativement plus élevés que ceux affichés par les indicateurs Notaires.

Afin de confirmer ou non cette hypothèse, nous avons analysé les écarts (en %) des prix médian par EPCI d’Île-de-France.

Les indicateurs de prix du Cerema sont bel et bien supérieurs (la plupart du temps de 5% à 15%) pour l’ensemble des EPCI. Aussi, deux EPCI se distinguent. Pour la Métropole de CA Val d’Europe Agglomération (barre la plus à gauche), les indicateurs Cerema indiquent un prix médian au m² inférieur de 1,96% à ceux des Notaires. On remarque aussi qu’une intercommunalité est sujette à une très grande différence de prix… il s’agit de la Métropole du Grand Paris ! Pour le Cerema, le prix médian au m² des maisons anciennes est de 3 020€, contre 4 606€ du côté des Notaires, soit une différence de 45,9%.

Pour terminer, nous pouvons quantifier de manière exacte l’écart moyen entre les indicateurs Cerema et Notaires sur l’échantillon que nous avons observé, et que nous avons estimé entre 5% et 15%. Ainsi, nos calculs ont permis d’établir que l’écart moyen est de 12%.

Les observations que nous avons faites sur l’indicateur de prix médian sont sensiblement les mêmes pour les deux autres indicateurs de prix (premier et dernier quartile).

Cette analyse comparative nous a permis de démontrer que, sur le périmètre étudié (maisons anciennes, 2019, Île-de-France, échelle EPCI), les indicateurs de prix au m² du Cerema sont plus élevés que les indicateurs Notaires. Et cette différence est significative : en moyenne, l’écart de prix est de 12%, et peut monter jusqu’à 45% pour la Métropole du Grand Paris. Des travaux complémentaires pourraient être menés à l’échelle nationale et sur les autres types de biens : maisons neuves, appartements neufs et anciens.

Comment expliquer ces différences de prix ?

Ces écarts de prix observés tiennent avant tout aux différences des deux bases, DVF et BIEN/Perval³, qui sont utilisées pour alimenter respectivement les indicateurs Cerema et Notaires.

Ce constat peut surprendre, de prime abord, puisque l’information sur les prix des transactions est, dans ces bases, issue de la même source : l’acte notarié de vente.

Cependant, ces deux bases ne sont pas construites par les mêmes acteurs, ni dans le même but. Une note de recherche⁴ publiée en 2017 met en lumière les différences observées dans le processus de production, la structure et le contenu des bases DVF et Perval (équivalent de la base BIEN mais pour les autres régions que l’Île-de-France). Voyons quelques une de ces différences qui peuvent expliquer les différences de prix constatées dans notre étude.

Représentativité de l’échantillonnage spatial

À la différence de DVF, BIEN/Perval n’est pas exhaustive (on estime que les ¾ des transactions seront disponibles à terme dans celle-ci). En effet, si son renseignement par les notaires est obligatoire, aucune sanction n’est prévue quant à la non-observation de cette obligation d’où un niveau d’investissement dans le remplissage de BIEN/Perval très différent selon les notaires. Comme l’absence d’exhaustivité des données BIEN/Perval dépend d’un élément étranger au marché du logement (le niveau d’implication du notaire chargé de l’enregistrement), évaluer la mesure dans laquelle l’échantillon utilisé pour la construction de l’indicateur notaire est représentatif de l’ensemble des transactions, est impossible.

Traitement des ventes multiples (multiventes)

Une seconde source de dissemblance des échantillons tient dans le traitement du problème des multiventes. Lors d’une telle opération (par exemple, la vente simultanée d’une maison et d’une dépendance), le prix de chacun des biens n’est, en effet, pas renseigné dans l’acte notarié. Dans BIEN/Perval, un traitement (dont la méthodologie n’est pas connue) est effectué pour attribuer à chacun des biens « principaux »⁵ , objets de la vente multiple, un prix hypothétique. A l’inverse, dans DVF, les différents biens sont rattachés à leur mutation dont le prix global est connu, sans attribution d’un prix hypothétique à chacun des biens concernés. Cela a des incidences sur les données servant à la construction des indicateurs. Dans DV3F, les biens vendus dans le cadre de multiventes n’ont pas de prix propres. Le Cerema ne les prend donc pas en compte dans la construction des indicateurs. Pour leur part, les notaires les prennent en compte avec le prix hypothétique qu’ils leur ont affecté.

Des différences quant à la surface des logements retenue

Lorsque l’on étudie, non des indicateurs de prix mais des indicateurs de prix au mètre carré, comme dans le présent article, la superficie des logements ajoute un second facteur d’écarts entre les indicateurs Notaires et les indicateurs Cerema. À la différence de celles ayant trait aux prix, les données DV3F relatives à la surface n’ont, en effet, pas comme source l’acte notarié mais la seconde base alimentant DVF : MAJIC (mise à jour des informations cadastrales). MAJIC est une base fiscale concernant la gestion du cadastre et le fichier des propriétaires. S’agissant ici de maisons, aucune obligation de métrage préalable à la vente n’existe (comme pour les appartements avec la loi Carrez). Les données concernant la surface des logements, alimentant les indicateurs Notaires et Cerema, sont donc issues de deux bases déclaratives différentes. Cela entraîne naturellement la possibilité de variations dans la surface renseignée dans les deux bases. On peut, par exemple, imaginer tentant pour certains propriétaires, en l’absence de mesure de la surface, de prendre une hypothèse basse pour la déclaration fiscale du bien et haute pour sa vente.

Méthodologie de calcul des indicateurs

En parallèle des différences qui existent entre les deux sources de données, les méthodologies de calcul des indicateurs appliquées sur chacune de ces bases diffèrent elles aussi. Calculer des indicateurs de prix sur la base d’un détail de transactions avec des nombreuses variables requiert de faire des choix. Ces choix méthodologiques ne sont pas communiqués par le notaires, mais en l’absence de concertation, il est certain que le Cerema et les Notaires n’ont pas retenu exactement la même approche pour calculer leurs prix, les choix méthodologiques étant très nombreux du fait de la complexité des bases sous-jacentes (DVF et BIEN/Perval).

Qui croire dans tout ça ?

N’ayant pas suffisamment d’informations pour comparer les méthodologies de calcul des indicateurs, il est complexe de répondre à cette question de manière tranchée. Et les deux entités (les Notaires et le Cerema) disposent d’un haut degré d’autorité en matière de traitement des données immobilières.

Ce qui est certain, c’est que les indicateurs du Cerema sont disponibles de manière totalement ouverte en ligne, sous format .csv. Indicateurs de prix annuels et tri-annuels, à l’échelle de la commune et de l’epci, une profondeur temporelle intéressante (données disponibles à partir de 2010), ce jeu de données ouvre de nombreuses possibilités. On notera tout de même un petit retard sur la fraicheur de la donnée: on octobre 2021, la dernière année disponible était 2019. On aurait bien aimé avoir 2020.

Si vous souhaitez accéder au jeu de données du Cerema, c’est par ici : Indicateurs de prix Cerema

[1] : Le Cerema (centre d’études et d’expertise sur les risques, l’environnement, la mobilité et l’aménagement) est un établissement public sous double tutelle des ministères de la transition écologique et de l’égalité des territoires.

[2] : Ce croisement permet à DV3F d’ajouter aux données DVF un grand nombre d’informations issues des fichiers fonciers sur les caractéristiques physiques des biens concernés par les transactions ainsi que des informations sur les propriétaires et acheteurs.

[3] BIEN et Perval sont des bases de données qui, comme DVF, recensent les informations sur les transactions immobilières du territoire français (BIEN pour l’Île-de-France, Perval pour le reste du territoire). Elles sont gérées et alimentées par les Notaires.

[4] : Deux bases de données, aucune référence de prix. Laure Casanova Enault, Guilhem Boulay, Yann Gérard, Lisa Yahi

[5] : Dans l’exemple de la vente d’une maison et d’une dépendance, BIEN considérera la dépendance comme un attribut du bien principal, la maison. Il y aura une ligne pour les deux biens avec le prix correspondant. Par contre, dans le cas des deux appartements, les deux biens seront considérés comme biens principaux, cela aboutira à deux lignes dans BIEN avec pour chaque bien une hypothèse de prix.

Rédaction : Mathieu Chevallier, Data Analyst, Spallian

Open Data et prix des logements : analyse comparative des indicateurs Cerema et Notaires

Démarche et résultats de l’analyse comparative

Comment expliquer ces différences de prix ?

Qui croire dans tout ça ?

Written by SPALLIAN