« Il manque des données pour analyser les inégalités », vraiment ?
1er juin 2026 , ,
« Nous manquons de données ». Cette affirmation est régulièrement tenue par des chercheurs, associations ou administrations, dans l’idée que les données dont nous disposons actuellement sont insuffisantes pour connaître avec assez de précision différents phénomènes dans notre société, et par voie de conséquence pour administrer correctement la cité et établir des politiques publiques adéquates, notamment de logement, de santé ou d’emploi…

Cela pourrait paraître étonnant venant de chercheurs, mais nous ne sommes pas d’accord avec cette idée d’un manque de données. D’une part, nous disposons déjà d’une grande quantité de données, et ce sur de nombreux domaines [1]. D’autre part, récolter toujours plus de données pose des problèmes notables. Dans cet article, nous soutenons que ces problèmes doivent être considérés sérieusement, et que ceux-ci sont parfois (souvent ?) plus importants que les gains issus de la disponibilité de nouvelles données.
Récolter des données n’est pas toujours approprié
De quelles données parle-t-on ?
Paradoxalement, le discours selon lequel « il manque des données » est assez ambigu concernant l’usage des données à collecter et la nature de celles-ci. Concernant l’usage des données, on peut distinguer un usage scientifique d’un usage administratif. L’usage scientifique vise à mieux comprendre les phénomènes sociaux et économiques. Par exemple, on peut chercher à savoir ce que deviennent les personnes en fin de droit de chômage pour comprendre les mécanismes sociaux sous-tendant leur trajectoire. L’usage administratif a, quant à lui, avant tout un objectif de gestion, en identifiant des personnes que l’on cherche à aider, contrôler, etc. Par exemple, on peut chercher à identifier les personnes en fin de droit de chômage pour leur proposer une aide du CPAS ou une formation.
Ces deux usages nécessitent des données de natures différentes. Pour un usage scientifique, des données exhaustives ne sont généralement pas nécessaires : on peut tout à fait travailler sur un échantillon représentatif produit sur la base d’une enquête. Dans ce cadre, les données sont anonymisées pour garantir la vie privée des personnes et parce que le chercheur n’a pas besoin de savoir le nom ou l’adresse des personnes qu’il étudie. Les données à usage scientifique ne peuvent normalement pas être utilisées dans un but administratif, car les données elles-mêmes ont été obtenues à la condition de ne pas être réutilisées à d’autres fins. Par exemple, dans une enquête, les personnes sont plus susceptibles de répondre honnêtement, parfois sur des sujets intimes ou des comportements répréhensibles, en raison de la confiance qu’elles accordent à l’enquêteur. Cette confiance est acquise en garantissant que ces données resteront anonymes. Par exemple, on ne peut pas s’attendre à ce qu’une personne donne des informations sur le revenu qu’elle perçoit d’un travail au noir si ces informations peuvent être réutilisées par l’administration fiscale ou sociale.
À l’inverse, un usage administratif nécessite de travailler sur un ensemble exhaustif – car on ne peut exclure personne –, et sur des données nominatives – car il est nécessaire de pouvoir contacter les personnes concernées. Les données administratives sont avant tout récoltées ou produites par des administrations dans un but de gestion. Elles peuvent être utilisées de manière secondaire à des fins scientifiques, bien que leur construction ne corresponde pas souvent à la définition conceptuelle dont le chercheur a besoin, notamment car elle est au centre d’enjeux sociaux. Par exemple, le revenu déclaré à l’administration fiscale a pour but de déterminer l’impôt. Ainsi, on peut avoir intérêt à ne pas déclarer l’entièreté de ses revenus pour minimiser ses impôts : on sait par exemple que les revenus des indépendants déclarés à l’administration fiscale sont inférieurs aux revenus que ceux-ci déclarent dans les enquêtes scientifiques [2]. Le concept fiscal de revenu ne comprend pas non plus toute une série de rentrées financières qui ne sont pas imposables : le revenu d’intégration sociale (versé par les CPAS), les allocations familiales, etc. Au contraire, les données d’enquêtes récoltées dans un but de recherche scientifique ont l’avantage de pouvoir mesurer plus adéquatement les concepts. Par exemple, on peut inclure toutes les recettes financières dans des questions portant sur les revenus, même ceux non déclarés aux administrations.
Le discours général sur le manque de données est rarement précis et confond souvent les finalités scientifique et administrative. En outre, il ne pose presque jamais la question de « qui doit avoir accès aux données ? ». Il s’agit souvent d’un discours vague d’inspiration technocratique : plus « on » a de données, plus « on » sait et mieux c’est. Or, les acteurs sont divers et selon qui est ce « on », ce qu’on fera avec les données sera différent : les administrations fédérales ? les administrations régionales ? les communes ? les instituts de statistiques ? les universités ? les journalistes ? les entreprises ? les syndicats ? la justice ? la police ? l’armée ? la sûreté de l’État ?
Si nous prenons le temps d’expliquer la différence entre les données à usage scientifique ou administratif, c’est parce que le discours selon lequel « il manque des données » porte souvent sur les données administratives de différents services (para)publics. Or, ces services n’ayant pas pour mission première d’encoder des données, demander de récolter de nouvelles données dans ces services pose souvent des problèmes en termes de conditions de travail pour les personnes qui récoltent ces données et de confidentialité pour les personnes dont on récolte les données. Voici deux exemples illustrant ces problèmes.
Exemple 1 : connaître le nombre de logements vides en Belgique
Il est un fait que l’on ne connaît pas le nombre exact de logements en Belgique, ni leur statut d’occupation. Cela est souvent évoqué comme un problème pour lutter contre les logements vides. En effet, mieux connaître et identifier les logements vides permettrait de mettre en place des politiques visant à occuper ces logements et ainsi lutter contre la crise du logement. On observe déjà ici une ambiguïté potentielle : parle-t-on ici d’une connaissance scientifique, dont l’objectif est de mieux comprendre le phénomène des logements vides (son ampleur, ses causes, etc.) ? ou d’une connaissance administrative pour identifier tous les logements vides afin de prendre des mesures (par exemple, contacter les propriétaires pour les inciter à louer leur bien, les pénaliser par une amende, etc.) ?
Cela peut sembler étonnant que l’information sur le caractère inoccupé d’un logement ne soit pas disponible au XXIe siècle, mais cela s’explique simplement. On peut facilement croiser les données du cadastre (source administrative qui permet de recenser les logements) avec celles du registre national pour identifier les logements où personne n’est domicilié à une certaine date.
Cependant, ces logements ne sont pas nécessairement « vides » tel qu’on l’entend habituellement, c’est-à-dire inoccupés et inutilisés de manière plus ou moins durable. Il peut aussi s’agir des situations suivantes : le logement est habité par des personnes qui ne s’y domicilient pas (étudiants, jeunes, sans-papiers), est utilisé de manière intermittente (seconde résidence, logement touristique…), est en travaux, temporairement inoccupé (entre deux ménages locataires), n’existe pas et provient d’une erreur d’encodage dans le cadastre… À l’inverse, certains logements (souvent occupés) ne sont pas enregistrés dans le cadastre : lorsqu’un propriétaire divise de fait son logement, sans permis. Toutes ces situations ne permettent pas d’identifier les logements vides qui pourraient être directement mobilisés pour lutter contre la crise du logement.
Pour recenser administrativement les logements vides en écartant les situations expliquées précédemment, on pourrait imaginer un nouveau dispositif permettant de récolter des informations exhaustives sur les logements et leur utilisation en Belgique. Cela demanderait néanmoins un travail très important et conduirait des « risques » non négligeables.
D’abord, ce dispositif devrait mobiliser de nombreux agents administratifs pour contrôler de manière accrue la situation des logements. Quand on sait que le cadastre dénombre plus de 5 millions et demi de logements en Belgique [3], on imagine l’ampleur de la tâche, et le budget qui serait nécessaire pour l’accomplir. Il faut noter que la situation d’occupation des logements évoluant constamment, il faudrait faire ce travail régulièrement.
Mais surtout, ce dénombrement ne serait pas sans risques d’un point de vue de la protection de la vie privée :
- Cela permettrait d’identifier les logements occupés par des publics fragilisés, par exemple des personnes sans-papiers. Si ce cadastre de données parvenait à la police ou à l’office des étrangers, cela pourrait avoir des conséquences dramatiques pour les personnes concernées. La question n’est pas anecdotique, puisqu’on estime le nombre de personnes sans papier à plus de 100 000 en Belgique [4]. Cela pourrait aussi avoir des conséquences problématiques pour d’autres situations : colocataires perdant le statut d’isolé au regard de la sécurité sociale, etc.
- Ce dénombrement serait particulièrement sensible aux questions du droit à la vie privée et de l’inviolabilité du domicile. Comment « gérer » les situations de personnes qui refuseraient qu’un agent administratif contrôle leur logement ? Parce que ce dénombrement ne serait pas réalisé dans le cadre d’une enquête statistique garantissant l’anonymat et la protection, il est évident que la confiance serait difficile à obtenir et que certaines personnes auraient intérêt à donner de « bonnes réponses » – c’est-à-dire des réponses erronées pour éviter des sanctions.
Exemple 2 : connaître le niveau socio-économique des patients des SSM
Nous présentons ci-dessous un autre cas qui met en lumière le fait que la récolte de données peut cette fois entrer en conflit avec les missions premières des services et des professionnels qui y travaillent. Nous prenons l’exemple des Services de Santé Mentale (SSM), qui sont des centres offrant des soins et accompagnements psychiatriques, psychologiques et sociaux, à des tarifs abordables [5]. Une question que l’on peut se poser est de savoir s’ils s’adressent bien à des publics précaires, s’agissant de services subventionnés.
Pour répondre à cette question, certains services ont implémenté, au début des années 2000, le dispositif « PsyStat », permettant de connaître des informations sur les patients qui consultent le service. Il s’agit d’un formulaire à remplir dans lequel il faut renseigner le diplôme, le statut socio-professionnel, la profession, le pays d’origine, les raisons de rencontre, le lieu de vie… de chaque nouveau patient.
Dans la plupart des cas, c’est le ou la thérapeute qui déduit ces informations à l’issue du premier entretien. Lorsque l’information n’est pas explicitement énoncée dans le cours naturel de l’entretien, il n’est pas rare que l’enregistrement se base sur des hypothèses. Par exemple, un thérapeute peut se dire : « Une patiente est plutôt disponible en journée pour un prochain rendez-vous, j’en déduis qu’elle ne travaille pas ».
Dans d’autres cas, c’est la secrétaire accueillante du service qui récolte l’information : l’interaction prend alors la forme d’un « interrogatoire » qui ne va pas de soi. On comprend bien que demander ce type d’informations à des personnes qui osent franchir le cap d’une demande d’aide psychologique peut paraître indélicat :
C’est délicat, il y a des gens qui ne comprennent pas pourquoi on demande ça, qui se tendent. Surtout la nationalité, le pays d’origine ou bien s’ils travaillent ou non. A minima ça questionne la personne, ça ne va pas de soi. (secrétaire accueillante, SSM à Bruxelles).
Du fait que cette récolte d’informations est périlleuse et potentiellement contradictoire avec la mission première des SSM, seulement une minorité des services bruxellois utilisent le dispositif « PsyStat ». En outre, au sein des services qui l’ont implémenté, le taux de complétion des formulaires est limité. De ce fait, si on regarde l’ensemble des patients que les SSM ont rencontrés entre 2013 et 2022 [6], une information existe au maximum pour 1 patient sur 5 :
| Info PsyStat disponible selon quelques dimensions (2013-2022) | |
|---|---|
| Dimension mesurée par PsyStat | Valeurs remplies (tous SSM étudiés) |
| Catégorie socio-professionnelle | 18% |
| Diplôme | 12.7% |
| Profession | 16.5% |
| Nationalité | 19.8% |
| Pays d’origine | 13.6% |
Si les données ne sont pas complétées, c’est notamment parce que la finalité du dispositif n’apparaît pas clairement aux SSM. Les services et thérapeutes devraient dépenser beaucoup de temps et d’énergie pour récolter des données précises dont ils ne savent pas précisément la destination, ni l’utilité. De fait, en 20 ans, peu de retours ont été faits à ce sujet par les autorités compétentes. Une des raisons pour lesquelles il n’y a pas d’analyse de ce type sur ces données est que la manière dont l’information est récoltée implique que sa fiabilité est faible. Si des leviers existent pour améliorer à l’avenir la qualité de ces données, il faut aussi reconnaître que, plus fondamentalement, récolter des données n’est pas (et ne devrait pas être) le rôle et la compétence premiers d’un thérapeute, et une consultation est un moment très peu approprié pour le faire.
Sortir du mythe technocratique ?
Nous ne disons évidemment pas que l’existence de données n’est pas utile ou nécessaire à des fins de compréhension de notre société et/ou d’action politique ; nous voulons simplement attirer l’attention sur le fait que produire des données a toujours un coût, et que celui-ci est régulièrement minimisé, voire ignoré. Demander aux personnels de services publics d’enregistrer de nouvelles données implique, si on met les tâches de récolte et d’encodage bout à bout, des centaines d’heures de travail, potentiellement détournées des missions initiales de ces services. Par ailleurs, ce sont d’autant plus de données individuelles qui sont mises en circulation dans des bases de données administratives et qui exposent les bénéficiaires à des risques accrus de divulgation d’informations sensibles. La mise en balance de ces différents éléments doit à notre sens se faire sérieusement.
Les risques dont nous parlons sont pourtant pris alors même qu’in fine, la qualité des données administratives n’est souvent pas satisfaisante pour la recherche. D’une part, ces données sont au centre d’enjeux, impliquant que l’information qu’elles contiennent ne reflète pas toujours la réalité. Revenons au premier exemple évoqué dans cet article : de nombreuses transformations de logements (dont des divisions de maisons unifamiliales en immeubles à appartement mis en location) ne sont pas déclarées par les propriétaires. Une des raisons de ces non-déclarations peut être d’éviter une majoration du revenu cadastral – et par conséquent des impôts fonciers (le précompte immobilier). Un dispositif hypothétique pour repérer les logements vides ne pourrait pas échapper à cet écueil. D’autre part, les personnes à qui l’on demande d’encoder de nouvelles données n’adhèrent pas forcément à ces demandes, surtout quand elles ajoutent un travail déconnecté de leur activité première, faisant que les données ne sont pas remplies comme les chercheurs attendraient qu’elles le soient. Le cas des SSM est à ce titre exemplatif, mais la situation est à notre connaissance similaire dans de nombreux services : crèches, services d’aide à la jeunesse, établissement d’enseignement, services sociaux, hôpitaux [7]… Et c’est bien normal, puisque ces espaces ont avant tout comme mission d’offrir un service, et pas d’encoder des données statistiques. Malgré cela, les données administratives sont généralement utilisées sans informations suffisantes sur le contexte de leur production, et les « biais » [8] sont souvent ignorés lorsqu’il s’agit de les utiliser pour la recherche scientifique.
Il faut aussi se rendre compte que nous connaissons aujourd’hui beaucoup de choses sur le fonctionnement de notre société ; le problème pour mener de « bonnes » politiques n’est, le plus souvent, pas le manque de connaissances. Les politiques publiques ne relèvent certainement pas que de questions techniques, notamment la récolte de données suffisamment précises pour guider vers la « bonne » manière de faire ; elles relèvent avant tout de principes politiques, c’est-à-dire de choix de société que l’on pose selon des grands principes directeurs. Autrement dit, on aura beau produire autant de données que l’on veut sur les inégalités, cela n’arrêtera pas un pouvoir politique qui n’a aucune ambition de les réduire. Et il n’est pas forcément nécessaire de savoir au dixième de pourcentage près la proportion de la population qui a du mal à se soigner pour décider des politiques de santé qui garantissent des soins accessibles.
C’est pourquoi nous nous opposons au « réflexe » aveugle invitant à produire toujours plus de données, des données plus fines, plus précises, plus locales, plus exhaustives, en particulier lorsqu’il s’agit de données administratives. Rappelons aussi l’intérêt des données d’enquêtes récoltées dans un but scientifique pour analyser les phénomènes sociaux et économiques. Ces données ne présentent pas les risques que nous avons identifiés dans cet article : d’une part, les personnels qui produisent ces données ont comme mission spécifique de produire ces données et de les analyser, garantissant de surcroît une certaine qualité ; d’autre part, ces données sont déconnectées du système administratif, minimisant largement les problèmes en matière de protection de la vie privée. De plus, il existe de nombreuses enquêtes de qualité, menées à des échelles régionales et nationales, produites à intervalles réguliers, qui peuvent renseigner sur de nombreuses thématiques (santé, logement, revenu, patrimoine…) [9]. Ces enquêtes sont généralement disponibles gratuitement à tous les chercheurs qui mènent un projet de recherche sur les différentes thématiques qu’elles abordent. Pourtant, ces données d’enquêtes sont largement sous-utilisées [10].
Nous avançons ainsi l’idée que ce qu’il manque surtout, ce ne sont pas des données, mais des analyses. Nous n’avons jamais eu accès à une aussi grande quantité de données, qu’elles proviennent d’enquêtes ou de dispositifs administratifs. Ce qui fait défaut, c’est sans doute des chercheurs qui ont le temps d’investiguer ces données, à la fois dans les services publics et les universités, et qui façonnent à partir d’elles des analyses accessibles.
Notes
[1] Lorsque nous parlons de « données », nous faisons référence à des données brutes portant sur des individus (par exemple leur sexe, leur revenu, leur profession, leur origine ethnique, etc.), et non à des analyses (dans des rapports, articles, études…) qui s’appuieraient sur des données brutes pour traiter une question ou une problématique.
[2] Voir : https://statbel.fgov.be/sites/default/files/files/documents/Analyse/FR/Analyse%20SILC-Donn%C3%A9es%20fiscales.pdf
[4] https://www.vrt.be/vrtnws/fr/2023/04/12/selon-une-estimation-de-la-vub-la-belgique-accueille-112-000-sa/
[5] Les observations qui suivent sont issues d’enquêtes de terrain menées par la Ligue Bruxelloise pour la Santé Mentale, et d’analyses conjointes menées avec l’Observatoire de la Santé et du Social à Bruxelles dans l’objectif d’investiguer les problèmes d’accessibilité aux services de santé mentale. Ces analyses feront l’objet d’une publication à la fin 2026.
[6] Cette analyse porte sur 21 des 27 antennes des SSM agréés par la COCOF dans la région bruxelloise.
[7] Par exemple, il n’existe pas d’information sur le temps d’attente aux différents services de soin en Belgique. Cette information serait utile, mais elle serait extrêmement difficile à produire. Dans une étude de faisabilité, le KCE fait remarquer, étant donné la charge de travail importante que cette production nécessiterait pour les professionnels de santé : « la mesure des temps d’attente n’a de valeur que par l’usage que l’on en fait. Le KCE souligne donc qu’il faut absolument évaluer et équilibrer le rapport entre le coût financier et humain de cette collecte d’information et la valeur ajoutée qu’elle peut générer. Il serait évidemment dommage de consacrer plus de ressources à mesurer la problématique qu’à y apporter des solutions. » Voir : https://kce.fgov.be/fr/temps-dattente-dans-les-soins-de-sante-comment-les-mesurer
[8] Nous indiquons « biais » entre guillemets car ce n’est un biais que pour les chercheurs. Prenons l’exemple des revenus fiscaux : l’administration fiscale n’enregistre que les revenus qui sont imposables, puisque le but est de déterminer l’impôt. De ce fait, tous les revenus non imposables (CPAS, allocations familiales…) ne se trouvent pas dans les données fiscales. Cela implique que, via ces données, on ne connaît pas les revenus des personnes qui bénéficient uniquement de ce type de revenu (ou d’aucun revenu). Elles sont potentiellement nombreuses dans certaines zones, par exemple 15 % à Bruxelles, atteignant parfois 40 % dans les quartiers pauvres. Mais en réalité, ce n’est pas un problème pour l’administration, dont l’objectif est de déterminer l’impôt. Ce n’est un problème que pour les chercheurs, qui aimeraient connaître tous les revenus, et qualifient alors les informations inconnues de « biais ».
[9] Entre autres : l’enquête EFT pour étudier l’emploi, l’enquête SILC pour étudier les conditions de vie et de logement, l’enquête HFCS pour mesurer le patrimoine mobilier et immobilier des belges, l’enquête HIS pour analyser les inégalités de santé en Belgique, l’enquête FCS pour comprendre les comportements alimentaires, l’enquête EWCS pour aborder les conditions de travail en Belgique, l’enquête SHARE pour investiguer les conditions de vie et de santé des âgés, l’enquête EU Survey on Immigrants and Descendants of Immigrants pour prendre la mesure des vécus de discrimination raciale, etc.
[10] Nous défendons bien entendu également l’importance de mener des enquêtes ad hoc sur des domaines pour lesquels il existe peu de données, permettant de produire des informations utiles tout en préservant au maximum la confidentialité des personnes interrogées et en évitant de faire travailler de nombreux agents administratifs dont ce n’est pas la mission première.

