Déposer ses données

Dans le cadre des projets ANR ou européens, et de plus en plus largement, il est demandé aux chercheurs et aux équipes de recherche de préparer des plans de gestion des données. Les plateformes universitaires de données (PUD) ont vocation à les accompagner sur ce versant de montage, mais aussi tout au long de la réalisation des enquêtes.

PROGEDO via son portail « Quetelet-PROGEDO-Diffusion » a vocation à diffuser les données issues de la statistique publique nationale et de grandes enquêtes provenant de la recherche française. De façon complémentaire, les PUD ont parmi leurs objectifs d’accompagner, au niveau local, les chercheurs et équipes de recherche dans la chaîne de gestion des données produites en sciences humaines et sociales.

Le plan de gestion des données

Le plan de gestion des données est avant tout un document de type administratif assez court qui décrit la manière dont un projet de recherche va produire, archiver et diffuser ses données.

Néanmoins, ce document administratif permet de formaliser et décrire la manière dont le projet va gérer ses données. De ce point de vue, il a une importance capitale dans la réussite du projet.

Pour élaborer un plan de gestion de données, les porteurs de projet doivent avoir réfléchi aux dimensions juridiques et éthiques de la production de leurs données, mais aussi aux conditions techniques de leur stockage, de leur archivage et de leur diffusion.

Le plan de gestion des données ne constitue donc qu’une partie d’une chaîne de gestion des données d’un projet.

Pour en savoir plus on peut consulter le document élaboré par le Collège de France et se former avec les outils proposés par Doranum (CNRS/URFIST).

La chaîne de gestion des données

On peut envisager qu’un projet produisant des données soit composé de plusieurs actions qui constituent finalement une chaîne.

La première action consiste à définir les conditions éthiques et juridiques de production de la donnée. Celles-ci varient évidemment selon les données produites. Concrètement, cette phase passe en France a minima par l’accord des tutelles des porteurs de projet qui seules peuvent prendre la responsabilité juridique de la collecte de données. Chaque institution a un délégué à la protection des données (on utilise souvent le sigle DPO pour le désigner). Le chercheur qui collecterait des données sans en avoir référé à son institution ne serait pas protégé juridiquement. Pour certaines données sensibles (données de santé par exemple), l’accord d’autres institutions peut être nécessaire.

La seconde action concerne le stockage des données durant leur production. Il s’agit d’une opération technique qui n’a pas forcément vocation à être durable, contrairement à l’archivage. Elle sera le support de la diffusion des données

L’archivage renvoie à l’idée d’un stockage durable des données et est donc indépendant de la diffusion, même s’il peut lui être lié. La notion d’archivage pérenne est encore un peu plus spécifique et renvoie à un archivage conçu pour pouvoir véritablement durer à très long terme. En France dans le domaine des données numériques, l’archivage pérenne est assuré par le CINES. La TGIR Huma-Num propose à la communauté des producteurs de données numériques en Sciences Humaines et Sociales un service d’archivage à long terme qui repose sur les services du CINES.

L’action de diffusion des données consiste à mettre à disposition du plus grand nombre des données produites et s’inscrit dans le processus d’open data, qui vise à rendre accessible librement à tous les citoyens les données numériques produites. Cette démarche reste néanmoins limitée par la sensibilité des données produites, qui doivent respecter des critères d’anonymat notamment. Cette démarche s’inscrit dans une démarche plus générale d’open science, dont l’objectif est rendre la science plus transparente. Concrètement, cela signifie que la diffusion des données doit être envisagée même si ce n’est pas possible par l’open data. En France, la TGIR PROGEDO, à travers ses dispositifs CASD (Centre d’accès Sécurisé aux Données) et ADISP (Archives des Données Issues de la Statistique Publique), met à disposition des chercheurs des données qui ne sont pas accessibles en open data. Le CASD permet, par le truchement d’une bulle informatique sécurisée, l’accès à toute sorte de données (dont des données non anonymes et/ou permettant de lever l’anonymat). L’ADISP permet un accès plus facile à des bases données moins sensibles mais qui ne peuvent être diffuser publiquement (données pseudonymisées, données commerciales mises à disposition des chercheurs).

Le plan de gestion des données décrira l’ensemble de ces actions en répondant à un certain nombre de questions. L’INIST a mis en place des plans de gestion des données type (Opidor), pour répondre aux exigences des financeurs tels que l’Union Européenne, l’ANR ou autre. Il existe d’autre part des plans de gestion des données types mis en place par certaines universités. Il convient donc de se renseigner avant de l’établir. On notera toutefois qu’il n’y a pas, à notre connaissance, d’obligation légale à utiliser un plan ou un autre et que tous restent assez semblables, puisqu’il s’agit au final de décrire la chaîne de gestion des données.

Protocole pour la mise en place d’une chaîne de gestion des données dans le cadre des dispositifs PROGEDO

L’équipe de recherche intégrera, de préférence dès le montage de son projet (c’est-à-dire en amont de son dépôt), cette dimension grâce à l’accompagnement de la PUD référente au niveau local.

On peut estimer les grandes opérations de la sorte :

  • Conception, en amont de la réalisation du projet, du protocole de sauvegarde/diffusion en fonction des données produites (Quanti/Quali ; à diffuser immédiatement/sous embargo ; diffusion libre/réservée aux chercheurs ; etc.).
  • Acceptation par le référent scientifique de la PUD du portage par la PUD. Cette étape aura tout intérêt à être validée en accord avec PROGEDO pour permettre sa diffusion ultérieure vie le portail Quetelet-PROGEDO-Diffusion.
  • Préparation des données pour leur archivage (documentation des métadonnées)
  • Diffusion via le portail Quetelet-PROGEDO-Diffusion, après accord de PROGEDO lorsque l’enquête apporte les garanties statistiques nécessaires.

Condition spécifiques d’archivage et diffusion via le portail Quetelet-PROGEDO-Diffusion

Le portail Quetelet-PROGEDO-Diffusion diffuse les enquêtes et bases de données intéressant les sciences sociales documentées par le service enquête de l’INED, le CDSP (enquête quantitatives et dispositif BeQuali) et l’ADISP-PROGEDO.

La diffusion de données hébergées dans ces institutions répond donc à des règles qui leur sont spécifiques. Il convient donc de les contacter en amont pour envisager le niveau d’exigence requis (représentativité, qualité de l’échantillonnage, etc.)  pour accéder à leur hébergement et à la diffusion via le portail Quetelet-PROGEDO-Diffusion et obtenir un accord explicite.

Les PUD sont là pour accompagner les porteurs de projet à atteindre les niveaux de qualité statistique nécessaire à la diffusion des données d’enquête et faire le lien avec les équipes participant au portail Quetelet-PROGEDO-Diffusion.