[Science ouverte] Les belles histoires de la science ouverte
Le site Ouvrirlascience.fr continue en partenariat avec The Conversation France la série « Les belles histoires de la science ouverte ».
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.
Comment la science ouverte peut s’inspirer du libre accès aux données publiques
Traduit de l’anglais par Damien Allo pour Fast ForWord.Cet article fait partie de la série « Les belles histoires de la science ouverte » publiée avec le soutien du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation.
Stefaan G. Verhulst, Co-Founder and Chief Research and Development Officer of the Governance Laboratory (GovLab), New York University; Andrew J. Zahuranec, Research Fellow, The GovLab et Andrew Young, Knowledge director, the Governance Lab, New York University
Il y a 19 ans, un groupe de chercheurs internationaux s’est donné rendez-vous à Budapest pour discuter d’un problème tenace : malgré l’énorme quantité de travaux scientifiques et universitaires publiés, la plupart demeuraient inaccessibles. Les études réalisées restaient soumises à l’accès payant imposé par les revues spécialisées. De fait, les chercheurs avaient bien du mal à partager leurs découvertes et ne pouvaient pas s’appuyer sur leurs travaux respectifs pour en faire de nouvelles. Pour remédier à cette situation, le groupe a lancé l’initiative de Budapest, afin de promouvoir l’accès libre et gratuit aux revues scientifiques dans tous les domaines de recherche.
Depuis lors, le libre accès est devenu une priorité pour un nombre croissant d’universités, d’organismes publics et de revues.
Mais si l’accès aux _ publications_ scientifiques s’est amélioré, l’accès aux données (data) sur lesquelles reposent les études reste encore très limité. Les chercheurs sont désormais davantage au courant des travaux de leurs pairs, mais ils ne peuvent pas accéder aux données nécessaires pour en reproduire les résultats ou les analyser afin d’aboutir à de nouvelles conclusions, alors que notre époque se caractérise par un déficit de reproductibilité. Il existe parfois de bonnes raisons de restreindre l’accès aux données – pour en protéger le caractère confidentiel ou sensible, par exemple – mais dans bien des cas, la thésaurisation des données prévaut toujours.
Pour rendre les données scientifiques accessibles aux chercheurs comme aux simples citoyens, les partisans de la cause ont tout intérêt à s’inspirer des efforts fournis en ce sens dans d’autres contextes.
L’examen de l’évolution du mouvement en faveur du libre accès aux données publiques peut en effet permettre aux chercheurs de cerner les lacunes des approches en vigueur et de trouver les moyens de s’en affranchir.
Les trois grandes phases de l’ouverture des données publiques
S’il a fallu attendre 1995 pour entendre parler d’open data, le mouvement en faveur du libre accès aux données publiques est apparu bien plus tôt. Puisant leurs origines dans la législation sur la liberté d’information du milieu du XXe siècle, les données ouvertes sont nées de la volonté de faire évoluer les pratiques en matière de transparence et d’accessibilité. Cette approche, qui s’inscrit dans le cadre de la « première phase de l’histoire des données ouvertes », était principalement axée sur la divulgation suite à des demandes spécifiques. Malgré tout son intérêt, son impact est resté limité. Elle a surtout profité aux journalistes, aux avocats et aux militants, c’est-à-dire à ceux qui bénéficiaient du temps, des ressources et des compétences nécessaires pour adresser régulièrement des requêtes spécifiques aux autorités.
Dans les années 2000, lorsque nous sommes entrés dans l’ère du Web 2.0, de nouvelles approches ont vu le jour. On s’est alors mis à envisager le processus d’ouverture des données publiques non seulement comme un moyen d’assurer la transparence, mais aussi comme un facteur d’amélioration du fonctionnement des gouvernements. Cette deuxième phase était donc principalement axée sur la recherche de solutions.
Comme l’a fait remarquer Beth Noveck, ex-directrice adjointe des techniques informatiques chargée de la transparence des affaires publiques dans l’administration Obama :
« Il ne s’agissait pas seulement de garantir la transparence. Le simple fait de divulguer des données ne change rien au fonctionnement de l’État. Cela ne suffit pas à améliorer les conditions de vie ou apporter des solutions, et cela ne change aucunement la façon dont sont gérées les affaires publiques. […] L’accès aux données ne garantit pas non plus le niveau de responsabilité auquel nous pourrions prétendre en passant à l’étape suivante, qui consiste à associer la participation et la collaboration au principe de transparence afin de transformer notre façon de travailler. »
Cette nouvelle conception a permis à un plus large public de tirer profit des données publiques mises à disposition des acteurs de la technologie civique, des gouvernements et des entreprises, indépendamment de leur taille. Les Américains, par exemple, ont utilisé des bases de données publiques libres d’accès pour dénoncer les pratiques abusives de la police new-yorkaise en matière de verbalisation. Au Brésil, des données ouvertes ont largement contribué aux efforts de lutte contre la corruption. Au Ghana, l’accès aux données a permis aux petits exploitants de vendre leurs produits à meilleur prix.
Cette approche présentait toutefois, elle aussi, un certain nombre d’inconvénients. Bien souvent, des données ont été rendues accessibles sans que l’on sache vraiment quelle en serait l’utilité, ce qui s’est traduit par d’importants volumes d’informations se rapportant à des questions sans grand intérêt pour le plus grand nombre. Par ailleurs, cette volonté de mise à disposition des données a bien souvent participé au renforcement de capacités déjà établies, favorisant ainsi les grandes institutions (comme les autorités nationales) par rapport aux entités plus modestes et moins bien dotées en ressources (comme les collectivités locales).
Face à ces lacunes, une troisième phase s’est peu à peu dessinée. Celle-ci consiste à amener les détenteurs de données de tous les secteurs d’activité et de toutes les régions à adopter une approche ciblée, afin de rendre les données accessibles aux associations, ONG, chercheurs et petites entreprises, au niveau local. Il ne s’agit donc plus de se contenter de procéder au partage des données par pur principe mais de tirer profit des synergies en vue de réexploiter les ressources susceptibles d’entraîner des effets positifs.
En accordant autant d’importance à la demande qu’à l’offre, cette approche tient compte dans sa globalité de l’environnement dans lequel les données sont produites et exploitées. L’objectif consiste par ailleurs à déterminer dans quelle mesure celles des entreprises et d’autres acteurs concernés peuvent enrichir, par le biais de la coopération, celles dont disposent les autorités publiques.
Cette façon d’appréhender la question des données est encore toute récente, mais on la retrouve déjà dans bon nombre des stratégies adoptées dans le cadre de la lutte contre la Covid-19, lesquelles ont largement fait appel à la collaboration. Des initiatives telles que le NYC Recovery Data Partnership ont ainsi mis en commun, à l’échelle locale, des données publiques et privées pour répondre aux besoins des citoyens.
Si le mouvement en faveur de l’accès aux données publiques en est venu à adopter des méthodes collaboratives axées sur la demande, la même évolution est envisageable pour les données scientifiques.
En prenant conscience de l’intérêt qu’il y a à ne pas se contenter d’échanger avec leurs interlocuteurs habituels, les adeptes d’une telle approche seront en mesure de mener des travaux novateurs sur des questions urgentes dans leurs domaines respectifs, tout en permettant à des spécialistes d’autres disciplines de s’appuyer sur leurs conclusions.
Par où commencer ?
Les partisans du partage des données scientifiques peuvent tirer des enseignements du mouvement en faveur de l’accès aux données publiques. Comme on le voit depuis 30 ans, l’ouverture des données doit reposer sur une démarche cohérente aux yeux des chercheurs, des fournisseurs de données et des intermédiaires, de façon à mettre en place un écosystème propice à la collaboration. Il faut que les entités concernées se mobilisent concrètement en faveur de ladite ouverture.
Il ne sera pas évident d’y parvenir, mais les recherches que nous avons menées au GovLab nous ont permis de dégager un certain nombre de mesures que les intéressés peuvent prendre en faveur de cet écosystème. Comme nous l’indiquons dans notre récent rapport, « The Third Wave of Open Data », les données ouvertes peuvent connaître un véritable essor, pour peu que chaque partie prenante s’emploie à :
- Renforcer et mieux répartir les capacités institutionnelles liées aux données : dans le secteur public, les capacités en matière de données scientifiques se limitent bien souvent à de petites équipes au sein des organismes. Les projets d’exploitation de données y sont donc généralement menés de façon ponctuelle et isolée, sous forme de travaux spécifiques à un domaine ou une spécialité. À l’instar des organes publics qui ont adopté les principes de la troisième phase, les promoteurs du partage des données de recherche peuvent s’employer à instaurer une culture d’apprentissage au sein de leurs institutions, en encourageant le perfectionnement professionnel et les programmes de formation qui incitent les chercheurs, quel que soit leur rang, à (ré)exploiter des données dans le cadre de leurs activités courantes.
- Exposer les avantages et constituer une base factuelle concernant les retombées : au cours des premières phases du mouvement en faveur de l’accès aux données publiques, les défenseurs de la cause commençaient et terminaient souvent leur campagne en insistant sur les principes de transparence ou de responsabilité. Bien qu’ils soient tout à fait recevables, ces arguments ne parvenaient pas toujours à convaincre les agents publics ou les simples citoyens qui, pour leur part, souhaitaient savoir en quoi les données ouvertes pouvaient concrètement améliorer leurs conditions de vie. Les partisans du partage des données scientifiques devraient par conséquent recenser des exemples d’utilisations précises et spécifiques de données ouvertes afin de montrer comment elles peuvent permettre d’améliorer les méthodes de recherche.
- Désigner de nouveaux intermédiaires dans le domaine des données : collaborer avec des organisations extérieures peut s’avérer coûteux en termes de temps, de ressources et d’efforts. Des organismes comme Open North, BrightHive et Data Ventures ont été créés pour y remédier. Ils aident les organes publics à entrer en contact avec des partenaires potentiels, en garantissant l’interopérabilité des données, en mettant à disposition des mécanismes de partage sécurisé des ressources, et en établissant des liens de confiance entre les parties. Des organismes analogues pourraient s’avérer utiles dans le domaine du partage des données scientifiques.
- Mettre en place des cadres de gouvernance et apporter des éclaircissements sur la réglementation : une récente étude du MIT a révélé que 64 % des dirigeants d’entreprise aux États-Unis hésitent à se prononcer en faveur des données ouvertes du fait des incertitudes liées à la législation. Cette statistique est révélatrice : bien que l’absence de réglementation soit souvent considérée comme un gage de flexibilité pour les sociétés, le manque de mesures relatives à la réutilisation des données conduit, au contraire, depuis des dizaines d’années à en limiter le partage. À l’instar d’institutions telles que l’Union européenne, qui se sont récemment employées à mettre au point des stratégies en faveur de la réutilisation des banques de données publiques et privées, les partisans du libre accès aux données scientifiques pourraient élaborer des politiques, plans et procédures du même type afin d’exposer leurs attentes en matière d’exploitation.
- Concevoir une infrastructure technique destinée à la réutilisation : dans de nombreux pays, les bases de données publiques sont mises à disposition au moyen de portails. Des sites tels que data.gov rassemblent divers corpus institutionnels et permettent aux utilisateurs de filtrer, rechercher, consulter et télécharger les données. Pour que cette approche puisse être appliquée aux données scientifiques ouvertes, il faudra vraisemblablement mettre à disposition des utilisateurs et des fournisseurs de données une nouvelle interface technique afin d’améliorer les capacités institutionnelles. Comme l’a fait valoir John Wilbanks de Sage Bionetworks, il faudrait que les institutions trouvent des solutions pour subvenir aux besoins informatiques des utilisateurs et des populations cibles, en particulier dans les domaines où les bases de données sont très volumineuses et complexes.
- Renforcer les compétences du grand public en matière de données : dans des pays comme Taïwan, les défenseurs du libre accès aux données publiques se sont employés à renforcer ces compétences. Selon eux, chacun devrait pouvoir prendre pleinement part aux initiatives menées dans ce domaine, non seulement en tant que bénéficiaire de solutions basées sur les données et susceptibles d’améliorer ses conditions de vie, mais aussi en tant que producteur desdites données. Afin d’encourager la participation du plus grand nombre à la recherche scientifique et de susciter des applications inédites et innovantes dans le domaine des données, les tenants du partage des données scientifiques doivent trouver des moyens de mobiliser le grand public, en organisant par exemple des concours de recherche et des projets participatifs.
- Assurer le suivi et le contrôle des décisions se rapportant aux données et préciser d’où elles émanent : la détermination de l’origine des décisions consiste à recenser les centres de décision qui exercent un rôle dans le cadre du recueil, du traitement, du partage, de l’analyse et de la réutilisation des données, de façon à savoir qui exerce une influence en la matière. Comme les acteurs de la troisième phase l’ont constaté, il est indispensable d’identifier ces centres de décision pour recenser au plus tôt leurs lacunes et leurs biais, susceptibles de compromettre les objectifs d’un projet. Les spécialistes des données scientifiques ouvertes pourraient ainsi élaborer des mécanismes permettant aux utilisateurs de savoir dans quel contexte les données ont été recueillies et quels problèmes sont susceptibles de se poser en cas de mauvaise utilisation.
- Désigner des responsables et leur donner les moyens d’agir : rappelons pour terminer qu’un des aspects essentiels des efforts accomplis en faveur du libre accès aux données publiques dans le cadre de la troisième phase était la reconnaissance du fait que le partage des données et la collaboration qui en découle doivent être encadrés par des responsables chargés d’en assurer la promotion. Il leur incombe de recenser les possibilités de partage et de chercher de nouveaux moyens de servir l’intérêt général, comme c’est déjà le cas dans un certain nombre d’institutions du secteur public, d’organisations de la société civile et d’entreprises. Afin d’accélérer la désignation de responsables au sein des centres de recherche, les partisans des données scientifiques ouvertes pourraient mettre sur pied des programmes de formation et des réseaux professionnels visant à renforcer les compétences en matière de gestion des données.
Un accès toujours plus large
Près de 20 ans après l’initiative de Budapest en faveur de l’accès libre, notre façon d’appréhender les données scientifiques a profondément changé. À l’aube d’une nouvelle décennie, ces évolutions doivent se poursuivre, pour peu qu’elles soient guidées par la volonté d’assurer un accès toujours plus large.
Au GovLab, nous encourageons les chercheurs, les institutions et les autres parties prenantes à prendre exemple sur le mouvement de l’ouverture des données publiques, afin de transformer leurs méthodes de travail. En apprenant les uns des autres et en s’inspirant des pratiques de chacun, le libre accès aux données de recherche peut devenir une réalité dans tous les domaines.
Comment la science ouverte peut s’inspirer du libre accès aux données publiques