Projet de recherche en résidence au BnF DataLab

Call illustration

La BnF et son partenaire l’IR* Huma-Num lancent leur quatrième appel à projet DataLab.

Le BnF DataLab est un service d’assistance et d’accompagnement à la recherche mis en place par la BnF, en partenariat avec l’Infrastructure de Recherche (IR*) Huma-Num, pour accueillir dans des espaces spécialement aménagés à cet effet des chercheurs souhaitant exploiter à grande échelle les collections numériques de la BnF à l’aide d’outils de traitement et d’analyse automatisés. Ces collections représentent une masse importante de documents et de données d’une grande diversité, tant par leur forme et leur contenu : collections numérisées dans Gallica et Gallica intra muros, archives du web, documents nés-numériques, métadonnées bibliographiques, jeux vidéo, documents sonores ou vidéos, documents multimédias, etc. En application du code du Patrimoine, les collections issues du dépôt légal soumises au droit d’auteur  (archives de l’internet, documents de Gallica intra muros, autres documents numériques « récents[1]»…) ne sont consultables que dans les emprises de la BnF.

La fouille des collections non libres de droit implique des traitements informatiques sur place, réalisés et conservés dans un environnement sécurisé non accessible à distance.

L‘objectif du présent appel à projets est de permettre aux chercheurs, à titre individuel ou collectif, de bénéficier d’un accueil en résidence au BnF DataLab, sur le site François-Mitterrand à Paris, afin de profiter des services proposés par la BnF et l’IR* Huma-Num (services informatiques, accompagnement, communautés scientifiques nationales et internationales)  ainsi que, le cas échéant, d’une aide financière.

Les enjeux de l’appel sont doubles :

  • encourager des projets innovants de recherche de fouille de textes et de données portant obligatoirement sur les collections numériques de la BnF ;
  • permettre à la BnF de mieux cerner les pratiques numériques de recherche autour de ces collections et approfondir son expertise pour développer ou parfaire les outils qu’elle met à disposition. À ce titre, il est attendu des chercheurs une présence effective au DataLab pendant toute la durée du projet.

Les projets proposés devront impérativement porter sur les collections numériques de la BnF et faire appel à des méthodes et outils de traitement comportant une problématique de recherche originale ainsi qu’un enjeu de traitement quantitatif et / ou un défi technologique dans l’exploitation de textes et données.

En complément des recherches qu’ils mèneront au BnF DataLab, les chercheurs accueillis participeront au programme d’activités scientifiques et pédagogiques du BnF DataLab sous forme d’échanges et de rencontres : atelier de retour d’expérience, séminaire, journée d’étude….

[1] En règle générale et sauf exceptions, une œuvre est protégée au titre du droit d’auteur pour une durée d’au moins 70 ans après le décès de son auteur. Avant cette date, elle peut faire l’objet d’une reproduction sous réserve de l’accord des auteurs ou de ses ayants droit ou de l’éditeur d’un site web. 

Description des services du BnF DataLab dont pourront bénéficier les projets retenus

Le recours aux services sera précisément défini entre l’équipe du BnF DataLab et le responsable de chaque projet, une fois celui-ci sélectionné par le jury.

Les espaces aménagés dans la bibliothèque de recherche du site François-Mitterrand permettent aux chercheurs de travailler in situsur des documents numériques de la BnF.

L’occupation des espaces du BnF DataLab permet :

  • de réserver des salles de groupe de 4 à 8 places
  • d’accéder à des box individuels de travail équipés d’un poste informatique et de deux écrans
  • d’accéder aux services numériques dédiés au stockage, traitements, calcul et valorisation des infrastructures de la BnF ou d’Huma-Num, en fonction de l’analyse des besoins du projet
  • de bénéficier d’une salle de formation et d’un espace de valorisation.

NB : en fonction des besoins, l’environnement de travail informatique pourra être enrichi des outils utilisés par les chercheurs, après validation de la faisabilité par la BnF.

L’accompagnement et le suivi de projet de la BnF et d’Huma-Num consistent en :

  • une aide à la constitution de corpus : assistance bibliographique, aide pour l’extraction de corpus web et/ou pour l’extraction de données, métadonnées et/ou de documents
  • une assistance des experts BnF et des ingénieurs d’Huma-Num : conseils sur les traitements à opérer et les outils à utiliser, aide à l’installation d’outils
  • des formations : utilisation des outils de recherche bibliographiques, utilisation des API BnF, présentation des formats bibliographiques
  • en accord avec son équipe technique, un accès aux services spécifiques d’Huma-Num, notamment : dépôt accompagné dans l’entrepôt Nakala, accès à un serveur GPU pour traitement de corpus, accompagnement technique et opérationnel pour la diffusion et l’exposition des données (Nakala Press, site web), référencement dans Isidore.science…

Dans le cadre de l’appel à projets, un financement d’un maximum de 20 000 € peut être accordé en lien avec les besoins de l’équipe de recherche accueillie au BnF DataLab (exemples : recrutement d’un ingénieur pour l’utilisation de l’infrastructure mise à disposition, recours à des prestations techniques nécessaires à des traitements…).

Types de projets visés par le présent appel

  • Le projet doit comporter un clair enjeu scientifique de traitement et d’analyse des collections numériques de la BnF. Dans sa réponse, l’équipe de recherche devra démontrer son aptitude à mettre en œuvre les méthodes et outils de traitement envisagés.
  • Les projets proposés peuvent permettre d’amorcer une recherche nouvelle ou de compléter un programme déjà existant.
  • Un lien fort et démontré des projets avec les missions du BnF DataLab et la confirmation d’une présence régulière des chercheurs dans les espaces du DataLab pour mener leurs travaux de recherche.
  • Une durée minimale de 12 mois et maximale de 18 mois.

Préconisations méthodologiques

Tout en précisant les enjeux scientifiques, les projets soumis à l’appel devront respecter les obligations suivantes :

  • porter obligatoirement sur les collections numériques de la BnF (Archives de l’internet, Gallica, métadonnées, documents audiovisuels, ressources électroniques…) ou sur celles de partenaires intégrées dans Gallica ; prendre en compte les questions de protection des données personnelles et les droits de propriété intellectuelle qu’imposent certains types de données ou de corpus BnF
  • porter attention aux problématiques de recherche des Consortiums de l’Infrastructure de Recherche Huma-Num
  • proposer des corpus, des méthodes ou des outils d’analyse originaux présentant un intérêt pour une communauté bien identifiée et livrer des résultats ou des outils d’aide à la recherche utiles et librement accessibles à cette communauté
  • présenter les étapes de traitement des collections en détaillant les scénarios d’accès aux sources, corpus et données, leurs modes de constitution, de traitement et de conservation (pendant voire après la durée du projet si souhait de conservation des données utilisées lors de la recherche)
  • s’engager sur un résultat final sur la base d’une description précise du ou des livrable(s) prévu(s) et d’un planning détaillé permettant de le(s) réaliser
  • s’engager sur une présence effective et régulière des chercheurs sur toute la durée de la recherche dans les locaux du BnF DataLab (à chiffrer dans la proposition) pour mener leurs travaux de recherche et participer à la vie et à l’animation scientifiques du BnF DataLab à travers, par exemple, des ateliers, des formations ou tout autre dispositif innovant (à décrire dans la proposition)
  • s’engager à animer un atelier de retour d’expérience sur la recherche conduite au BnF DataLab et participer aux actions collectives de restitution organisées par l’équipe du DataLab
  • prévoir des formes de valorisation de la recherche (carnets de recherche, publications scientifiques dont des data papers qui peuvent être produits en collaboration avec le DataLab, communications lors de colloques, journées d’études, séminaires…)

Collections et ensembles de données

Les candidats peuvent proposer tout sujet de recherche qui rentre dans le cadre des objectifs de l’appel, des missions du BnF DataLab et des préconisations méthodologiques. Une description de différents ensembles numériques de la BnF qui peuvent faire l’objet des analyses est donnée sur le site de la BnF :

  • Gallica ou Gallica intra muros
  • Archives de l’internet
  • Collections numériques du département Son, Vidéo, Multimédia
  • Les métadonnées de la BnF

Les équipes de recherche sont encouragées à contacter la BnF en amont du dépôt pour poser toute question sur leur projet. Merci de contacter datalab@bnf.fr

Résultats et reversement des outils produits dans le cadre de la recherche

Dans le cadre de la politique pour la science ouverte formalisée dans le Plan national pour la Science Ouverte, les réalisations produites dans le cadre de cet appel à projet pourront être valorisées et mises à disposition des communautés de chercheurs souhaitant réutiliser les applications, les scripts et les corpus utilisés. Ces réalisations pourront rejoindre, sous réserve de validation, la boîte à outils du BnF DataLab et les services de l’IR* Huma-Num.

Modalités de soumission

Le responsable du projet doit remplir le formulaire joint à l’appel qui contient les éléments suivants :

  • Description du projet : sujet, objectifs, livrables
  • Détails de la mise en œuvre et des services du BnF DataLab sollicités
  • Présentation du lien avec les missions du BnF DataLab
  • Pistes de valorisation
  • Budget demandé (hors valorisation des espaces, services et expertises mis à disposition par le BnF DataLab) et, le cas échéant, profils des postes à financer
  • CV du responsable du projet
  • Lettre d’engagement de l’établissement porteur du projet

Le dossier complet doit être envoyé sous forme d’un fichier PDF unique par courriel à l’adresse datalab@bnf.fr

Les dossiers doivent être reçus par voie électronique au plus tard le 27 septembre 2024 (17h), délai et heure de rigueur. Un accusé de réception sera adressé au responsable du projet pour chaque dossier déposé. La BnF décline toute responsabilité pour des dossiers non reçus pour cause de problèmes techniques.

Institution
Date de candidature
Durée
12-18 mois
Discipline
Humanities
Social sciences