Projet de recherche en résidence au BnF DataLab

Call illustration

La BnF et son partenaire l’IR* Huma-Num lancent leur troisième appel à projet DataLab.

Le BnF DataLab est un service d’assistance et d’accompagnement à la recherche mis en place par la BnF, en partenariat avec l’Infrastructure de Recherche (IR*) Huma-Num, pour l’accueil de chercheurs qui souhaitent exploiter les collections numériques de la BnF à l’aide d’outils de traitement à grande échelle et d’analyse automatisée. Ces collections représentent une masse considérable de documents d’une grande diversité, tant par leur forme et leur contenu : collections numérisées dans Gallica et Gallica intra muros, archives du web, documents nés-numériques, bases de données, métadonnées bibliographiques, jeux vidéo, documents sonores ou vidéos, documents multimédias, etc. En application du code du Patrimoine, les collections issues du dépôt légal soumises au droit d’auteur ne sont consultables et exploitables que dans les emprises de la BnF.

Les enjeux du présent appel à projets sont doubles :

  • encourager des projets de recherche de fouille de textes et de données sur les collections numériques de la BnF
  • permettre à la BnF de mieux cerner les pratiques de recherche autour de ces collections et approfondir son expertise pour développer ou parfaire les outils qu’elle met à disposition des chercheurs.

L‘appel invite des chercheurs, à titre individuel ou collectif, à déposer des projets nécessitant d’être accueillis dans le BnF DataLab afin de profiter d’un accompagnement personnalisé complété, le cas échéant, d’une aide financière.

Les projets proposés devront impérativement porter sur les collections numériques de la BnF et faire appel à des méthodes et outils de traitement comportant une problématique de recherche originale ainsi qu’une dimension quantitative ou un défi technologique dans l’exploitation de textes et données.

Les chercheurs accueillis participeront au programme d’activités scientifiques et pédagogiques du BnF DataLab. Les échanges entre chercheurs, ingénieurs et bibliothécaires prendront notamment la forme de rencontres (atelier, séminaire, journée d’étude…) et bénéficieront du soutien des communautés constituées autour de l’infrastructure Huma-Num (partenaires et Consortiums).

Description des services du BnF DataLab dont pourront bénéficier les projets retenus

Le recours aux services sera précisément défini entre l’équipe du BnF DataLab et le responsable de chaque projet, une fois celui-ci sélectionné par le jury.

L’accueil au BnF DataLab permet aux chercheurs de bénéficier de l’expertise de la BnF sur ses collections et de dispositifs individualisés d’accompagnement de la part des professionnels de BnF et d’Huma-Num.

Les espaces aménagés dans la bibliothèque de recherche du site François-Mitterrand permettent d’accueillir les chercheurs pour travailler in situ sur des documents numériques de la BnF, notamment ceux sous droits (archives de l’internet, documents de Gallica intra muros…) impliquant obligatoirement une consultation sur place.

L’occupation des espaces du BnF DataLab permet :

  • de réserver des salles de groupe de 4 à 8 places
  • d’accéder à des box individuels de travail équipés d’un poste informatique et de deux écrans
  • de disposer d’un espace serveur composé d’une machine virtuelle et d’un espace de stockage (infrastructure dédiée de la BnF ou d’Huma-Num). La machine virtuelle inclut un environnement Linux Ubuntu personnalisable.
  • de bénéficier d’une salle de formation et d’un espace de valorisation.

NB : en fonction des besoins, l’environnement de travail informatique pourra être enrichi des outils utilisés par les chercheurs, après validation de faisabilité par la BnF.

L’accompagnement et le suivi de projet de la BnF et d’Huma-Num consistent en :

  • une aide à la constitution de corpus : assistance bibliographique, aide pour l’extraction de corpus web et/ou pour l’extraction de données, métadonnées et/ou de documents
  • des formations : utilisation des outils de recherche bibliographiques, utilisation des API BnF, présentation des formats bibliographiques
  • une assistance des experts BnF et du personnel d’Huma-Num : conseils sur les traitements à opérer et les outils à utiliser, aide à l’installation d’outils
  • en accord avec l’équipe technique, un accès aux services spécifiques d’Huma-Num, notamment : dépôt accompagné dans l’entrepôt Nakala, accès à un serveur GPU pour traitement de corpus, accompagnement technique et opérationnel pour la diffusion et l’exposition des données (Nakala Press, site web), référencement dans Isidore.science…

Un financement peut être accordé dans le cadre de l’appel à projets en lien avec les besoins d’accueil de l’équipe de recherche dans le BnF DataLab. Exemples : recrutement d’un ingénieur pour l’utilisation de l’infrastructure mise à disposition, recours à des prestations techniques nécessaires à des traitements…

Types de projets visés par le présent appel

  • Le projet doit comporter un clair enjeu scientifique de traitement et d’analyse des collections numériques de la BnF. Dans sa réponse, l’équipe de recherche devra démontrer son aptitude à mettre en œuvre les méthodes et outils de traitement envisagés
  • Les projets proposés peuvent permettre d’amorcer une recherche nouvelle ou de compléter un programme déjà existant
  • Un lien fort et démontré des projets avec les missions du BnF DataLab et la confirmation d’une présence effective des chercheurs dans les espaces du DataLab
  • Une durée minimale de 12 mois et maximale de 18 mois
  • Une aide financière maximale de 15 000 €

Préconisations méthodologiques

Tout en précisant les enjeux scientifiques, les projets soumis à l’appel devront respecter les obligations suivantes :

  • porter obligatoirement sur les collections numériques de la BnF (Archives de l’internet, Gallica, métadonnées, documents audiovisuels, ressources électroniques…) ou sur celles de partenaires intégrées dans Gallica ; prendre en compte les questions de protection des données personnelles et les droits de propriété intellectuelle qu’imposent certains types de données ou de corpus BnF
  • porter attention aux problématiques de recherche des consortiums de l’Infrastructure de Recherche Huma-Num  (https://www.huma-num.fr/les-consortiums-hn/)
  • proposer des corpus, des méthodes ou des outils d’analyse originaux présentant un intérêt pour une communauté bien identifiée et livrer des résultats ou des outils d’aide à la recherche utiles et librement accessibles à cette communauté
  • présenter les étapes de traitement des collections en détaillant les scénarios d’accès aux sources, corpus et données, leurs modes de constitution, de traitement et de conservation (pendant voire après la durée du projet si souhait de conservation des données utilisées lors de la recherche)
  • s’engager sur un résultat final sur la base d’une description précise du ou des livrable(s) prévu(s) et d’un planning détaillé permettant de le(s) réaliser
  • s’engager sur une présence effective des chercheurs dans les locaux du BnF DataLabpour mener les travaux de recherche (à évaluer précisément dans la proposition) et participer à la vie et à l’animation scientifiques du BnF DataLab à travers, par exemple, des ateliers, des formations ou tout autre dispositif innovant (à décrire dans la proposition)
  • s’engager à animer un atelier de retour d’expérience sur la recherche conduite au BnF DataLab et participer aux actions collectives de restitution organisées par l’équipe du DataLab
  • prévoir des formes de valorisation de la recherche (carnets de recherche, publications scientifiques, communications lors de colloques, journées d’études, séminaires…)

Collections et ensembles de données

Les candidats peuvent proposer tout sujet de recherche qui rentre dans le cadre des objectifs de l’appel, des missions du BnF DataLab et des préconisations méthodologiques. Une description de différents ensembles numériques de la BnF qui peuvent faire l’objet des analyses est donnée en annexe :

Les équipes de recherche sont encouragées à contacter la BnF en amont du dépôt pour poser toute question sur leur projet. Merci de contacter datalab@bnf.fr

BnF-DataLab-AAP-2023-formulaire de réponseTélécharger

Résultats et reversement des outils produits dans le cadre de la recherche

Dans le cadre de la politique pour la science ouverte formalisée dans le Plan national pour la Science Ouverte, les réalisations produites dans le cadre de cet appel à projet pourront être valorisées et mises à disposition des communautés de chercheurs souhaitant réutiliser les applications, les scripts et les corpus utilisés. Ces réalisations pourront rejoindre, sous réserve de validation, la boîte à outils du BnF DataLab et les services de l’IR* Huma-Num.

Modalités de soumission

Le responsable du projet doit remplir le formulaire joint à l’appel qui contient les éléments suivants :

  • Description du projet : sujet, objectifs, livrables
  • Détails de la mise en œuvre et des services du BnF DataLab sollicités
  • Présentation du lien avec les missions et les problématiques du BnF DataLab
  • Pistes de valorisation
  • Budget demandé (hors valorisation des espaces, services et expertises mis à disposition par le BnF DataLab) et, le cas échéant, profils des postes à financer
  • CV du responsable du projet
  • Lettre d’engagement de l’établissement porteur du projet

Le dossier complet doit être envoyé sous forme d’un fichier PDF unique par courriel à l’adresse datalab@bnf.fr

Les dossiers doivent être reçus par voie électronique au plus tard le 29 septembre 2023 (17h), délai et heure de rigueur. Un accusé de réception sera adressé au responsable du projet pour chaque dossier déposé. La BnF décline toute responsabilité pour des dossiers non reçus pour cause de problèmes techniques.

Règlement

En déposant un dossier, le candidat reconnaît avoir pris connaissance du présent règlement et déclare l’accepter sans réserve.

Recevabilité

  • Le dossier de soumission, sous forme électronique, doit être transmis dans les délais, au format demandé et être complet.
  • Le dossier, dans le format fourni, ne doit pas dépasser 12 pages (y compris le CV du responsable et la lettre d’engagement).
  • La durée maximum du projet présenté est de 18 mois : le projet doit démarrer à partir du 1er janvier 2024 et au plus tard le 31 janvier 2024 et doit se terminer au plus tard le 30 juin 2025.
  • Au-delà des services (espace, accompagnement, expertise) fournis par le BnF DataLab, le montant complémentaire de financement demandé ne peut pas excéder 15 000 € TTC.

Éligibilité 

  • Le projet doit être porté ou soutenu par au moins un laboratoire ou une unité de recherche relevant d’un établissement public de recherche.
  • Le responsable du projet doit être de niveau doctorant (inscrit en thèse) ou au-delà (docteur, enseignant-chercheur, chercheur, ingénieur de recherche).
  • Un projet retenu à un appel à projets précédent du BnF DataLab peut faire l’objet d’une nouvelle soumission au présent appel à condition de présenter des traitements nouveaux ou de nouvelles hypothèses découlant des premiers résultats.

Calendrier

  • Lancement de l’appel à projet : juin 2023
  • Date limite de dépôt des dossiers : 29 septembre 2023
  • Jury de sélection : semaine du 13 novembre 2023
  • Notification des résultats : semaine du 20 novembre 2023
  • Démarrage des projets : entre le 1er et le 31 janvier 2024
  • Fin des projets : au plus tard le 30 juin 2025

Critères et processus de sélection

Les projets retenus seront choisis par un jury composé de membres de la BnF et de l’Infrastructure de Recherche Huma-Num.

Les projets seront évalués par le jury à partir des principaux critères suivants :

  • Recevabilité : dépôt avant la date limite du dossier complet et respect du budget maximum.
  • Adéquation : Le projet proposé est conforme aux missions du BnF DataLab. Il doit présenter une problématique de recherche qui porte obligatoirement sur les collections numériques de la BnF ou des partenaires de la BnF disponibles sur Gallica.
    • Les projets portant sur des corpus déjà disponibles (déjà numérisés / déjà collectés) seront privilégiés pour permettre une mise en œuvre rapide du projet.
    • Les problématiques de recherche en rapport avec des Consortiums d’Huma-Num feront l’objet d’une attention particulière.
  • Pertinence : le projet doit obligatoirement décrire les étapes prévues de traitement numérique des collections (modalités d’accès aux sources, aux corpus et données, modes de constitution, de traitement et de conservation, prise en compte des problématiques de gestion et de pérennisation des données…).
    • La présence d’un plan de gestion des données, le cas échéant, sera un atout.
  • Engagement : Les projets doivent détailler leur implication dans le BnF DataLab sous forme d’utilisation des espaces et des services proposés et de participation aux activités du BnF DataLab : formations, ateliers ou toute autre forme.
    • Une préférence sera donnée aux projets qui témoignent d’un fort ancrage dans les espaces et dans la vie du BnF DataLab.
  • Qualité du dossier : originalité scientifique du projet,  rigueur de la gestion du projet, compétences mobilisées, faisabilité scientifique et budgétaire, engagement en faveur de la science ouverte, qualité du ou des livrable(s) (s’il s’agit d’un logiciel, une préférence sera donnée aux réalisations sous licence libre).

Tout projet déposé fera l’objet d’une évaluation préalable par le BnF DataLab et les départements de la BnF concernés. Le choix des projets retenus se fera sous réserve de disponibilité des ressources nécessaires au sein de la BnF. De même, l’utilisation des services par les équipes retenues se fera dans les limites de la capacité du BnF DataLab et des départements de la BnF concernés.

La non-sélection de projets ne peut faire l’objet d’une contestation.

Dépenses

  • Toutes dépenses confondues, le montant de financement demandé ne peut excéder 15 000 € (TTC), hors valorisation des espaces, services et expertises mis à disposition par le BnF DataLab.
  • Dépenses éligibles :
    • recrutement IGR / IGE ; stages ;
    • missions (le montant maximum des missions ne pourra pas dépasser 10% de la subvention demandée) ;
    • prestations techniques de fouilles de données ou de développement d’outils liés au traitement numérique des collections, ainsi que les licences logiciels nécessaires.
  • Dépenses non éligibles :
    • frais RH de personnel permanent ;
    • frais de développement ou de maintenance de type site web ou stockage des données ;
    • frais de publication ;
    • frais de gestion (à charge au responsable du projet, le cas échéant, de recueillir l’accord de son établissement pour la non-application de frais de gestion).
  • Le responsable s’engage à fournir un tableau de dépenses certifié par son établissement et toutes les pièces justificatives.

Livrables / utilisation des résultats

  • Le responsable doit décrire dans sa proposition les livrables du projet.
  • Il est attendu que le livrable prenne la forme soit d’un outil, soit d’un guide méthodologique, soit d’une démonstration d’une technique d’analyse, susceptibles d’être valorisés dans le BnF DataLab.
  • Le responsable d’un projet retenu s’engage à produire un rapport d’étape à mi-parcours et un rapport final.
  • Le responsable d’un projet retenu s’engage à participer au programme de manifestations scientifiques, et en particulier à un atelier de partage d’expériences sur sa recherche organisé par le BnF DataLab.
  • Pour les logiciels développés dans le cadre du projet, l’utilisation d’une licence libre est fortement préconisée afin de faciliter leur utilisation par la communauté scientifique. En particulier, les logiciels, scripts etc. auraient vocation à rejoindre la boîte à outils du BnF DataLab (cf. supra) et/ou être proposés sur la grille de service d’Huma-Num.
  • La BnF pourra communiquer sur les projets retenus et leurs résultats : les chercheurs s’engagent à respecter les mentions obligatoires dans toute communication.

Convention

  • Une convention sera signée entre la BnF et l’établissement porteur du projet pour encadrer le versement de la subvention, son utilisation, le calendrier du projet, l’utilisation des résultats et les conditions d’accueil.
  • L’équipe de recherche d’un projet retenu s’engage à respecter le règlement des salles de lecture de la BnF et, de manière générale, toute charte ou réglementation applicable relatives notamment à la propriété juridique des documents, la sécurité des collections, la circulation dans les espaces de la BnF et la reproduction des documents issus des collections de la BnF.

Modalités de versement

  • Le financement accordé à tout projet retenu sera versé en deux temps, au début des travaux et à mi-parcours.
    Pour le versement à mi-parcours, l’équipe devra faire parvenir un rapport intermédiaire de quelques pages montrant l’avancée de la recherche au regard des étapes de traitements et du calendrier prévisionnel du projet ainsi qu’un bilan du temps passé dans le DataLab.
  • Les modalités administratives de versement seront précisées dans la convention. 

Annexe : descriptions des collections et ensembles numériques

Collections de Gallica et de Gallica intra muros

En ligne depuis 1997, la bibliothèque numérique Gallica compte aujourd’hui plus de 10 millions de documents, de tous types et toutes époques, librement et gratuitement accessibles pour ceux entrés dans le domaine public (dont les auteurs sont décédés avant 1953 ou pour la presse publiée avant cette date).

Avec quelque 5,8 millions de numéros (dont 80% océrisés), la presse et les revues constituent la part la plus importante de la collection, suivies par les images (1,8M), les livres (860K dont 70% océrisés), les objets (520K), les cartes et plans (195K), les manuscrits (182K), les partitions (65K), les enregistrements sonores (52K) et la vidéo (6K).

Les documents numérisés sont issus des collections patrimoniales de la BnF mais également de bibliothèques partenaires dans le cadre de la coopération nationale (environ 20%).

La collection numérique s’est constituée sur une trentaine d’années au cours desquelles les technologies se sont considérablement améliorées (niveau de résolution, OCR, normalisation), d’où une certaine hétérogénéité de qualité des données qui peut être sensible pour les usagers. Les API de Gallica permettent d’interroger les métadonnées et de récupérer directement les documents numériques :

Documents sous droits consultables intra muros

Plus d’un million de documents sous droits sont consultables sur place, à la BnF, dans Gallica intra muros. Parmi les monographies, on y trouve en particulier plus de 100 000 livres publiés dans la seconde moitié du XXe siècle, indisponibles chez leurs éditeurs, qui ont été numérisés dans les années 2012-2017 dans le cadre du programme Relire : https://relire.bnf.fr/accueil

S’y trouvent également plus de 20 000 éditions des XVIe et XVIIe siècles, dont nombre d’ouvrages en latin, numérisés dans le cadre du projet « Early European Books » (Proquest).

Gallica intra muros comprend une large collection de presse : les quelque 1200 titres numérisés par Retronews, ainsi les titres et numéros parus après 1952, en particulier de la presse régionale (La Provence, La Dépêche du midi, Le courrier de l’Ouest, Paris-Normandie, etc.) et certains titres de presse nationale (France Soir, l’Equipe, L’Humanité, Charlie Hebdo, etc.).

On y trouve également plus de 80 000 images protégées, mais aussi des manuscrits, des partitions imprimées et manuscrites (fonds Messiaen, Boulez, etc.), des cartes et plans, des objets, des enregistrements sonores (fonds Pierre Henry, etc.) et de la vidéo.

Tous ces documents, quel que soit leur régime juridique (sous droits, sous conditions d’utilisation ou sous licence d’exploitation), peuvent se prêter à des opérations de fouille de données dans le cadre du BnF DataLab, sous réserve de faisabilité technique.

Collections du dépôt légal du web

Les collections d’archives web de la BnF sont constitués de sites archivés via deux filières de collecte : la collecte large, qui vise à archiver un échantillon représentatif du web français chaque année (5,9 millions de noms de domaine en 2022), et les collectes ciblées, qui visent à collecter des sites sélectionnés par des bibliothécaires ou des chercheurs dans leurs domaines de compétences respectifs. Les collectes ciblées peuvent être de deux types : courantes ou projet.

Depuis 2011, les collectes courantes sont réalisées à des fréquences variables pour les différents sites selon les demandes des départements thématiques et spécialisés de la BnF, ou de  cinq bibliothèques de région (Bibliothèque nationale universitaire de Strasbourg, Bibliothèque municipale de Nancy, Médiathèques Montpellier Méditerranée Métropole, bibliothèque de l’Alcazar de Marseille et Bibliothèque départementale de la Réunion).

Les collectes projet se caractérisent par leur sensibilité plus forte à l’actualité ou à des thématiques transverses : Accords internationaux (2011-2018), Actualité éphémère (2018-), Actualités (2011-), Elections (2002-), Enjeux environnementaux (2020-), Grande Guerre sur le web (2013-2019), Intelligence artificielle (2020-), Instagram (2020-), Maisons de vente (2013-), Mouvements sociaux (2012-), Podcasts (2023-), Presse payante (2012-), Publications officielles (2011-), Solidarité(s) (2011-), Vidéos (2007-) : collecte de chaînes Dailymotion jusqu’en 2013 puis de chaînes Youtube depuis 2017, TikTok (2022-), Covid-19 : Une collecte a été réalisée de février à juillet 2020 au moment du début de la pandémie de Covid-19 et du confinement.

20 ans d’archives du web électoral (2002-2022)

Les collectes du web électoral constituent des archives uniques de la vie politique française de ces vingt dernières années. Les dix-neuf collectes ciblées réalisées à l’occasion de chaque échéance électorale ont pour objectif de capturer la vie politique sur le web à travers l’archivage de sites des formations politiques, des candidats, d’organisations de soutien, d’associations, de pages web de médias ou encore de blogs individuels. Des élections municipales aux élections présidentielles en passant par les élections départementales, régionales et européennes, la diversité des débats et les grandes tendances se manifestant sur le web sont couvertes afin de respecter la représentativité et le pluralisme politique et idéologique. Les niveaux « national » et « régional » sont également pris en compte.

Volumétrie : de 2002 à 2022, la volumétrie des archives réalisées à chaque élection varie fortement selon les collectes. À titre d’exemple, pour les archives concernant les élections présidentielles et législatives de 2002, les données sont les suivantes : 1906 sites ont été ciblés et 6278 captures effectuées 11 915 687 fichiers ont été produits pour un poids total de l’archive équivalent à 534 Go, soit un poids moyen de 85Mo par site.

Pistes de recherche :

De par sa cohérence et sa profondeur historique, les archives du web électoral permettent d’étudier l’évolution de la communication des différentes tendances politiques, d’analyser la récurrence ou la réactivation de thématiques dans le temps (le pouvoir d’achat, l’Europe, la sécurité, etc.). Une approche régionale ou locale de la collection peut trouver des compléments dans d’autres archives web de la BnF, notamment la collecte de l’actualité (presse) et les collectes régionales existantes.

Collections du département Son, Vidéo, Multimédia

Le département Son, Vidéo, Multimédia assure la conservation, la communication et la valorisation de près de 1,5 million de documents : disques noirs, cassettes audio, VHS, DVD, CD-ROM, DVD-ROM, cartouches de jeu vidéo, ouvrages imprimés et revues, etc. Ce sont plus de 1 million de documents sonores, 350 000 vidéos, 100 000 documents multimédias (dont 20 000 jeux vidéo), auxquels s’ajoute la conservation de 1 300 appareils d’enregistrement et de lecture dans la collection Charles-Cros.

Les collections vidéo de la BnF

La collection patrimoniale de vidéos de la BnF trouve son origine dans l’instauration du dépôt légal sur les vidéogrammes en 1975. Elle compte environ 350 000 documents et s’enrichit également par des dons, des dépôts ou des acquisitions. La majorité des collections est numérisée et consultable en bibliothèque de recherche sur le site François-Mitterrand. Les jaquettes, livrets et documents d’accompagnement sont également consultables.

La BnF collecte ainsi dès les années 1980 les éditions vidéo commerciales d’œuvres cinématographiques et télévisuelles, de captations de spectacles et de concerts, de collections thématiques (sport, loisirs), y compris les films pornographiques. Tous les formats sont représentés du Bétamax au Blu-Ray 4K UHD. Cet ensemble pourrait permettre d’étudier l’histoire de la distribution vidéo en France, d’observer les politiques éditoriales des différents éditeurs, les grandes évolutions du secteur sur plusieurs décennies mais aussi d’envisager sur la longue durée les multiples manifestations d’œuvres cinématographiques ou audiovisuelles. La BnF conserve par exemple plus de vingt éditions du film Nosferatu le vampire de Murnau (1922). Aux éditions françaises entrées grâce au dépôt légal viennent s’adjoindre des achats de films de patrimoine effectués à travers le monde. Les catalogues d’éditeurs de référence tels que Criterion (Amérique du Nord), Filmmuseum (pays germanophones) ou British Film Institute (Grande Bretagne) sont ainsi consultables de manière presque exhaustive.

Le large périmètre du dépôt légal permet aussi de conserver la trace des productions originales réalisées en vidéo légère et destinées à des diffusions plus restreintes : art vidéo, vidéo associative et militante, mais aussi vidéo de communication d’entreprise, de collectivités locales (journaux audiovisuels d’information des municipalités par exemple), des ministères, de musées ou encore des églises, des partis politiques, des organismes non gouvernementaux…

Parmi les collections remarquables à signaler :

  • La production audiovisuelle d’entreprises et d’institutions depuis les années 1970 entrée par dépôt légal et enrichie par de nombreux dons.
  • Les films africains grâce à la conservation des fonds vidéo de la Cinémathèque Afrique (Institut français), de l’Organisation internationale de la francophonie, de la médiathèque des trois mondes.
  • L’art vidéo.
  • Les expériences de télévision citoyenne et de télévision participative dès les années 1970 (centre audiovisuel de la ville nouvelle de Saint-Quentin-en-Yvelines, l’expérience de télévision communautaire du quartier de la Villeneuve à Grenoble dans les années 1970, les ateliers audiovisuels de plusieurs centres d’action culturelle dans les années 1970 et 1980, Télé Saugeais, etc.)
  • La vidéo militante et la vidéo féministe à partir des années 1970.

Les collections sonores de la BnF

Pistes pour fouille de données en lien avec les enregistrements sonores :

  • reconnaissance et description des sons/bruits en arrière-plan (corpus inédits : collectes de chercheurs. “Du bruit parasite au paysage sonore”)
  • reconnaissance des langues et transcription automatisée de la parole (corpus oraux inédits)
  • identification des langues et des instruments au sein de corpus de musique enregistrée (corpus édités ou inédits de musiques du monde par exemple)

Les fonds suivants pourraient servir à d’éventuels travaux en lien avec les trois propositions ci-dessus :

Les métadonnées de la BnF

Le Catalogue général de la BnF (catalogue.bnf.fr) contient la majorité des références des documents conservés sur tous les sites de la BnF, soit plus de 15 millions de documents. Il contient notamment des livres et périodiques conservés dans les magasins et en libre accès, des documents sonores, multimédias et électroniques sur supports, des documents iconographiques, des documents cartographiques, des partitions imprimées et manuscrites, des monnaies, des périodiques électroniques dont la BnF possède aussi la version imprimée. Il permet également d’accéder à des informations sur les personnes, organisations, sujets, lieux en lien avec ces documents (environ 5 millions de notices d’autorité).

Certains types de ressources sont signalés hors du Catalogue général. C’est le cas de la plupart des manuscrits et fonds d’archives, qui sont catalogués sur la base BnF Archives et manuscrits (archivesetmanuscrits.bnf.fr), et des médailles et antiques, dans le catalogue BnF Médailles et antiques (medaillesetantiques.bnf.fr).

La BnF met à disposition des API et des jeux de données qui permettent la récupération des données des notices bibliographiques ou d’autorité dans divers formats techniques et bibliographiques. Un panorama détaillé des données disponibles et des possibilités de récupération est proposé sur le site bnf.fr (https://www.bnf.fr/fr/reutiliser-les-donnees-de-la-bnf). Le site api.bnf.fr documente et donne accès à ces modes de récupération (https://api.bnf.fr/fr/BnF-Catalogue-general).

Les données de référence

Parmi les métadonnées bibliographiques produites et diffusées par la BnF, une partie peut être identifiée comme des données de référence. C’est tout particulièrement le cas des notices de la Bibliographie nationale française, qui signale les documents édités ou diffusés en France et reçus par la BnF au titre du dépôt légal. En tant qu’agence bibliographique nationale, la BnF a la responsabilité internationale de nommer et de décrire tous ces produits, ainsi que les personnes privées ou morales qui exercent dessus une responsabilité, par l’attribution et la diffusion d’identifiants (ISBN, ISSN, ARK, ISNI…) et la création de métadonnées de qualité.

Plus largement, on peut considérer comme données de référence les données diffusées par la Bibliothèque nationale de France sur le site data.bnf.fr. Il s’agit de l’ensemble des données de bonne qualité des catalogues et bases de données de la BnF, à savoir les données relatives aux autorités (personnes, organisations, thèmes, œuvres, lieux) validées par un expert, et les données des ressources de la BnF qui sont liées à ces autorités.

Institution
Date de candidature
Durée
12-18 mois
Discipline
Humanités
Sciences sociales