Le Web entre aux archives





télécharger 22.43 Kb.
titreLe Web entre aux archives
date de publication06.03.2017
taille22.43 Kb.
typeDocumentos
h.20-bal.com > loi > Documentos
Le Web entre aux archives
Des milliards de pages, vidéos, sites français, pubs... proposés sur la Toile sont systématiquement conservés par la BNF, qui possède la deuxième base de données au monde.
Dans notre imagerie collective, le Web apparaît comme un grand cerveau, rapide, efficace, multitâche et omniscient, proposant textes, sons, images et vidéos. Tel un oracle, on l’interroge via des moteurs de recherche afin de trouver la bonne information. Mais la toile a perdu quelque chose : la mémoire… Oubliées les premières pages personnelles déposées chez des hébergeurs à la fin des années 1990 ; disparus ces annuaires de sites qui guidaient l’internaute avant l’arrivée des moteurs … Définitivement ? Pas tout à fait, car différentes organisations, souvent à but non lucratif, se sont rendu compte que ces milliards de pages créées par des internautes, des entreprises, ou des associations ont et auront encore un intérêt pour les historiens ou les généalogistes du Web.

« Internet est un média qui change les relations entre les personnes, ou entre les institutions et les personnes. C’est une image de la société à un moment donné. Il faut préserver cette mémoire avant qu’elle ne disparaisse pour, plus tard, essayer de la comprendre », explique Kris Carpenter, d’Internet Archive, une société américaine à but non lucratif qui s’est lancée dans la préservation de cette mémoire numérique dès 1996. Dans l’Hexagone, c’est la Bibliothèque nationale de France (BNF) qui a repris le flambeau de l’archivage depuis 2006, par obligation légale. De même qu’il existe un dépôt pour les documents « analogiques » (papier, cassettes VHS, phonogrammes…) diffusés sur le territoire, un dépôt légal d’Internet a en effet été introduit dans le code du patrimoine, via la loi DADVSI (relative aux droits d’auteur et aux droits voisins dans la société de l’information). Dans ce cadre, l’Institut national de l’audiovisuel (INA), se charge de la communication audiovisuelle en ligne, la BNF du reste. Celle-ci a ainsi constitué ce qui est devenu, en taille, la seconde collection d’archives du Web au monde ! Pour cela, elle a racheté un fonds d’« incunables du Web » à Internet Archive pour les années 1996 à 2004, puis utilisé ses services techniques pour les années 2005 à 2009, avant d’achever en juillet, avec ses propres moyens, sa première « collecte » du Web français. Dans ses cartons numériques, elle possède désormais près de 200 téraoctets – un téraoctet (To) valant mille milliards d’octets, soit l’équivalent d’un gros disque dur actuel – de données et 14 milliards d’objets – les URL – contre 3 à 4000 To et 150 milliards d’URL pour Internet Archive.

Mais collecter ou « moissonner », comme disent les spécialistes, est une entreprise complexe (voir le schéma p. 73). Premier dilemme, que sélectionner ? « L’expérience montre que la BNF a archivé dans le passé beaucoup de documents dont on pensait, à l’époque, qu’ils n’auraient aucun intérêt : publicités des grands magasins du xixe siècle, bandes dessinées au xxe siècle… Or, cela documente une époque. Pour le Web, nous avons donc privilégié des collectes larges, sans a priori. Tout en ciblant aussi 8000 sites sélectionnés par près de 80 bibliothécaires  », explique Gildas Illien, le responsable du dépôt légal Internet à la BNF. Résultat : ces collectes récupèrent indifféremment toutes sortes de sites, qu’ils soient institutionnels, associatifs, marchands, pornographiques, personnels, sans oublier les blogs ou les pages publiques des réseaux sociaux comme Facebook, etc. Second obstacle à franchir, comment récupérer ces données ? A la BNF, 40 ordinateurs ont été mobilisés pendant douze semaines, entre avril et juillet. Des logiciels, appelés robots, ont surfé 24 h sur 24, cliquant et enregistrant sans distinction tout ce qui se trouvait sur les pages visitées : textes, photos, vidéos, publicités… et même les pages d’erreur ! Un parcours semé d’embûches. « Il arrive que les robots tombent dans des “pièges” et tournent en boucle. Lorsqu’ils explorent un calendrier, par exemple, dont les pages vides peuvent s’effeuiller de mois en mois, d’année en année, à l’infini… », décrit Annick Lorthios, l’une des bibliothécaires en charge de ce travail. Les robots peuvent aussi, parfois, perturber le fonctionnement du site visité. « Un jour, l’un d’entre eux a commandé des tracteurs sur un site marchand ! Heureusement, il n’avait pas de Carte bleue pour les payer ! », s’amuse Gildas Illien. Ces logiciels peuvent, en effet, « cliquer » mais ne peuvent ni remplir des formulaires ni disposer des codes d’accès. De fait – et c’est un point crucial –, ils n’ont pas accès aux pages d’un réseau social lorsque celles-ci ne sont pas publiques : les informations réservées uniquement à leurs « amis » par les utilisateurs de Facebook échappent donc à cette moisson.

Discrets, ces visiteurs automatiques curieux ne sont pas pour autant anonymes : ils laissent des signatures très explicites lors de leur passage afin de ne pas être rejetés par les sites, et donnent également aux éditeurs des sites la possibilité d’entrer en contact avec la BNF. Car ces incursions ne sont pas toujours bien vécues ! L’équipe a eu ainsi maille à partir avec un blogueur qui, en représailles à la visite du robot, avait mobilisé des informaticiens pour perturber son fonctionnement. Ce différend s’est finalement réglé. Les robots étant infatigables, il faut aussi décider du moment où les stopper sous peine de faire durer éternellement la collecte (et d’augmenter les coûts) et de perdre en plus la notion capitale de datation de l’archive. Un nombre de liens à visiter est donc fixé à l’avance.

Au final, c’est donc une « photographie » du Web français qui se retrouve sur les disques durs de la BNF : près de 2 millions de noms de domaines pour 830 millions d’URL lors de la dernière collecte large. Comment gérer ce gigantesque fatras ? « Une partie difficile consiste à mettre au point un système permettant de rendre ces archives accessibles », explique l’Américaine Kris Carpenter, confrontée au même défi pour Internet Archive. Pour ce faire, il faut disposer d’un format standard, sorte de carton numérique, dans lequel enfermer textes, images, sons ou vidéos pour pouvoir facilement les ressortir à la demande. Autre souci : veiller à la cohérence des archives consultées. Ainsi, lorsqu’une page datée de 2002 s’affiche avec un lien renvoyant vers un site toujours existant, l’interface doit être capable de montrer ce site tel qu’il était à l’époque, ou, le cas échéant, prévenir le visiteur qu’il fait un bond en avant dans le temps. Dernier problème, et de taille : stocker et assurer la pérennité de l’ensemble des données pour garder des fichiers lisibles. A la BNF, les archives sont remisées dans deux entrepôts numériques, sur des bandes magnétiques à la durée de vie plus longue que les disques durs des supports numériques (quatre à cinq ans contre moitié moins) et surtout plus prévisibles. Mais cette technique ralentit la vitesse d’accès car c’est un robot, mécanique cette fois, qui doit saisir la bande recherchée sur des étagères pour l’installer dans un lecteur. Pour les accès rapides, il faut donc pouvoir disposer de cette même information sur des disques durs : les contenus sont systématiquement répliqués d’un support sur l’autre. De même, une procédure, encore en chantier, vise à automatiser la détection des formats obsolètes. « Ce système scannera les archives pour repérer tous les formats présents et les comparer à une liste de référence. Selon la réponse, nous pourrons soit changer le format problématique pour une version plus récente, soit utiliser virtuellement de “vieux” ordinateurs pour les lire », détaille Clément Oury, de l’équipe du dépôt légal numérique à la BNF.

Tout le monde n’a cependant pas accès à ces précieuses archives. Côté français, elles sont réservées à une consultation dans les salles de recherche de la BNF, où sont admises uniquement des personnes autorisées ayant déposé une demande motivée. Les premiers « archinautes » sont donc des chercheurs, entre 60 et 120 par mois, plutôt spécialisés en sciences politiques. Quelques juristes ont également surfé à la recherche de « preuves » en ligne qui ne seraient plus disponibles, ainsi que des représentants de partis politiques, en quête des contenus d’une campagne électorale passée et non sauvegardée… Condition sine qua non pour que les recherches aboutissent : connaître l’URL ciblé. Aucun système au monde, pour l’instant, ne propose en effet une indexation complète de ses contenus qui permettrait, comme le fait un moteur de recherche, de parcourir facilement l’ensemble. « Comme chercheur, il faut être vigilant sur ce point. Car les sites peuvent avoir changé d’URL au cours du temps », prévient Fabienne Greffet, enseignante-chercheuse à l’université de Nancy et qui a utilisé les archives de la BNF pour ses travaux sur les élections vues par le Web.

La BNF expérimente cependant un autre type de visite : des parcours guidés sont proposés sur les élections, sur les journaux intimes (mais publics !) et sur le Web militant. Avant la fin de l’année, elle archivera en outre tous les jours, les « unes » de près de 100 sites d’information.

Sur place, pas question non plus d’utiliser des clés USB ou des ordinateurs portables reliés au réseau pour engranger les résultats. Les archives sont disponibles uniquement en consultation. Une condition légalement indispensable au maintien de l’exception au droit d’auteur et à la protection des données personnelles, et son application en toute sérénité à la BNF. Ce qui n’est pas le cas, par exemple, pour la British Library britannique qui, tenue par une législation différente, n’a pu, à ce jour, archiver que 2000 sites sur les 6500 identifiés, chacun d’entre eux devant donner expressément son accord. « Je reconnais que ces conditions d’accès sont assez frustrantes, témoigne Fabienne Greffet, mais les archives proposées sont de qualité. » Pour les internautes non autorisés, reste donc une seule possibilité pour plonger dans la mémoire du Web : consulter la base de la société américaine Internet Archive, directement accessible. Mais les sites français y sont rares…

A une tout autre échelle, une nouvelle discipline émerge à la faveur de cette collecte massive. « Nous sommes impliqués dans plusieurs programmes de recherche qui nécessitent l’élaboration d’archives, explique Julien Masanes, à l’origine de l’Internet Memory Foundation, un organisme à but non lucratif. A l’avenir, nous devrions être à même d’analyser l’opinion mondiale et d’en déduire des prévisions, des anticipations. Ou de détecter des disparitions d’espèces par exemple. Parvenir à extraire de l’information utile de ces immenses bases de données est un champ scientifique nouveau. » Plus prosaïquement, chacun pourrait avoir, un jour, besoin de cette mémoire. « Nous sentons émerger une communauté intéressée par ces documents. Il sera possible que quelqu’un vienne nous voir pour consulter le blog tenu par ses parents, par exemple », prévoit Gildas Illien. D’où son souhait d’élargir l’accès aux archives depuis les bibliothèques régionales. Cette volonté d’ouverture rejoint un projet porté par une jeune association, webarchivists.org: sauvegarder simplement ses activités personnelles en ligne. « Lorsque j’étais étudiant aux Beaux-Arts, j’étais frustré de ne pas retrouver des designs de sites Web que j’avais appréciés plus jeune. Alors que notre professeur d’histoire de l’art pouvait, lui, nous présenter des œuvres datant de l’Antiquité ! Pour le moment, les internautes, ne se projettent pas. Ils sont dans l’instant. Mais le besoin de mémoire va apparaître », résume Baptiste Fluzin, cofondateur de ce projet associatif en attente de financement.

D’abord réticents, les éditeurs de sites semblent maintenant convaincus de l’intérêt de participer à ce mouvement. « Au début, ils n’étaient pas conscients du risque de disparition de ce patrimoine. Aujourd’hui je suis plus optimiste », explique Kris Carpenter. En avril, le site Twitter (plus de 100 millions de membres postant des messages courts), a ainsi fait don de ses propres archives à la Bibliothèque du Congrès américain. Facebook (le réseau social et ses plus de 500 millions de membres), a annoncé vouloir proposer une option de sauvegarde de la production personnelle de chacun. Une quarantaine d’acteurs, dont beaucoup de bibliothèques, ont même créé l’IIPC, un consortium destiné à mutualiser les moyens et à standardiser les pratiques et les outils. Le Web retrouve donc peu à peu de la mémoire.

Mais toutes ces initiatives interviennent au moment où, en France, le secrétariat d’Etat à la Prospective et au Développement de l’économie numérique a fait signer une « Charte sur le droit à l’oubli » à un grand nombre de sites comme Copains d’avant, pagesjaunes, etc. Le but : permettre aux internautes de garder le contrôle de leur vie privée. Notamment en ayant la possibilité, sur demande, d’effacer d’éventuelles « erreurs de jeunesse » en empêchant l’exhumation de certaines pages. « Ce droit à l’oubli ne doit pas empêcher l’historien ou les particuliers d’avoir accès à cette mémoire, explique cependant Gildas Illien. Effacer toutes les traces ne serait pas très démocratique. La règle générale – qui s’applique aussi aux documents sur papier – est qu’une fois entré dans la collection patrimoniale, un document ne peut plus en sortir. » Christian Delporte, historien à l’université Versailles-Saint-Quentin-en-Yvelines, va même plus loin : « Je plaide aussi pour l’archivage, à usage de recherche, des données privées qui foisonnent sur les réseaux sociaux. Elles permettraient à l’historien de demain de saisir les imaginaires et les comportements collectifs d’une époque. » Pour l’instant, les robots archiveurs ne peuvent pas le faire et il est difficile d’imaginer que les éditeurs des réseaux sociaux cèdent un jour ces données sans précautions draconiennes. Les historiens devront donc, pour l’heure, se contenter de la partie visible du Web, ce qui n’est déjà pas si mal.
David Larousserie

similaire:

Le Web entre aux archives iconBéatrice Fraenkel, Bertrand Müller, Yann Potin
«grain» des archives offre ainsi un vaste prise de réflexion sur les usages et les mésusages historiographiques que l'on peut faire...

Le Web entre aux archives iconSophie CŒURÉ Publications
«secrètes», secrets d’archives ? Historiens et archivistes face aux archives sensibles, Paris, cnrs editions, 2003, p. 133-148

Le Web entre aux archives iconYvic pineau@cardinalis-event com
«web sémantique». Quels que soient les définitions et les moyens de le qualifier, le web 0 met le web 0 sinon au placard, du moins...

Le Web entre aux archives iconRechercher l’histoire de son moulin
«que leur conservation ne cause aucun dommage aux propriétés environnantes». Les procès-verbaux des experts sont riches de renseignements...

Le Web entre aux archives iconCours de langue : Anglais pour historiens
«Archives et histoire», le master 1 prépare à l’entrée du master 2 en alternance «Métiers des archives» dont l’ouverture est prévue...

Le Web entre aux archives iconDigital, au chevet de l'imprimé
«Le phénomène continue d 'ailleurs de se renforcer avec la pénétration du digital dans la consommation de l'information.» Au point...

Le Web entre aux archives iconLe débarquement et la libération de Provence
Il n’y a pas de neutralité possible entre le vrai et le faux, entre le bien et le mal, entre la santé et la maladie, entre l’ordre...

Le Web entre aux archives iconComment a évolué la place de l’ouvrier dans la société française entre 1830 et 1975 ?
«Le travail des enfants dans les manufactures de la Somme de la Restauration à la fin du Second Empire», Service éducatif des archives...

Le Web entre aux archives iconCours magistraux et Travaux dirigés en licence d’histoire (L1, L2...
«Très Honorable avec félicitations du jury à l’unanimité» (Jury composé de François Lebrun, Philippe Loupès, Jacques Marcadé, Jacques...

Le Web entre aux archives iconLongtemps, j’ignorai ce manuscrit. Une histoire d’amour… à la fin du
«Tu ne crois pas si bien dire, me rétorqua-t-il. J’ai fait un petit tour à la bibliothèque et aux archives et j’ai découvert que...






Tous droits réservés. Copyright © 2016
contacts
h.20-bal.com