Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

18 juillet 2011

Les bigarrures des bibliothèques numériques

Classé dans : Livre, Sciences, techniques — Miklos @ 0:05

Bigarrure, subs. fém. … assemblage de choses variées et plus ou moins disparates. — Trésor de la langue française.

La numérisation à grande échelle peut donner des résultats surprenants ou amusants, comme on le voit ici : sur un même écran, Google Books affiche une partie d’une page numérisée et OCRisée avec succès, une photo de la main qui maintient la page suivante (on avait déjà montré un autre exemple plus frappant des quelques aléas de leur entreprise), et une photo d’une page successive correctement prise mais non analysée bien qu’aussi lisible que les autres.

On ne peut que répéter ici ce constat déjà ancien : la numérisation n’est pas garante en soi de (meilleure) conservation d’un document primaire que l’original (on ne discute pas ici des facilités de recherche, d’accès ou d’analyse qu’elle peut offrir) : ici, l’on voit que la qualité de la numérisation est moins bonne que l’original, et, dans bien des cas, ne permet pas d’accéder à tout le contenu tel qu’il est encore présent physiquement : la numérisation de masse exclut une validation humaine (autre que statistique, éventuellement), et le document numérisé peut. En outre, la conservation du document numérique nécessite des supports actifs et des migrations permanentes. En fait, ce qu’elle assure certainement, c’est la conservation du document source, qui sera moins manipulé par les lecteurs puisqu’accessible en ligne, même si de façon imparfaite.

Un autre aspect de la curieuse hétérogénéité des ouvrages présents dans Google Books concerne ceux publiés en série ou en plusieurs volumes (encyclopédies, dictionnaires, etc.) : trop souvent, on n’en trouve qu’une partie, et pour ceux qui y figurent, certains sont accessibles dans leur intégralité d’autres non, sans qu’il soit possible de comprendre si une logique mystérieuse a présidé à ce qu’on croyait la numérisation d’un fonds cohérent d’une bibliothèque universitaire partenaire (dont on ne peut croire qu’elle ait un fonds si lacunaire) ou s’il ne s’agit que du hasard.

Ainsi, du Musée des familles. Lectures du soir, revue fondée en 1833, on ne trouve chez Google Books que les volumes 3 (en provenance de la bibliothèque d’État de Bavière) et 5 (de l’université de Gand) en accès intégral, et un facsimilé du volume 26 sans aucun accès… En revanche, l’excellente Internet Archive en propose plus de 18. Surprise ! on y trouve l’intégralité de cette réédition du volume 26, numérisé par… Google ! Pourquoi ici on peut l’y lire et pas chez Google ? Mystère. Quant à Gallica, il s’y trouve 13 volumes, sauf erreur de notre part : ce n’est pas une mince affaire de les y localiser ni de les compter, la liste de réponses n’identifiant pas les volumes individuels et comprenant, semble-t-il, des répétitions… Europeana, elle, affiche une liste de titres identiques, sans en indiquer les numéros de volume ; on aperçoit les dates, mais impossible de trier la liste des 265 réponses, dont 241 en provenance de la Bibliothèque nationale de France (on se demande pourquoi dans Gallica on n’en trouve alors que 13…). Enfin, la bibliothèque numérique Hathi Trust fournit l’accès à 19 volumes de ce périodique, fort intéressant de par ailleurs.

Google Books, projet qui a démarré et s’est poursuivi longtemps en faisant fi des droits de propriété intellectuelle, vise à s’adapter dorénavant à ces règles. Ce n’est pas par vertu (malgré son affirmation que You can make money without being evil), mais pour mieux s’insérer dans le marché européen – ses grandes bibliothèques, ses grands projets (Europeana, notamment), où l’exigence du respect de ces droits est la condition sine qua non de collaboration ou de partenariat. Du coup (et quelques petits procès plus tard), l’accès libre de nombre d’ouvrages a été supprimé : c’est bien pour les ouvrages sous droits, mais c’est incompréhensible en ce qui concerne les ouvrages du domaine public. Lors de sa présentation magistrale (intitulée The Present and Future of Google Books) lors d’une des conférences Europeana en 2010, James Crawford, directeur de l’ingénierie à Google Books avait affirmé que tous les livres entrés dans le domaine public étaient accessibles en intégralité dans leur système. C’est faux, comme tout utilisateur régulier peut l’attester. Ainsi, aucun des exemplaires de De l’égalité des deux sexes, de Poullain de la Barre, publiés au XVIIe siècle, n’y est consultable, même en extrait (contrairement à Gallica, par exemple ; on trouvera ici une transcription annotée en typographie, ponctuation et orthographe modernes que nous en avons effectué). Crawford avait demandé qu’on lui signale des documents qui ne correspondraient pas à son affirmation, ce que nous avons fait, sans obtenir de réponse.

Conclusions :

1. Aucune de ces bibliothèques ne fournit une couverture équivalente à ce que fournit une bonne bibliothèque physique : la notion de collection en est absente, quand bien même l’ensemble de ces bibliothèques permet de localiser et d’accéder à un nombre important de documents. Le danger ? La confirmation de cet adage : tout ce qui n’est pas numérisé n’existe pas.

2. Aucune de ces bibliothèques n’assure – pour le moment du moins – la conservation à long terme de ces facsimilés numériques à l’égal de celle des originaux, ni dans leur qualité, ni dans l’accès au contenu.

3. Enfin, aucune de ces bibliothèques numériques n’intègre de médiateur, le bibliothécaire qui, ayant une connaissance critique et historique du fonds, est à même de répondre à une demande d’un lecteur bien autrement que ne le font les moteurs de recherche actuels.

2 commentaires »

  1. [...] XVIe siècle, Les bigarrures du Seigneur des Accords d’Étienne Tabourot (livre dont on a aussi récemment parlé à propos de la qualité plutôt catastrophique de sa numérisation). Cité dans le chapitre [...]

    Ping par Miklos » De quelques vers holorimes polyglottes, dont un gentiment coquin — 19 juillet 2011 @ 1:39

  2. [...] bien par souci d’efficacité : on y trouve en général plus d’ouvrages (en français, comparons ce qui est comparable) qui correspondent à nos [...]

    Ping par Miklos » Les clics et les claques de Gallica — 25 septembre 2011 @ 22:47

Flux RSS des commentaires de cet article. TrackBack URI

Laisser un commentaire

XHTML: Vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

The Blog of Miklos • Le blog de Miklos