Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

14 novembre 2009

Une bibliothèque, c’est fait pour…

Classé dans : Livre, Sciences, techniques — Miklos @ 16:46

Et véritablement aussi ce n’est pas la quantité de Livres, qui fait l’excellence & le prix d’une Biblio­thèque : mais c’est leur bonté : Ce que Sénèque exprime très-bien dans sa 45e Épistre, où il dit, Non referi quam multos Libros, sed quam bonos habeas. C’est-à-dire, il n’importe pas d’avoir beaucoup de Livres, mais il importe de les avoir bons. — Traité des plus belles biblio­thèques de l’Europe, par le Sieur Le Gallois. À Paris, 1685.

…lire, même si elle est numérique. Ou du moins, consulter des livres, parce que – on le reconnaîtra volontiers – le livre de poche est un objet bien plus commode qu’un clavier-écran-souris, question ubiquité et portabilité (dans le métro, debout agrippé d’une main et le livre dans l’autre, dans sa chambre allongé sur le dos sous sa couette ou en plein désert sans prise électrique à 300 km à la ronde pour le recharger, il n’en a pas besoin), visibilité (même en plein soleil sur la plage) et maniabilité.

Il est certains livres qu’on ne lit en général pas de la première page au dernier, tels les encyclopédies ou les dictionnaires (sauf si on est habité du vertige de la liste). Ils sont aussi pour la plupart moins maniables qu’un livre de poche (même si certains ont été réduits à cette taille). On les utilise autrement : l’amateur de la sérendipité ou du heureux hasard les ouvre au hasard, passe d’un terme à un autre à la façon que permet l’hypertexte ou les feuillette « à cette heure un livre, à cette heure un autre, sans ordre et sans dessein, à pièces descousues » (Montaigne, Essais). Un autre y recherche un mot précis – et c’est surtout là le grand apport des bibliothèques numériques, du moins lorsqu’elles indexent le contenu des ouvrages qu’elles contiennent : il suffit d’y rechercher le mot ou la phrase désiré pour que le livre s’ouvre à la page qui le contient.

On a déjà parlé ici à plusieurs reprises des deux principales bibliothèques numé­riques comprenant des ouvrages en français, Google Books et Gallica (Europeana n’est pas à strictement parler une bibliothèque numérique : c’est un portail vers des contenus numérisés qui se trouvent ailleurs). On a récemment comparé leurs volumétries, leurs couvertures et leurs fonctionnalités respectives.

Aujourd’hui, on a comparé l’accès que fournissent ces deux services à un même ouvrage, l’édition de 1827 du Nouveau dictionnaire des origines, inventions et découvertes dans les arts, les sciences, la géographique, le commerce, l’agriculture, etc., indiquant les époques de l’établissement des peuples, des religions, des sectes et institutions religieuses, des lois, des dignités ; l’origine des différentes coutumes, des modes, des monnaies, etc., ainsi que les époques des inventions utiles et des découvertes importantes faites jusqu’à ce jour (on ne résiste pas au plaisir de donner le titre dans son intégralité) de Noël et Carpentier.

Pourquoi cet ouvrage ? Eh bien, précisément à cause de la conférence qui s’est tenue hier à l’auditorium du livre, dans la série consacrée à Umberto Eco autour du vertige de la liste, et qui avait réuni autour de lui l’artiste Claude Closky, le poète et romancier Nanni Balestrini et la chanteuse Donatienne Michel-Dansac (dont la façon de dire des listes – ou de ne répéter qu’un seul mot, OK, dans un dialogue désopilant – était particulièrement musicale, enjouée et intelligente). Le lendemain, on a cherché dans Google Books des ouvrages du XVIIe s. qui parleraient de listes, et on y a trouvé un livre (bilingue, en français et en latin) particulièrement intéressant : L’Univers en abrégé où sont contenus en diverses Listes, presque tous les Noms des Ouvrages de la Nature, de toutes les Sciences, & de tous les Arts, avec leurs principaux Termes, par le P. F[rançois] P[orney] de la Compagnie de Jesus, publié en 1684. L’amateur de listes ne peut qu’être comblé (temporairement : c’est une soif infinie). L’auteur a l’ambition de décrire tous les domaines de la connaissance, physique et métaphysique. Chaque chapitre commence par un dialogue :

— Qu’est ce que la Terre ?

— La terre est un Élément très-sec, très-pesant, & froid, qui est immobile en son tout & le centre du monde.

— Quelle est la figure de la Terre ?

— Elle est ronde.

— Comment peut-elle estre ronde avec tant & de si hautes montagnes ?

— Les montagnes n’estant que comme de petites verruës, à l’égard de la grandeur de son Globe, n’empéchent pas qu’elle ne soit ronde.

— Quelle est la grandeur du Globe de la Terre ?

— Elle a de circuit sept mille & cinq cens lieuës de France.1

— Quelle est la profondeur de la Terre ?

— Elle a de diamètre, c’est à dire, de profondeur, en la perçant de part en part en droite ligne ; elle a, dis-je, deux mille & quatre cents lieuës ; & jusqu’à son centre, qui est son demi-diamètre, elle en contient mille & deux cents.

— Quelles sont les productions de la Terre ?

— Les Animaux, les Arbres, les Plantes, les Pierres, les Métaux.

S’ensuivent les listes qui détaillent ces « productions ». On se délectera particulièrement en lisant les nombreuses entrées pour le terme cheval (autant, sans doute, que pour le terme neige chez les Inuits) :

Cheval hongre, chatré. Cheval étalon. Cheval nain. Petit Cheval. Cheval de course, coursier. Cheval de change. Cheval de main. Cheval de poste. Cheval de relais. Cheval de carrosse. Cheval de charette. Cheval de coche. Cheval de male, à porter male, malier. Cheval rétif. Cheval fort en bouche. Cheval qui ruë, qui regimbe. Cheval ombrageux. Cheval qui bronche. Cheval qui secoüe. Cheval qui se couche. Cheval poussif. Cheval amaigry. Cheval bondissant. Cheval indompté. Cheval bay, de couleur rouge obscur. Cheval bay chatin. Cheval bay-brun. Cheval bay-doré. Cheval pie, blanc & noir, ou blanc & de quelqu’autre couleur. Cheval gris pomelé. Cheval isabelle. Cheval alezan, ou roux. Cheval roux alezan, de couleur de feu. Cheval alezan-brûlé, alezan obscur. Cheval aubère, de couleur grisâtre, ayant de grandes taches noires. Cheval rubican, d’un poil meslé de blanc & de rouge pâle. Cheval baillet, de poil roux, tirant sur le blanc. Cheval savre, ou saur (le même qu’alezan).

Si vous ne comprenez pas quelque terme de cette liste, sa traduction en latin ne manquera pas d’illuminer votre esprit.

On ne pouvait que s’interroger sur l’auteur d’un tel ouvrage, François Porney. Internet, toi qui sais tout, dis-moi donc qui était-il ? Pas de réponse, ni dans Google Books, ni ailleurs. Google Books signale des dictionnaires plus tardifs qui en mentionnent le nom ou citent le titre de son dictionnaire, tandis que le catalogue de la bibliothèque nationale d’Australie fournit les dates auxquelles il a vécu (1618-1673) et une liste de ses œuvres traduites en anglais et publiées aux XVIIIe et XIXe siècles. C’est tout.

C’est en cherchant le titre de son dictionnaire, L’Univers en abrégé, qu’on a trouvé le Nouveau dictionnaire des origines – non pas qu’il en parle mais parce que ces premiers mots du titre font partie d’un poème de Dominique Ricard que les auteurs citent dans leur définition de sphère :

Je chante dans ces vers la sphère et son usage :

Du savoir et de l’art ingénieux ouvrage,

Son ensemble, formé par des cercles divers,

A nos yeux étonnés fait mouvoir l’univers.

Quels sublimes esprits, dans leurs savantes veilles,

De ce monde abrégé conçurent les merveilles,

Et des cieux, dans leur vol, atteignent la hauteur,

Surent en découvrir la forme et la grandeur. (…)

C’est donc cet ouvrage dont nous comparons maintenant une page dans les versions qu’en proposent Google Books et Gallica (voir ici les copies d’écran auxquelles nous nous référons).

Google Books affiche le texte original (en mode image) de façon à ce qu’il occupe environ 50% en largeur et 80% en hauteur de la fenêtre du navigateur ; il est parfaitement lisible2 (et Google propose la possibilité de zoomer pour l’agrandir selon que de besoin, un mode « plein écran » qui fait disparaître le menu de gauche et réduit encore plus la zone supérieure, et un mode double page, lui aussi lisible). Le titre (ou du moins ses dix premiers mots, il est fort long) et l’auteur sont affichés sur une seule ligne au-dessus du texte. Plus haut, une case permet de lancer une nouvelle recherche dans toute la bibliothèque numérique. À gauche, une case permet d’effectuer des recherches dans l’ouvrage affiché, et de revenir aux informations (métadonnées) le concernant.

Gallica affiche le texte de façon à ce qu’il occupe 16% de la largeur de la fenêtre et 36% de la hauteur. À cette échelle, il est illisible. 37% de la fenêtre (en largeur) est vide. Des zones – en haut, à gauche (c’est là qu’est affiché une partie du titre et le nom du premier auteur et le lien vers la notice complète) et à droite, offrent des fonctionnalités parfois redondantes (navigation par pagination à gauche, que l’on peut effectuer aussi à l’aide de la petite case indiquant le numéro de la page affichée – pour les pages numérotées) ou inutiles (navigation par vignettes, dans ce type d’ouvrage non illustré où elles se ressemblent toutes). Le mode « pleine page » (appelé ailleurs « plein écran » et équivalent à celui de Google Books) agrandit la zone – y compris le vide qui l’entoure – tout en faisant disparaître la plupart des fonctionnalités des zones qui entourent la page. Le résultat, meilleur, n’est toutefois pas comparable en qualité à celui du mode normal (non zoomé) de Google Books. Gallica propose des liens explicites (« permaliens ») vers l’ouvrage ou vers la page affichée (dans la zone de droite).

La comparaison des « modes texte » dans les deux versions est intéressante : Google Books propose, à chaque écran, le texte correspondant à cinq pages de l’original, et préserve la mise en page au niveau des paragraphes, tandis que Gallica propose le texte page par page, en préservant la mise en mage au niveau des lignes du texte. La qualité de la reconnaissance est aussi différente – si Google Books n’affiche pas le taux, on peut tout de même constater que le résultat est assez bon ; Gallica indique, en haut de page, que « le texte affiché peut comporter un certain nombre d’erreurs » – c’est le cas – et que « le taux de reconnaissance (…) est de 68,19%. »

Pour paraphraser le Sieur Le Gallois, on conclura qu’il n’importe pas d’avoir beaucoup de livres dans une bibliothèque numérique, mais il importe de les avoir bien numérisés.


1. La circonférence de la Terre était connue assez précisément depuis l’Antiquité : elle avait été déterminée par Ératosthène de Cyrène. La mesure qu’en donne Porney – sept mille cinq cent lieues de France – est curieuse, puisqu’il découlerait la lieue de France valait pour lui 40.000/7.500 = 5,3 km, ce qui se rapproche bien plus de la lieue marine (5,5 km) que de la lieue de France (unité variable, qui valait alors un peu moins de 4 km).

2. Google Books n’est pas parfait : on a cite ailleurs des cas de métadonnées particulièrement curieuses, et l’on peut voir ci-dessous deux pages de cet ouvrage dont la numérisation a échoué (avec pour preuve flagrante, pour celle de gauche, que le tourne-page était humain). Mais en général, la qualité est au rendez-vous. Ce genre de problème démontre, s’il le fallait, que le numérique ne doit pas être considéré comme l’unique moyen de conservation à long terme : la préservation de l’original est primordiale. Il démontre aussi le danger d’une stratégie de numérisation qui voudrait éviter, pour des raisons d’économie, de numériser un document qui l’aurait déjà été ailleurs : imaginez qu’un hapax se trouve dans la page d’un livre mal numérisé, mais dont il n’existerait qu’un seul et unique exemplaire numérique : il sera impossible de trouver ce mot. Raison de plus de l’importance de l’existence de bibliothèques numériques concurrentes…

4 commentaires »

  1. [...] Ce genre de problème [les erreurs de numérisation, les erreurs dans les métadonnées] démontre, s’il le fallait, que le numérique ne doit pas être considéré comme l’unique moyen de conservation à long terme : la préservation de l’original est primordiale. Il démontre aussi le danger d’une stratégie de numérisation qui voudrait éviter, pour des raisons d’économie, de numériser un document qui l’aurait déjà été ailleurs : imaginez qu’un hapax se trouve dans la page d’un livre mal numérisé, mais dont il n’existerait qu’un seul et unique exemplaire numérique : il sera impossible de trouver ce mot. Raison de plus de l’importance de l’existence de bibliothèques numériques concurrentes… (14 novembre 2009) [...]

    Ping par Miklos » Avant le commencement d’Europeana était le verbe — 15 novembre 2009 @ 22:32

  2. Merci de ces réflexions sur Google, la numerisation, la recherche, que je trouve un peu tard (a cause de l’indexation????) mais grace au rebond sur votre visite au dernier salon du livre, ah les liens …

    1/ il est interessant de trouver des contenus d’ouvrages anciens qu’il serait laborieux d’aller consulter dans les centres d’archives (et s’ils sont près de chez soi).
    2: pour la recherche j’ai longtemps refusé google, avec alta-vista j’avais les mêmes résultats, mais dans un ordre différent (en principe fréquence des mots, exactitude, …ordre indifférents des messages publicitaires) mais depuis ces regles d’exclusion de Google sur les textes numérisés il y beaucoup plus de réponses dans google, qu’il faut bien entendu passer plus de temps à trier.
    remarque Google a dazvantage de réponse parce qu’il assimile des déformation du mot vous cherchez GUADET il vous répond GADET par exemple.
    3/ sur gallica à part la lecture d’une ou dux pages, je préfère charger le document puis l’exploiter dans acrobat

    4/ l’interet du numerique c’est bien entendu l’indexation, la recherche de lots si la numérisation est correcte.

    5/ ce que je trouve scandaleux c’est de confondre l’agrément de la recherche et dire « je trouve tout dans Google » alors que par exemple c’est wikipédia qui est majoritairement pillé par l’indexation Google. Quelle part de pub est reversée par google à wiki? et aux autres sites exploités? certains blogs offrent effectivement une remunération, toujours la pub via google et donc des messages « attirants ».

    Commentaire par gebe — 23 mars 2011 @ 10:08

  3. Exploités, les sites ? Voyons, bien au contraire ! Wikipedia est tellement « bien » indexé par Google qu’il a atteint une notoriété universelle – les gens vont y lire tout et n’importe quoi (je me suis exprimé à plusieurs reprises sur la question de la qualité dans WP, et je n’y reviendrai pas ici, ce n’est que pour dire que qualité et notoriété ne sont pas identiques).

    Google y gagne aussi évidemment, mais tout site qui se respecte veut être indexé à fond par Google, parce que « tout le monde » accède au web par Google (je me suis aussi exprimé sur eux à plusieurs reprises).

    Commentaire par Miklos — 23 mars 2011 @ 20:52

  4. [...] OCRisée avec succès, une photo de la main qui maintient la page suivante (on avait déjà montré un autre exemple plus frappant des quelques aléas de leur entreprise), et une photo d’une page successive correctement prise [...]

    Ping par Miklos » Les bigarrures des bibliothèques numériques — 18 juillet 2011 @ 0:05

Flux RSS des commentaires de cet article. TrackBack URI

Laisser un commentaire

XHTML: Vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

The Blog of Miklos • Le blog de Miklos