Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

23 mars 2007

Quand la BnF défie Google

Classé dans : Littérature, Livre, Sciences, techniques — Miklos @ 8:32

Mais ce pont d’Arcole, par sa situation, résistait à toutes nos attaques. Napoléon essaya un dernier effort de sa personne: il saisit un drapeau, s’élança vers le pont, et l’y plaça. La colonne qu’il conduisait l’avait à moitié franchi, lorsque le feu de flanc fit manquer l’attaque. Les grenadiers de la tête abandonnés par la queue hésitent ; ils sont entraînés dans la fuite, mais ils ne veulent pas se dessaisir de leur général ; ils le prennent par les bras, les cheveux, les habits, et l’entraînent dans leur fuite, au milieu des morts, des mourants et de la fumée. Le général en chef est précipité dans un marais ; il y enfonce jusqu’à la moitié du corps : il est au milieu des ennemis ; mais les Français s’aperçoivent que leur général n’est point avec eux. Un cri se fait entendre : « Soldats, en avant pour sauver le général ! ». Les braves reviennent au pas de course sur l’ennemi, et Napoléon est sauvé. Cette journée fut celle du dévouement militaire. — Las Cases, Le Mémorial de Saint-Héléne, tome II, p. 217. Garnier 1955.

En 1796, l’armée française remporte une victoire au pont d’Arcole, après qu’elle se soit enlisée – littéralement – dans un bourbier. En juin 1997, la Bibliothèque nationale de France attaque Arcole, opération visant à « communiquer sur internet un corpus francophone du XIXe siècle de 2400 œuvres, monographies ou périodiques et d’environ 6500 images, libres de droit (…) qui préfigurera les accès futurs aux 90 000 textes déjà numérisés depuis 6 ans par la Bibliothèque nationale de France. » Arcole deviendra Gallica qui, dix ans plus tard, contient toujours (ces) 90 000 volumes imprimés en mode image. Ce mode image avait soulevé à l’époque des débats concernant l’accessibilité des contenus : débits des réseaux, accès au texte pour malvoyants et pour ceux souhaitant travailler sur les textes, voire pour la recherche en texte intégral.

En mars 2007, la Bibliothèque nationale de France ouvre Europeana β, « prototype de bibliothèque en ligne développé dans le cadre du projet de Bibliothèque numérique européenne » et comprenant 12 000 documents en plusieurs langues, consultables en mode image ou texte (les déficients visuels ont heureusement été entendus). Le projet d’une bibliothèque numérique européenne avait pris corps au début de 2005, avec l’appel de Jean-Noël Jeanneney pour un sursaut culturel et politique de l’Europe face à l’hégémonie de Google qui avait déjà mis en place sa bibliothèque numérique. Il suggérait un grand projet européen, à l’instar de certaines entreprises du continent qui s’imposent mondialement, tels Airbus (face à Boeing). On sait les récents avatars du moteur franco-allemand dans ce dernier projet, on a vu le retrait fin 2006 de l’Allemagne du projet d’un autre moteur – de recherche, celui-ci –, Quaero (Europeana utilise Lucene), et l’on notera qu’Europeana propose, dans sa toute première version, des ouvrages provenant de ses fonds et de ceux de bibliothèques nationales de Hongrie et du Portugal. Pas d’Allemagne, ni d’ailleurs de Grande Bretagne, qui avait annoncé son intention de faire l’affaire avec Microsoft plutôt qu’avec l’Europe continentale. Un bourbier dans lequel le projet européen menace de s’enfoncer.

Europeana se présente simplement : une case pour la recherche simple dans les titres et dans les sommaires du fonds – ainsi que dans le texte intégral d’une partie des ouvrages1 – ou le choix de se balader dans les fonds selon l’époque (16e au 20e siècles), la langue, la provenance (France, Hongrie, Portugal) ou la discipline (sciences, philosophie, arts…). Une fois que l’on a effectué son choix, une liste d’ouvrages s’affiche à l’écran. Lorsque cette liste est longue – cherchez par exemple « amour » – les possibilités offertes pour réorganiser (trier) la liste voire la réduire (à l’aide des options dans le pavé Affiner) sont encore trop limitées, et des méthodes de recherche multilingues et sémantiques ne sont pas encore proposées. On se retrouve, finalement, là comme dans les moteurs traditionnels basés sur une recherche purement lexicale, devant une présentation linéaire de réponses.

Le premier livre que j’ai voulu consulter était curieusement signalé ainsi : « Amant+ rendu cordelier a :lobservance damours: +l’observance d’amour+ ». Lorsqu’on l’ouvre, on passe à une interface permettant de consulter les pages une à une, bien plus aisément et rapidement que dans Gallica ; on notera la possibilité de feuilleter le livre par table des matières (si elle existe), par vignettes (ce qui est utile surtout pour un livre illustré), ou simplement par la pagination (ce qui est inutile quand elle est inexistante, comme dans ce premier ouvrage consulté). On remarquera que chaque page possède une adresse distincte, ce qui permet de la référencer directement.

Le contenu – la page affichée – est bordé de pavés proposant des fonctionnalités que l’on connaissait auparavant, mais utilisant des techniques plus modernes connues sous le nom d’Ajax : on peut déplacer ces pavés sur la page, ce qui, pour le moment, tient plus du gadget que de la fonctionnalité essentielle ; d’autre part, ces pavés se redessinent lorsqu’on passe d’une page à l’autre dans un ouvrage, ce qui est assez gênant : imaginez que, lorsque vous feuilletez un livre posé sur une table, d’autres objets sur la table se mettent à danser… Parmi ces pavés : la recherche en texte intégral dans le document – difficile à réaliser pour ce texte à l’écriture gothique, qui n’a pas permis de fournir un mode texte cohérent ; voici ce qui s’affiche lorsqu’on passe à ce mode :

jbng &ce rc&gictiç çonitcre
Dint donner atout (eau 6miftt
buit que (a $tant mcfjc fut bute
3?e %te fa %ror bamppwcuttut
V>oitant ^ttgîtfaigc Ô0rrm«c
£>«î ftfta (amant gt ant gonneur
CI:î1D1. ta btff if tap parte

qui est supposé retranscrire l’original « De la nef et a loposite / Ung des religieux convers / Vint donner a tous leau benite / Puis que la grant messe fut dicte / Je veis la venir damp procureur / Portant ung visaige dhermite / Qui fist a lamant grant honneur ». Pour des ouvrages plus récents, cette recherche fonctionne correctement, en surlignant les occurrences retrouvées dans le texte (mode image ou intégral), et l’affichage en texte intégral est très majoritairement bon.2 Il est à noter que les contenus numérisés de la partie française d’Europeana ont été pris dans Gallica, et ne sont pas le résultat d’une renumérisation : leur qualité reflète donc celle de ce fonds numérique qui commence à dater.

La personnalisation est encore très limitée dans ce prototype : on peut se créer un « panier » de documents – mais, comme on le verra tout de suite, uniquement pour les fonds particuliers à la BnF et pas ceux fournis par ses partenaires. Il est possible de télécharger les ouvrages (ainsi que de les imprimer ou de les envoyer par courriel), qui s’affichent alors en PDF, ce qui est bien plus commode que le système qui était proposé dans Gallica. On aimerait voir la possibilité d’annoter ou de surligner les pages, de glisser des marque-pages3, de partager des annotations du texte (voire des métadonnées) avec d’autres lecteurs…4

En voulant consulter un ouvrage en portugais, j’ai été surpris de me voir « transporté » sur un autre site, celui de la Bibliothèque nationale numérique du Portugal5 : l’interface est donc tout à fait différente, ne s’intègre pas dans la personnalisation offert dans Europeana, et les contenus sont présentés dans d’autres formats (PDF). C’est aussi le cas pour les ouvrages fournis par la Hongrie.6

Le prototype que nous propose aujourd’hui la Bibliothèque nationale de France ne doit pas se bouder, s’il est destiné à se développer – et l’État a donné à la Bibliothèque nationale les moyens financiers de le faire – autant sur les fonds nationaux et européens que sur l’outil lui-même7. On devrait voir le volume augmenter de 130 000 documents en 2007, et de 100 000 documents par an « pour plusieurs années ». On souhaite, on espère et on attend la réussite de cette grande entreprise culturelle – défi que Jean-Noël Jeanneney a lancé avant tout à la BnF, tel Bonaparte à ses troupes devant Arcole.

(Ce texte a été corrigé et complété de notes après la présentation d’Europeana au Salon du livre ce matin.)


Notes :

1 La recherche globale dans l’ensemble des fonds présentés n’est pas (encore) proposée : ces fonds, comme on le verra, ne se trouvent pas tous dans le « système » de la BnF, mais dans ceux de chacune des bibliothèques participant au projet. On aurait toutefois pu mutualiser les index comme on l’avait proposé il y a deux ans. Il semblerait que ce sera envisagé dans le futur.
2 Catherine Lupovici, interrogée à ce sujet, a indiqué que cela devait avoir échappé à la vigilance du processus de reconnaissance du texte, qui évite d’afficher des contenus textuels reconnus à moins de 96% de fiabilité. On rappelle qu’il s’agit d’une version bêta.
3 Comme on l’a vu plus tard lors de la démonstration au Salon du livre, il est possible de « marquer » des pages pour les retrouver plus tard ; ces marques entrent dans un dossier propre à l’utilisateur, qui peut ainsi retrouver plus tard l’ouvrage et les pages qu’il s’est ainsi signalés. Il serait intéressant d’avoir aussi des marque-pages graphiques, s’affichant sous forme d’onglets du livre qu’on est en train de lire et de marquer ainsi.
4 Lors de la présentation qu’en a faite la BnF aujourd’hui au Salon du livre, il a été indiqué que des évolutions de ce type étaient envisagées. Il serait même question d’encourager la participation des lecteurs pour améliorer la qualité de la reconnaissance textuelle. C’est le principe selon lequel fonctionne le beau projet Gutenberg de bibliothèque numérique (créé en 1971). On se doute aussi que la BnF essaie d’éviter certaines dérives du numérique et des réseaux sociaux informatisés.
5 Qui utilise des adresses électroniques permanentes (« permanent URL »), excellente idée.
6 La BnF a précisé aujourd’hui que l’interopérabilité de ces bibliothèques – qui, aujourd’hui, ne concerne que la signalisation des ouvrages (partage des métadonnées à l’aide du protocole OAI – ce que j’avais envisagé en 2005) – a vocation à s’étendre aux interfaces et aux (index des) contenus. En d’autres termes, ce changement n’aura plus lieu d’être, même si le contenu se trouve réparti dans des fonds numériques distincts – cf. proposition signalée dans la note 1.
7 Ce développement bénéficiera tout d’abord à Gallica, qui évoluera dans ce sens, avec – éventuellement – une renumérisation et/ou reconnaissance renouvelée du texte selon que de besoin. Quant à l’intégration des bibliothèques nationales européennes entre elles, c’est une affaire loin d’être résolue : certaines font bande à part, d’autres n’ont pas encore les moyens de se joindre entièrement à un tel dispositif.

11 commentaires »

  1. Questions très intelligentes. Il faudrait travailler sérieusement dans un projet qui ne reste pas un bluff ou un engagement en ordre épars. J’ai déjà assisté à des explications assez fumeuses mais très officielles concernant le moteur de recherche européen ou l’évolution des collections de textes numérisés.
    Autrement trouver des solutions avec… l’ennemi qui rendent raison des langues autres que l’anglais…

    Commentaire par Nuvolone Flavio — 25 mars 2007 @ 20:51

  2. Je précise que je ne pense pas que ce projet soit un bluff. Encore faudrait-il savoir de quel projet on parle. Mon impression – et c’était flagrant aux dernières Journées professionnelles de la BnF – qu’il n’y a pas de réel engagement européen, et qu’on voit foisonner des projets divers, ayant ou non des passerelles entre eux. Il y a évidemment des raisons structurelles, institutionnelles, personnelles, culturelles, politiques à cela – de même nature, finalement, de celles qui handicapent la construction européenne. Il est évidemment beaucoup plus facile à une seule très grande entreprise de réaliser un tel projet dont l’intérêt et donc la motivation est économique (« Money makes the world go around », dit la chanson dans Cabaret) – qu’à une multiplicité d’acteurs de s’accorder entre eux sur un projet culturel. Ce n’est pas une raison de baisser les bras : je préfèrerais voir les bibliothèques nationales s’accorder entre elles plutôt que chacune d’elles « trouver des solutions avec… l’ennemi », pour vous citer ; non pas que je considère que Google soit un ennemi (ni un ami : ses systèmes sont loin d’être ouverts, et les contenus de sa bibliothèque numérique ne sont pas indexables par autrui) : mais parce que j’espère encore que l’Europe sera à même de progresser dans la coopération interne, ce qui ne l’empêchera pas de collaborer avec d’autres pays ou entreprises (mais l’un ne remplace pas l’autre).

    Commentaire par Miklos — 25 mars 2007 @ 21:14

  3. Bonjour,

    Libération présente :”Le Net a sa grande bibliothèque
    (cf “Europeana, première ébauche de la Bibliothèque numérique européenne (BNUE), ”

    Pour aller plus loin : Libération du 23 mars 2007

    Commentaire par Sabah — 26 mars 2007 @ 8:23

  4. Le contraste entre le titre de l’article, Le Net a sa grande bibliothèque, et la fin, Ce n’est encore qu’un prototype modeste, est frappant. Une des questions qui reste sans réponse est justement dans la phrase que vous soulignez et qui ouvre l’article : …première ébauche de la Bibliothèque numérique européenne. Laquelle ? Pour qui ? Quand ?

    Commentaire par Miklos — 26 mars 2007 @ 10:46

  5. Projet intéressant, certes, mais les modes de recherche des documents sont pour le moins indigents (liste des auteurs fournie seulement en affinage -’second choix’, quelle étrange démarche…) La comparaison avec Google me paraît spécieuse : le projet Gutenberg est autrement plus intéressant (près de 20000 livres accessibles, essentiellement numérisés en mode texte)… dommage de citer ce projet seulement dans vos notes… Apparemment M. Jeanneney n’y fait guère allusion, qui sait pourquoi ? Pour en revenir à Google, nous (les bibliothécaires) avons beaucoup à apporter sur la Toile en terme de structuration de l’information (normes de description des ouvrages, harmonisation des accès…)-et ce projet ‘napoléonien’ n’est pas exactement une vitrine en la matière -encore dommage…
    Marianne Farges.

    Commentaire par Marianne Farges — 26 mars 2007 @ 11:21

  6. Il faut comparer ce qui est comparable. Si j’ai mentionné le projet Gutenberg, que je connais – et apprécie – depuis de nombreuses années, c’est pour faire un rapprochement à propos de la correction collaborative – idée intéressante mais difficile à appliquer.

    Vous indiquez bien que Gutenberg propose 20.000 livres : le projet a débuté en 1971… Si la BnF mettait des documents en ligne à cette allure, elle ferait l’objet de critiques bien plus virulentes. Si elle ne les mettait qu’en mode texte, beaucoup serait perdu : l’interêt est justement la combinaison de mode image (en bonne qualité, pour la lecture) et de mode texte (sous-jacent, pour la recherche ; et pour les non-voyants) – ce que la Bibliothèque du Congrès avait compris il y a bien longtemps. En sus, Gutenberg ne propose pas de corpus, mais ce que ses volontaires veulent bien proposer – ce n’est pas le propos de ce projet de la BnF.

    Quant au fait que Mr Jeanneney n’y ferait pas allusion, ce n’est pas exact, je l’ai déjà entendu le mentionner.

    En ce qui concerne la description des ouvrages : la BnF a indiqué (vendredi) l’intention de fournir des métadonnées plus riches dans Europeana – ou dans Gallica 2 (qui devrait bénéficier des développements d’Europeana).

    La grande question que l’on peut se poser est quelle direction va prendre le projet interne de la BnF (avant même de parler d’un/de projet(s) européens) avec le changement de présidence : Jean-Noël Jeanneney a terminé sa présentation en indiquant que l’Etat avait décidé de ne pas le faire bénéficier d’une loi qui lui aurait permis de continuer à la tête de la BnF au-delà de la limite d’âge, qu’il atteindra le 2 avril. L’arrivée d’un nouveau président (un nom circule) pourrait signifier des changementes radicaux dans la nature des collaborations internationales et/ou avec le secteur privé (et qui sait, avec Google ?).

    Commentaire par Miklos — 26 mars 2007 @ 12:41

  7. Je suis un lecteur assidu de votre blog.

    L’imagerie militaire est-elle de rigueur ? En outre, la comparaison avec Bonaparte – est-ce voulu ? – suggère l’idée d’une France impérialiste qui souhaite imposer à l’Europe ses Lumières. Ce qui en soi ne me choque pas plus que cela… mais quel pourrait être le Traité de Vienne des bibliothèques virtuelles ?

    Par ailleurs, que pensez-vous de cette autre vision des choses, qui m’a été rapportée et présentée récemment par le directeur de la Réserve de la Spencer Library (University of Kansas, qui, contrairement à une information qui a circulé sur Biblio-fr, n’a pas signé avec Google): que ce soit Google ou les Français, de toute façon le résultat sera le même, à savoir le déclin des bibliothèques universitaires; car au-delà des arguments scientifiquement valables que pourront formuler les bibliothécaires, la logique implacable des restrictions budgetaires jouera et prendra appui sur la disponibilité à moindre coûts de livres numériques. (ceci n’est pas une question rhétorique; c’est une question posée à un connaisseur par un jeune étudiant).

    Commentaire par Djb — 26 mars 2007 @ 16:42

  8. ZDNet publie une analyse similaire et un entretien (que l’on peut écouter) avec Jean-Noël Jeanneney.

    Commentaire par Miklos — 26 mars 2007 @ 18:11

  9. Merci pour votre commentaire.

    Pour répondre à votre premier groupe de questions, je dirai uniquement que ce n’est pas le côté militaire de l’affaire auquel je pensais. Il y en a bien d’autres (l’article me semble assez clair sur ces points), et je laisse le lecteur faire ses propres associations.

    Quant à la deuxième question : je me garderai bien de jouer au prophète. Je me permettrai quelques remarques, toutefois : l’inauguration des nouveaux locaux et de la bibliothèque de Paris 7 ne semble pas aller dans ce sens ; à moyen terme, je ne pense pas que les livres numériques se substituent, autant dans la variété et la couverture des fonds que dans l’aisance de leur manipulation, aux livres physiques ; lorsque ce sera le cas (ce n’est pas demain la veille), les bibliothèques auront évolué, et ce ne sera pas forcément un déclin (ni a contrario un progrès), mais une probable mutation ; ensuite, comme je l’avais écrit ailleurs (page 2, 2e paragraphe), une bibliothèque ne se résume, ou réduit, pas à ses fonds physiques ; enfin, si la logique implacable était à l’oeuvre, on aurait depuis longtemps évité – ou réduit – la course au réchauffement de la planète – en d’autres termes, il n’y a pas « une » logique, mais plusieurs et parfois aucune à l’oeuvre…

    Enfin, il est à espérer que ce ne soit pas l’université toute entière qui décline, sous la pression d’un populisme démocratique à la Wikipedia (le cas de ce docteur en théologie en est symptomatique) : ce déclin serait inéluctable, s’il est précédé par celui de ses bibliothèques ; car sans bibliothèques (dans le sens élargi), pas de recherche, pas de savoir, pas de patrimoine, pas de transmission – et donc pas de culture, plus de société. Il n’est donc pas étonnant que celles-ci commencent aussi à assumer des fonctions de (re)socialisation, dans l’aménagement de leurs espaces, et bientôt de leurs outils.

    Commentaire par Miklos — 26 mars 2007 @ 21:44

  10. [...] Ses prises de position, de principe (essentiellement : ne pas laisser s’instaurer une seule source, donc forcément hégémonique, pour le patrimoine culturel) avaient amené à la mise en place du projet Europeana, qui vise à mettre en ligne un volume important du patrimoine culturel européen numérisé : livres, bien entendu, mais aussi images (tableaux, estampes…), musique et vidéo. Ce n’était pas une opposition absolue à Google, dont la BnF avait discrètement adopté le moteur de recherche, mais là c’est un revirement stratégique (résultant de considérations financières) et la BnF se rend à Canossa : selon La Tribune d’aujourd’hui (dixit Reuters et d’autres sources), la BnF serait en négociation avec Google pour numériser son patrimoine, suivant ainsi l’exemple – tant décrié à l’époque – de la bibliothèque municipale de Lyon. [...]

    Ping par Miklos » « Quand Google défie l’Europe » — 18 août 2009 @ 8:36

  11. [...] Gallica, mis en œuvre par la Bibliothèque nationale de France, et qui comprend une partie croissante de [...]

    Ping par Miklos » De quelques bibliothèques numériques — 27 août 2009 @ 13:15

Flux RSS des commentaires de cet article. TrackBack URI

Laisser un commentaire

XHTML: Vous pouvez utiliser ces balises : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

The Blog of Miklos • Le blog de Miklos