Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

17 août 2008

Le bibliothécaire idéal

Classé dans : Livre, Sciences, techniques — Miklos @ 20:13

La branche française du service de vente en ligne Amazon utilise probablement des logiciels pour classifier automatiquement les tonnes de titres qu’elle référence, ce qui doit lui permettre de les traiter plus rapidement. Mais mieux qu’un bibliothécaire de chair, de sang et de sueur ? On en douterait parfois. Ainsi, ils ont choisi de ranger d’office les livres comprenant le mot Sabbat dans la catégorie Religions et spiritualités > Judaïsme > Fêtes et traditions. À première vue, cela semblerait logique, mais quand on constate le résultat, ça va du pitoyable au cocasse. Voici quelques-uns des titres que l’on peut y trouver en vrac :
— Le Sabbat des caresses, ou les Plaisirs de la nuit / Maurice Dekobra (plus connu pour sa Madone des Sleepings).
— Les enfants du sabbat / Anne Hébert (roman fantastique dans un couvent au Québec).
— Saut-Sabbat / Patrick Fischer-Naudin (roman d’aventure écologique qui se passe à Saut-Sabbat au Surinam).
— Les enfants du sabbat / Frédéric Bouglé (cycle d’expositions sur la jeune création, initié par le Creux de l’enfer en 2001).
— La Reine du sabbat / Gaston Leroux (l’auteur du Fantôme de l’Opéra serait surpris de voir ses romans ainsi catégorisés).
— Les Hanteurs du Sabbat / Pierre Balin (roman écrit en 1892 et qui se passe dans l’ouest lyonnais au XIIIe s.).
— Partition de la Symphonie fantastique, op. 14 – 5e mouvement : Songe d’une nuit de sabbat / Hector Berlioz.
— Miracles et sabbats. Journal du père Maunoir. Missions en Bretagne 1631-1650.
— Rites et sabbats en Normandie / Georges Bertin.
— Sabbat, juges et sorciers, quatre siècles de superstitions dans la France de l’est / Jean Vartier.
— Le sabbat des lucioles : sorcellerie, chamanisme et imaginaire cannibale en Nouvelle-Guinée / Pierre Lemonnier.
— Le sabbat des sorciers en Europe : XVe-XVIIIe siècle.

… et bien d’autres. Si le terme sabbat provient de l’hébreu (dérivé du verbe signifiant « arrêter de travailler », voire « faire grève » et y dénotant le septième jour de la semaine, jour de repos), il a acquis en français d’autres sens détachés du judaïsme, d’abord ésotériques1 puis plus communs2 du fait de « l’interprétation malveillante du sabbat juif faite par les chrétiens » (TLF). Toute personne sachant lire ne ferait pas l’erreur de classer les œuvres ci-dessus dans la catégorie Fêtes et traditions juives sans avoir même besoin d’en connaître le contenu. Le logiciel d’Amazon, lui, ferait bien piètre concurrence au bibliothécaire moyen.

C’est aussi le cas pour le service de livres en ligne de Google. Ainsi, on y voit les actes d’une conférence consacrée aux réseaux de Petri en 2000 indiqués comme ayant été publiés en 1825 – ce qui relève plus de la science fiction que de la science ; un livre sur le langage informatique Python avec, pour mots clé Enola Gay, clopes, nazisme, orgasme, boxe thaï, cyclothymie… ce qui ne manque pas de piquant et démontre bien la cyclothymie du service. Enfin, puisqu’on effleure la médecine, un livre d’introduction aux statistiques, Statistics for People Who (Think They) Hate Statistics classé dans la rubrique Alternative medicine. Il est vrai que ce dernier ouvrage vise à libérer d’une phobie, mais alors il se serait mieux retrouvé dans la rubrique Psychoanalysis. Ou plus simplement Mathematics.

Bibliothécaires, n’ayez pas peur ! Ce n’est pas demain la veille qu’on se passera de vos services.


1 « Assemblée nocturne de sorciers et de sorcières, tenue dans un lieu désert souvent élevé, dans laquelle le culte rendu au diable, les danses et les orgies rappellent ceux de l’antiquité païenne ; pratiques auxquelles on s’y livre » (TLF).
2 « Réunion bruyante, licencieuse ; orgie. . . . Agitation désordonnée et bruyante ; vacarme. » (TLF)

13 mai 2007

« Une horreur subalterne : la vaste Bibliothèque contradictoire »

Classé dans : Littérature, Livre, Sciences, techniques — Miklos @ 1:58

« Bientôt, les écrivains ne se demanderont plus “Quel livre écrirai-je ?” mais “lequel ?” » – Kurd Lasswitz (cité par J. L. Bórges)

Jorge Luis Bórges ne s’est pas attribué l’invention de la bibliothèque universelle. Bien au contraire : il détaille la longue histoire de ce « caprice, ou imagination, ou utopie », dont on doit la préfiguration à Démocrite, et dont le « tardif inventeur est Gustav Theodor Fechner et Kurd Lasswitz est le premier à l’exposer ». Fechner (1801-1881) est considéré comme le père de la psychologie expérimentale contemporaine, où il a introduit des méthodes quantifiables et mathématiques. Lasswitz (1848-1910) était mathématicien et physicien ; non traduit et quasi inconnu en France1, on lui attribue la paternité de la littérature de science fiction allemande. Bórges écrit :

« Lasswitz, encouragé par Fechner, imagine la Bibliothèque Totale. Il publie son invention dans le volume de récits fantastiques Traumkristalle.

Lasswitz presse les hommes de produire mécaniquement cette Bibliothèque inhumaine qui organiserait le hasard et éliminerait l’intelligence (…). Tout sera contenu dans ces volumes aveugles. Tout, l’histoire minutieuse de l’avenir, Les Égyptiens d’Eschyle, le nombre précis de fois que les eaux du Gange ont reflété le vol d’un faucon, l’authentique et secret nom de Rome, l’Encyclopédie qu’aurait édifiée Novalis, mes rêves et mes demi-sommeils de l’aube du 14 août 1934, la démonstration du théorème de Pierre Fermat, les chapitres non écrits d’Edwin Drood, ces mêmes chapitres traduits dans la langue que parlèrent les garamantes, les paradoxes que conçut Berkeley sur le temps et qu’il ne publia pas, les livres de fer de Urizen, les épiphanies anticipées de Stephen Dedalus qui avant un cycle de mille ans ne voudraient rien dire, l’évangile gnostique de Basilide, la chanson que chantaient les sirènes, le catalogue fidèle de la Bibliothèque, la démonstration de la fausseté de ce catalogue. Tout, mais pour une ligne raisonnable ou une indication exacte, il y aura des millions de cacophonies insensées, de fatras verbaux et d’incohérences. Tout, mais les générations des hommes peuvent passer sans que les rayons vertigineux – les rayons qui oblitèrent le jour et dans lesquels habitent le chaos – leur aient accordé une page tolérable.

L’une des habitudes de l’esprit est d’inventer des imaginations horribles. Il a inventé l’Enfer, il a inventé la prédestination à l’Enfer, il a imaginé les idées platoniciennes, la chimère, la sphynge, les anormaux nombres transfinis (dans lesquels la partie n’est pas moins abondante que le tout), les masques, les miroirs, les opéras, la tératologique Trinité : le Père, le Fils et le Spectre insoluble, articulés en un seul organisme… J’ai tenté, moi, de sauver de l’oubli une horreur subalterne : la vaste Bibliothèque contradictoire, dont les déserts verticaux de livres courent le risque incessant de se changer en d’autres et qui affirment tout, nient tout et confondent tout comme une divinité qui délire.

Jorge Luis Bórges, « La bibliothèque totale », Sur n° 59, août 1939, traduit par Alain Calame

Selon Lasswitz, il n’y aurait pas assez de place dans tout l’Univers pour une telle bibliothèque. Mais l’homme ne s’arrête pas d’écrire : il l’a fait bien avant l’invention de la machine à écrire (et a fortiori de l’ordinateur) : l’écrivain le plus prolifique à ce jour est réputé être l’espagnol Lope de Vega (1562-1635), dont on avait mentionné les « plus de 1800 pièces de théâtre dont il ne nous reste que quelque 400… et (…) nombreuses autres œuvres (poésie, romans, critique, lettres…) ». Il est suivi (selon le Quid) par un auteur anglais de feuilletons, Charles Hamilton (1876-1961), qu’on ne peut soupçonner d’avoir fait usage de générateurs automatiques de textes, de poèmes et d’acrostiches, puisqu’il est décédé en 1961, année où Raymond Queneau publie son Cent mille milliard de poèmes, qui ne sera réalisé en informatique2 que bien plus tard. On constate avec un plaisir teinté de souvenirs évanescents3 que la romancière Enid Blyton (1898-1968), dont les aventures du Club des cinq avaient passionné une partie de notre enfance, s’y trouve en bonne position. Nostalgie, quand tu nous tiens… « Quand je tenais un Club des cinq nouveau, je fermais ma porte, redressais mon traversin, m’installais confortablement, en espérant ne plus bouger avant la fin du livre. Tout le monde savait qu’il ne fallait pas me déranger (…). J’aimais son épaisseur, le contact glacé de sa couverture. Un de mes plaisirs était de sentir la reliure intacte, la bonne odeur de papier entre les pages. » (Serge).

« Concevons qu’on ait dressé un million de singes à frapper au hasard sur les touches d’une machine à écrire et que, sous la surveillance de contre­maîtres illettrés, ces singes dacty­lo­graphes tra­vail­lent avec ardeur dix heures par jour avec un million de machines à écrire de types variés. Les contre­maîtres illettrés rassem­bleraient les feuilles noircies et les relie­raient en volumes. Et au bout d’un an, ces volumes se trouveraient renfermer la copie exacte des livres de toute nature et de toutes langues conservés dans les plus riches biblio­thèques du monde. » – Émile Borel, « Mécanique Statistique et Irréversibilité », J. Phys. 5e série, vol. 3, 1913, pp.189-196. Cité par Infinite Monkeys.L’auteur qui s’y trouve en quatrième position(après l’Indien Baburao4 Arnalkar) est le Brésilien Ryoki Inoué ; médecin de formation, il est l’auteur de 1 075 livres5 et mérite bien son surnom d’« homme-machine à écrire » attribué par le Courrier international (26 avril 2007). Mais selon l’article, il est largement battu par Corín Tellado, auteure de « quelque 5 000 romans à l’eau de rose » (et inconnue du Quid). À force, et grâce aux lois de statistique citées par le grand mathématicien Émile Borel (cf. encadré), il devra bien s’y trouver finalement un chef-d’œuvre ou du moins un paragraphe d’anthologie, indé­pen­damment des dons de l’auteur. Mais il n’est pas donné à tout le monde d’être un Lope de Vega (ni de vivre assez longtemps pour suppléer à ce million de singes), sinon cela se saurait.

Les grands écrivains n’ont pas attendu l’invention de l’ordinateur pour imaginer des machines à générer du texte6. Ainsi, le génial Jonathan Swift décrit en 1726 une machine de ce type se trouvant dans un des ateliers de l’Académie de Laputa, que visite Gulliver :

« Ce métier avait vingt pieds carrés, et sa superficie se composait de petits morceaux de bois à peu près de la grosseur d’un dé, mais dont quelques-uns étaient un peu plus gros. Ils étaient liés ensemble par des fils d’archal très-minces. Sur chaque face des dés étaient collés des papiers, et sur ces papiers on avait écrit tous les mots de la langue dans leurs différents modes, temps ou déclinaisons, mais sans ordre. Le maître m’invita à regarder, parce qu’il allait mettre la machine en mouvement. A son commandement, les élèves prirent chacun une des manivelles de fer, au nombre de quarante, qui étaient fixées le long du métier, et, faisant tourner ces manivelles, ils changèrent totalement la disposition des mots. Le professeur commanda alors à trente-six de ses élèves de lire tout bas les lignes à mesure qu’elles paraissaient sur le métier, et quand il se trouvait trois ou quatre mots de suite qui pouvaient faire partie d’une phrase, il la dictait aux quatre autres jeunes gens qui servaient de secrétaires. Ce travail fut recommencé trois ou quatre fois, et à chaque tour les mots changeaient de place, les petits cubes étant renversés du haut en bas.

Les élèves étaient occupés six heures par jour à cette besogne, et le professeur me montra plusieurs volumes grand in-folio de phrases décousues qu’il avait déjà recueillies et qu’il avait l’intention d’assortir, espérant tirer de ces riches matériaux un corps complet d’études sur toutes les sciences et tous les arts. »

Jonathan Swift , Voyages de Gulliver dans des contrées lointaines, Troisième partie (Voyage à Laputa), chap. 5, pp 270-271. Traduction nouvelle précédée d’une notice par Walter Scott. Illustrations par J.-J. Grandville. Garnier Frères, Paris, m dccc lvi.

Quoi qu’il en soit, Arnalkar écrit ses livres à l’ordinateur (et doit changer de clavier tous les six mois), contribuant ainsi au volume astronomique des contenus numériques produits annuellement, qui ne fait que croître. Y contribuent aussi les grands chantiers de numérisation rétrospective du patrimoine littéraire. L’excellente chaîne de radio publique américaine NPR a réuni avant-hier lors de son émission-phare Talk of the Nation trois acteurs majeurs représentant des approches très diverses concernant cette « utopie », pour reprendre le terme de Bórges.

Michael Hart en est certainement le précurseur (et n’a rien d’un canular, à l’opposé d’un autre précurseur, Hégésippe Simon) : c’est en 1971 qu’il saisit au clavier le tout premier ouvrage (la Déclaration de l’indépendance américaine) de ce qui deviendra le Projet Gutenberg. Celui-ci propose aujourd’hui plus de 20 000 ouvrages, fournis par un travail entièrement bénévole de volontaires aux quatre coins du monde, auxquels se rajoute un nombre bien plus important de contenus contribués par des filiales et des partenaires. Selon Hart, plus le temps passe et plus la part des livres hors copyright baisse, non seulement à cause des volumes croissants de la production, mais des prolongations périodiques des durées de protection pour éviter que des œuvres juteuses ne tombent dans le domaine public (on connaît à ce propos le sort d’une certaine souris). Dans Gutenberg, les textes sont saisis (ou numérisés, puis reconnus) en texte intégral, qui ne préserve pas le format et la mise en page d’origine. Ils passent ensuite plusieurs étapes de relecture. Ceci assure leur haute qualité, mais explique aussi le nombre relativement peu élevé d’ouvrages dans cette collection7. L’utopie selon Hart c’est que chacun puisse posséder, en 2021, une bibliothèque personnelle comprenant un milliard d’ouvrages numériques. Pour cela, il faut continuer à numériser, et à traduire les ouvrages en un grand nombre de langues.

Brewster Kahle établit, en 1996, l’Internet Archive, afin de préserver les contenus changeants et éphémères8 du Web, de tout le Web, ou en tout cas d’une bonne partie. Plus récemment, s’y sont rajoutés des enregistrements sonores et des images animées, ainsi que quelque 200 000 livres (qu’ils numérisent à raison de 12 000 par mois) « hors copyright ou orphelins » (curieuse affirmation, puisqu’on y a trouvé un ouvrage publié par Gallimard en 1960 ; il ne doit pas être le seul). L’objectif est de fournir la possibilité de télécharger tous les contenus qu’ils proposent, contrairement à ce que fait Google qui ne l’autorise pas même pour les ouvrages hors copyright. Selon Kahle, il en coûterait 300 millions de dollars pour numériser un million de livres, chiffre qu’il met en regard des 12 milliards de dollars de l’industrie du livre aux USA. Mais il faut comparer ce qui est comparable : il ne parle pas du coût du maintien de l’infrastructure technologique et de celui de sa migration périodique pour en assurer la compatibilité avec les évolutions technologiques (matériels, logiciels). L’interface servant à consulter les livres est particulièrement bien pensée : la qualité de la numérisation semble uniformément excellente ; les livres s’affichent ouverts à plat, et il suffit de cliquer sur la page de droite ou de gauche pour que celle-ci se tourne. La tranche du livre est représentée, ce qui permet de passer rapidement à une autre partie de l’ouvrage sans avoir à le feuilleter page à page ou à indiquer un numéro de page. Quant à la recherche en texte intégral, elle ouvre le livre à la première occurrence de la réponse, marquée au stabilo, et place des Post-it® annotés aux autres pages. Tout simplement génial. Enfin, tout est prêt pour rajouter un enregistrement sonore du texte lu.

Si Michael Keller est le directeur des bibliothèques de l’université de Stanford, il représentait surtout le « projet Google », avec qui son institution a fait affaire (ce n’est pas un appel aux armes, citoyens) : ils leur fournissent de 1500 à 3000 livres par jour à numériser et à indexer, et reçoivent en retour (en plus de l’ouvrage d’origine…) une copie du fichier informatique. Selon lui, ceci permettra d’assurer une meilleure sauvegarde de ce fonds numérique. Les deux autres participants étaient du même avis, Brewster Kahle allant jusqu’à citer Linus Torvalds (l’inventeur du système Linux) qui aurait dit : « Real Men don’t make backups. They upload it via ftp and let the world mirror it. » (« les mecs qui sont des mecs ne font pas de sauvegardes : ils mettent leurs fichiers sur un serveur ftp, et laissent le reste du monde en faire des copies »). Il en existe de nombreuses variantes, probablement plus apocryphes les unes que les autres, mais y en a-t-il une d’originale ? Et surtout, est-ce si vrai que cela ? Le problème avec cette approche est qu’il n’aborde que le clonage de l’objet, et non pas son évolution nécessaire au fil des évolutions techniques. Sa démultiplication aura d’ailleurs pour effet l’existence d’un nombre incalculable de versions plus incompatibles les unes que les autres, chacun transformant (ou non) la sienne à sa façon. Curieuse « évolution » dans le monde virtuel du texte numérique…

L’approche que l’Internet Archive a adopté pour présenter ses livres numériques participe de leur réincarnation dans ce qui n’est, pour le moment, qu’un (bon) simulacre du physique. On peut imaginer (comme on n’a pas manqué de le faire) que cette tendance pourra se poursuivre jusqu’à la maté­ria­lisation dans un objet physique ressemblant au livre. Mais il existerait une autre approche. Walker Reading Tech­nologies, pépinière américaine qui étudie depuis une dizaine d’années nos capacités de lecture, vient de présenter le résultat de ses recherches ; selon elle, au regard (si l’on peut dire) de la physiologie de l’œil, le livre n’offre pas la meilleure disposition du texte pour une lecture efficace : notre champ de vision et de perception active serait équivalent à ce qu’on voit au travers d’une paille : ainsi, en lisant, notre cerveau doit faire l’effort d’éliminer ce qu’on voit au-dessus et au-dessous des mots que l’on est en train de lire et qui n’a pas de rapport immédiat avec eux (puisque les lignes s’étendent à droite et à gauche hors du champ de vision). Ils proposent donc un produit, Live Ink qui analyse le texte et le redispose à l’écran sous forme de lignes très courtes ; ainsi, ce qui entre dans le champ de vision immédiat a un rapport direct avec ce qu’on lit. La fragmentation est effectuée aussi de façon à rendre plus manifeste la syntaxe du texte – elle ne se fait pas seulement en fonction de la longueur des fragments, mais de la position des parties de la phrase. Les chercheurs indiquent que cette méthode de présentation du texte a des racines très anciennes, en citant Alberto Manguel :

« Afin de venir en aide à ceux qui n’avaient guère de talents de lecture, les moines copistes utilisaient une méthode d’écriture dite per cola et commata, dans laquelle le texte était divisé en lignes d’après le sens – forme primitive de ponctuation, qui permettait à un lecteur peu sur de lui de baisser ou d’élever la voix à la fin d’un segment de pensée. (Cette présentation permettait également à un érudit en quête d’un certain passage de le trouver plus facilement.) C’est saint Jérôme qui, à la fin du ive siècle, ayant découvert cette méthode dans des copies de Démosthène et de Cicéron, la décrivit le premier dans son introduction à sa traduction du Livre d’Ezéchiel, en expliquant que “ce qui est écrit per cola et commata communique au lecteur un sens plus évident”. » – Alberto Manguel, Une histoire de la lecture, p. 68.

Des études destinées à mesurer l’efficacité de cette approche ont été effectuées dans des écoles américaines – et non pas avec des lecteurs chevronnés – et ont donné des résultats positifs. Il serait intéressant de savoir si elle est utile pour des textes savants et des lecteurs compétents.

Lewis Carroll y avait-il déjà pensé, lorsqu’il écrivit la forme du texte qu’Alice se représente, en écoutant la narration des malheurs qu’en fait la Souris ? Cette dernière la prévient que son histoire « est bien longue et bien triste », en soupirant et en regardant sa queue. Alice, confondant « narration » (tale, en anglais) et « queue » (tail), se demande ce que cette queue, effectivement longue, a de triste. Mais il est vrai que ce texte se lit aisément, quand on y pense… Plus sérieusement, l’excellent Trésor de la langue française infor­matisée (TLFi) l’a fait à sa façon : le lecteur peut faire ressortir automatiquement au stabilo les diverses parties du texte : auteur, code grammatical, construction, date, définition, exemple, indicateur, source, syno­nyme/anto­nyme, syntagme… Ce qui permet de parcourir rapidement les entrées les plus longues et les plus riches, d’en identifier d’un coup d’œil la structure, bref de l’utiliser d’une façon plus efficace encore. Un must. Ne faudrait-il pas envisager le développement d’interfaces de lecture adaptables plutôt que figées selon un parti-pris particulier, offrant bien plus qu’un simple contrôle sur la mise en page (de ceux généralement disponibles actuellement tels que la taille des polices, le codage, la réorganisation des contrôles, etc.) permettant de faire ressortir la structure profonde du texte à l’aide de couleurs (à l’instar du TLFi), de remise en forme des lignes (comme le propose Walker Reading) ou tout autre moyen pour aider à appréhender la forme et le contenu et à se l’approprier ?9

À lire 
• Terry Butler : Monkeying Around with Text


1 Il fait toutefois l’objet de travaux de recherche de Françoise Willman à l’Université de Nancy 2, ainsi que d’un article de Denis Bousch, « Image de soi et image de l’autre dans Sur deux planètes, un roman d’anticipation de Kurd Laßwitz (1897) », in Françoise Dupeyron Laffay (ed.) : Le livre et l’image dans la littérature fantastique et les œuvres de fiction, Presses de l’Université de Provence, 2004.

2 Elle est disponible sur l’internet, en dépit de la décision de justice qui l’interdit : « En tant que de besoin, faisons interdiction aux défendeurs de mettre l’œuvre de Raymond Queneau à la disposition des utilisateurs du réseau Internet ce sous astreinte de 10.000 francs par infraction constatée » (Ordonnance de référé, Tribunal de grande instance de Paris, 5 mai 1997). Nous n’en fournirons donc pas l’adresse.

3 À tel point que j’étais persuadé qu’ils avaient été publiés dans la série Bibliothèque verte. Que nenni, c’était la Bibliothèque rose, où ils entrèrent en 1958, après avoir paru initialement dans la Collection Ségur-Fleuriot (selon François Lebrun).

4 Et non « Baboorao », comme l’écrit le Quid. Mais il ne serait pas à une inexactitude près : il y est indiqué que cet auteur est né en 1907, tandis qu’il est né en 1906 et décédé en 1996 (source : ambassade de l’Inde à Manille). Dans la même page, il est fait mention de « Julien Greene » au Julien Green (qu’ils doivent savoureusement confondre, au moins depuis 2003, avec Graham Greene…). Plus bas, on peut lire : « D’après le professeur E. Gaede, il y aurait eu en France, depuis l’invention de l’imprimerie, de 30 000 à 70 000 écrivains qui ont écrit en tout 500 000 livres. » Il s’agit sans doute d’Édouard Gaède, qui a publié en 1972 L’Écrivain et la société : dossier d’une enquête (publié par le Centre d’études de la civilisation du 20e). Il est curieux que le Quid de 2007 ne mentionne pas de références plus récentes, s’il s’agit bien de celle-ci. Mais c’est ce dernier chiffre qui est curieux : selon les chiffres clés du secteur du livre publiés par le ministère de la culture (la version intégrale est aussi disponible en ligne), 340 269 nouveaux titres ont été édités entre 1985 et 2005 (donc hors réimpressions). En comparant ces deux sources, il en ressortirait que le nombre de nouveaux titres publiés au cours des vingt dernières années s’élève à 68% du nombre de titres écrits durant les quelque 550 années précédentes. S’agit-il vraiment des mêmes catégories, et si oui, comment s’explique cette explosion ? Ah, si Paul Otlet avait fini son travail, on aurait la réponse. Le Quid s’est d’ailleurs commis dans des déformations autrement plus graves, que ce soit à propos du négationnisme de la Shoah ou de celui du génocide des Arméniens.

5 Selon son site (on ne trouve que huit de ses titres au catalogue de la Bibliothèque nationale du Brésil – mais comme il a publié sous une quarantaine de pseudonymes, ce n’est pas si surprenant). Le Quid de 2007 n’en annonce que 1 046, même chiffre que celui de l’édition de 2003. À se demander pourquoi ils en sortent un chaque année…

6 Ni d’ailleurs pour la musique : le célèbre Musikalische Wurfelspiele (jeu de dés musical) en do majeur K 516f de Mozart n’était pas unique en son temps, et consistait à produire un morceau de musique à l’aide d’un assemblage aléatoire d’éléments (chez Mozart : composés de deux mesures).

7 C’est ce qui distingue ce projet des grands projets contemporains, qui numérisent automatiquement en « mode image » les ouvrages, puis effectuent, toujours automatiquement, une reconnaissance du texte, qui ne sera pas présenté au lecteur (vu sa qualité parfois inégale, surtout pour les ouvrages plus anciens, ce n’est pas forcément critiquable), mais qui servira à la recherche dans les contenus. Le lecteur, lui, verra à l’écran l’image (et ne pourra donc effectuer de copier-coller du texte).

8 On estimait, à la fin des années 1990, la durée de vie moyenne d’une page Web à quelques dizaines d’heures – sa disparition pouvant être due à des causes variées : changement d’adresse, suppression de la page, suspension d’un site, faillite de l’hébergeur… D’autre part, les contenus de l’Archive sont eux-mêmes soumis parfois à l’obsolescence : on a pu constater que certains sites Web – disparus depuis longtemps du Web mais préalablement archivés dans ce système – en avaient aussi disparu quelques années plus tard. Ainsi va le monde.

9 Ceci nécessite évidemment de la part du logiciel d’avoir la capacité à identifier cette structure, ce qui peut être accompli de façon automatisée (du moins partiellement, mais mieux qu’avant) plutôt qu’uniquement manuelle.

23 mars 2007

Quand la BnF défie Google

Classé dans : Littérature, Livre, Sciences, techniques — Miklos @ 8:32

Mais ce pont d’Arcole, par sa situation, résistait à toutes nos attaques. Napoléon essaya un dernier effort de sa personne: il saisit un drapeau, s’élança vers le pont, et l’y plaça. La colonne qu’il conduisait l’avait à moitié franchi, lorsque le feu de flanc fit manquer l’attaque. Les grenadiers de la tête abandonnés par la queue hésitent ; ils sont entraînés dans la fuite, mais ils ne veulent pas se dessaisir de leur général ; ils le prennent par les bras, les cheveux, les habits, et l’entraînent dans leur fuite, au milieu des morts, des mourants et de la fumée. Le général en chef est précipité dans un marais ; il y enfonce jusqu’à la moitié du corps : il est au milieu des ennemis ; mais les Français s’aperçoivent que leur général n’est point avec eux. Un cri se fait entendre : « Soldats, en avant pour sauver le général ! ». Les braves reviennent au pas de course sur l’ennemi, et Napoléon est sauvé. Cette journée fut celle du dévouement militaire. — Las Cases, Le Mémorial de Saint-Héléne, tome II, p. 217. Garnier 1955.

En 1796, l’armée française remporte une victoire au pont d’Arcole, après qu’elle se soit enlisée – littéralement – dans un bourbier. En juin 1997, la Bibliothèque nationale de France attaque Arcole, opération visant à « communiquer sur internet un corpus francophone du XIXe siècle de 2400 œuvres, monographies ou périodiques et d’environ 6500 images, libres de droit (…) qui préfigurera les accès futurs aux 90 000 textes déjà numérisés depuis 6 ans par la Bibliothèque nationale de France. » Arcole deviendra Gallica qui, dix ans plus tard, contient toujours (ces) 90 000 volumes imprimés en mode image. Ce mode image avait soulevé à l’époque des débats concernant l’accessibilité des contenus : débits des réseaux, accès au texte pour malvoyants et pour ceux souhaitant travailler sur les textes, voire pour la recherche en texte intégral.

En mars 2007, la Bibliothèque nationale de France ouvre Europeana β, « prototype de bibliothèque en ligne développé dans le cadre du projet de Bibliothèque numérique européenne » et comprenant 12 000 documents en plusieurs langues, consultables en mode image ou texte (les déficients visuels ont heureusement été entendus). Le projet d’une bibliothèque numérique européenne avait pris corps au début de 2005, avec l’appel de Jean-Noël Jeanneney pour un sursaut culturel et politique de l’Europe face à l’hégémonie de Google qui avait déjà mis en place sa bibliothèque numérique. Il suggérait un grand projet européen, à l’instar de certaines entreprises du continent qui s’imposent mondialement, tels Airbus (face à Boeing). On sait les récents avatars du moteur franco-allemand dans ce dernier projet, on a vu le retrait fin 2006 de l’Allemagne du projet d’un autre moteur – de recherche, celui-ci –, Quaero (Europeana utilise Lucene), et l’on notera qu’Europeana propose, dans sa toute première version, des ouvrages provenant de ses fonds et de ceux de bibliothèques nationales de Hongrie et du Portugal. Pas d’Allemagne, ni d’ailleurs de Grande Bretagne, qui avait annoncé son intention de faire l’affaire avec Microsoft plutôt qu’avec l’Europe continentale. Un bourbier dans lequel le projet européen menace de s’enfoncer.

Europeana se présente simplement : une case pour la recherche simple dans les titres et dans les sommaires du fonds – ainsi que dans le texte intégral d’une partie des ouvrages1 – ou le choix de se balader dans les fonds selon l’époque (16e au 20e siècles), la langue, la provenance (France, Hongrie, Portugal) ou la discipline (sciences, philosophie, arts…). Une fois que l’on a effectué son choix, une liste d’ouvrages s’affiche à l’écran. Lorsque cette liste est longue – cherchez par exemple « amour » – les possibilités offertes pour réorganiser (trier) la liste voire la réduire (à l’aide des options dans le pavé Affiner) sont encore trop limitées, et des méthodes de recherche multilingues et sémantiques ne sont pas encore proposées. On se retrouve, finalement, là comme dans les moteurs traditionnels basés sur une recherche purement lexicale, devant une présentation linéaire de réponses.

Le premier livre que j’ai voulu consulter était curieusement signalé ainsi : « Amant+ rendu cordelier a :lobservance damours: +l’observance d’amour+ ». Lorsqu’on l’ouvre, on passe à une interface permettant de consulter les pages une à une, bien plus aisément et rapidement que dans Gallica ; on notera la possibilité de feuilleter le livre par table des matières (si elle existe), par vignettes (ce qui est utile surtout pour un livre illustré), ou simplement par la pagination (ce qui est inutile quand elle est inexistante, comme dans ce premier ouvrage consulté). On remarquera que chaque page possède une adresse distincte, ce qui permet de la référencer directement.

Le contenu – la page affichée – est bordé de pavés proposant des fonctionnalités que l’on connaissait auparavant, mais utilisant des techniques plus modernes connues sous le nom d’Ajax : on peut déplacer ces pavés sur la page, ce qui, pour le moment, tient plus du gadget que de la fonctionnalité essentielle ; d’autre part, ces pavés se redessinent lorsqu’on passe d’une page à l’autre dans un ouvrage, ce qui est assez gênant : imaginez que, lorsque vous feuilletez un livre posé sur une table, d’autres objets sur la table se mettent à danser… Parmi ces pavés : la recherche en texte intégral dans le document – difficile à réaliser pour ce texte à l’écriture gothique, qui n’a pas permis de fournir un mode texte cohérent ; voici ce qui s’affiche lorsqu’on passe à ce mode :

jbng &ce rc&gictiç çonitcre
Dint donner atout (eau 6miftt
buit que (a $tant mcfjc fut bute
3?e %te fa %ror bamppwcuttut
V>oitant ^ttgîtfaigc Ô0rrm«c
£>«î ftfta (amant gt ant gonneur
CI:î1D1. ta btff if tap parte

qui est supposé retranscrire l’original « De la nef et a loposite / Ung des religieux convers / Vint donner a tous leau benite / Puis que la grant messe fut dicte / Je veis la venir damp procureur / Portant ung visaige dhermite / Qui fist a lamant grant honneur ». Pour des ouvrages plus récents, cette recherche fonctionne correctement, en surlignant les occurrences retrouvées dans le texte (mode image ou intégral), et l’affichage en texte intégral est très majoritairement bon.2 Il est à noter que les contenus numérisés de la partie française d’Europeana ont été pris dans Gallica, et ne sont pas le résultat d’une renumérisation : leur qualité reflète donc celle de ce fonds numérique qui commence à dater.

La personnalisation est encore très limitée dans ce prototype : on peut se créer un « panier » de documents – mais, comme on le verra tout de suite, uniquement pour les fonds particuliers à la BnF et pas ceux fournis par ses partenaires. Il est possible de télécharger les ouvrages (ainsi que de les imprimer ou de les envoyer par courriel), qui s’affichent alors en PDF, ce qui est bien plus commode que le système qui était proposé dans Gallica. On aimerait voir la possibilité d’annoter ou de surligner les pages, de glisser des marque-pages3, de partager des annotations du texte (voire des métadonnées) avec d’autres lecteurs…4

En voulant consulter un ouvrage en portugais, j’ai été surpris de me voir « transporté » sur un autre site, celui de la Bibliothèque nationale numérique du Portugal5 : l’interface est donc tout à fait différente, ne s’intègre pas dans la personnalisation offert dans Europeana, et les contenus sont présentés dans d’autres formats (PDF). C’est aussi le cas pour les ouvrages fournis par la Hongrie.6

Le prototype que nous propose aujourd’hui la Bibliothèque nationale de France ne doit pas se bouder, s’il est destiné à se développer – et l’État a donné à la Bibliothèque nationale les moyens financiers de le faire – autant sur les fonds nationaux et européens que sur l’outil lui-même7. On devrait voir le volume augmenter de 130 000 documents en 2007, et de 100 000 documents par an « pour plusieurs années ». On souhaite, on espère et on attend la réussite de cette grande entreprise culturelle – défi que Jean-Noël Jeanneney a lancé avant tout à la BnF, tel Bonaparte à ses troupes devant Arcole.

(Ce texte a été corrigé et complété de notes après la présentation d’Europeana au Salon du livre ce matin.)


Notes :

1 La recherche globale dans l’ensemble des fonds présentés n’est pas (encore) proposée : ces fonds, comme on le verra, ne se trouvent pas tous dans le « système » de la BnF, mais dans ceux de chacune des bibliothèques participant au projet. On aurait toutefois pu mutualiser les index comme on l’avait proposé il y a deux ans. Il semblerait que ce sera envisagé dans le futur.
2 Catherine Lupovici, interrogée à ce sujet, a indiqué que cela devait avoir échappé à la vigilance du processus de reconnaissance du texte, qui évite d’afficher des contenus textuels reconnus à moins de 96% de fiabilité. On rappelle qu’il s’agit d’une version bêta.
3 Comme on l’a vu plus tard lors de la démonstration au Salon du livre, il est possible de « marquer » des pages pour les retrouver plus tard ; ces marques entrent dans un dossier propre à l’utilisateur, qui peut ainsi retrouver plus tard l’ouvrage et les pages qu’il s’est ainsi signalés. Il serait intéressant d’avoir aussi des marque-pages graphiques, s’affichant sous forme d’onglets du livre qu’on est en train de lire et de marquer ainsi.
4 Lors de la présentation qu’en a faite la BnF aujourd’hui au Salon du livre, il a été indiqué que des évolutions de ce type étaient envisagées. Il serait même question d’encourager la participation des lecteurs pour améliorer la qualité de la reconnaissance textuelle. C’est le principe selon lequel fonctionne le beau projet Gutenberg de bibliothèque numérique (créé en 1971). On se doute aussi que la BnF essaie d’éviter certaines dérives du numérique et des réseaux sociaux informatisés.
5 Qui utilise des adresses électroniques permanentes (« permanent URL »), excellente idée.
6 La BnF a précisé aujourd’hui que l’interopérabilité de ces bibliothèques – qui, aujourd’hui, ne concerne que la signalisation des ouvrages (partage des métadonnées à l’aide du protocole OAI – ce que j’avais envisagé en 2005) – a vocation à s’étendre aux interfaces et aux (index des) contenus. En d’autres termes, ce changement n’aura plus lieu d’être, même si le contenu se trouve réparti dans des fonds numériques distincts – cf. proposition signalée dans la note 1.
7 Ce développement bénéficiera tout d’abord à Gallica, qui évoluera dans ce sens, avec – éventuellement – une renumérisation et/ou reconnaissance renouvelée du texte selon que de besoin. Quant à l’intégration des bibliothèques nationales européennes entre elles, c’est une affaire loin d’être résolue : certaines font bande à part, d’autres n’ont pas encore les moyens de se joindre entièrement à un tel dispositif.

23 mars 2006

Échos du Salon du livre, ou « un progrès contre lequel on ne peut aller »

Classé dans : Livre, Progrès, Sciences, techniques, Société — Miklos @ 9:07

Nous envisageons d’alimenter notre fond[s] avec tous les ouvrages disponibles en ligne. Nous serions donc ravis d’ajouter les ouvrages de la future bibliothèque numérique européenne[…]. En revanche, les ouvrages numérisés par Google ne pourront pas être repris par d’autres. (John Lewis Needham, Google Livres, dans un entretien à ZDNet France à l’occasion du Salon du livre)

Cette déclaration confirme les inquiétudes que j’avais exprimées en février 2005 sur ce type de pratiques : « on » aspire, mais on ne laisse pas aspirer. Le « partage » de la culture et des savoirs sous sa forme hégémonique ou tout simplement monopolistique est dangereux.

La numérisation […] est un progrès contre lequel on ne peut aller. (Jens Redmer, directeur du service Google Livres en Europe, dans un entretien à 01.Net à l’occasion du Salon du livre)

Le progrès inéluctable a bon dos – surtout comme justification d’une stratégie commerciale ou industrielle choisie en connaissance de cause. Une lecture salutaire à ce sujet est le petit livre de Pierre-André Taguieff : Du progrès. Biographie d’une utopie moderne. Librio, 2001, pour ceux qui n’auraient le courage de lire Gunther Anders ou Jacques Ellul. Il ne s’agit d’ailleurs pas d’« aller contre », mais de préserver les intérêts culturels et sociaux – et donc politiques – de l’individu et de la société.

Actuellement, il y a une centaine d’éditeurs francophones qui ont choisi de se mettre en avant de la compétition en signant un partenariat avec nous (John Lewis Needham, Google Livres, dans un entretien à ZDNet France à l’occasion du Salon du livre)

01.Net : Combien d’éditeurs européens ont intégré le programme Google Livres ?
Jens Redmer : Nous ne communiquons pas sur ce chiffre.
(Jens Redmer, directeur du service Google Livres en Europe, dans un entretien à 01.Net à l’occasion du Salon du livre)

Sans commentaire.

13 février 2006

Numérique et libertés

Classé dans : Progrès, Sciences, techniques, Société — Miklos @ 14:08

Manuscrit de 1984 de George Orwell

La pratique du tatouage numé­rique s’étend à l’humain : une société amé­ricaine de surveil­lance, City Watcher, requiert dorénavant l’implan­tation de puces RFID (de la marque VeriMed) dans le bras de tout membre de son personnel devant accéder à son centre infor­matique. (SpyChips.com, 9/2/2006)

La numérisation et l’interconnexion croissante de systèmes d’infor­mation entraînent la nécessité d’identifier de façon unique les contenus, afin de mieux les localiser, d’éviter les doublons et d’établir des relations, etc. Mais elle induit une possibilité dangereuse, celle de la traçabilité accrue de l’individu (après celle des animaux) et de ses activités, via un tatouage qui n’est pas sans rappeler des pratiques odieuses d’un passé récent (et pré-informatique) : il sert d’abord à localiser, puis à organiser, enfin à surveiller, à contrôler puis à dominer. Ainsi, les dispositifs que propose Google comprennent l’archivage des requêtes de recherche de ses utilisateurs, l’analyse automatique des contenus leurs messages électroniques, et, avec le service récemment offert, celle des contenus de fichiers de tout type. La concentration et le stockage – et l’utilisation – de ce genre d’informations chez ces fournisseurs d’accès universels a ainsi permis l’arrestation par la police chinoise de l’écrivain Liu Xiaobo en 2003, puis celle de Shi Tao en 2005 après que Yahoo ait fourni leurs identités aux autorités.

Ce danger – de concentration dans les mains d’une entreprise à visées purement commerciales (voire financières) – concerne aussi les contenus numériques culturels patrimoniaux. Ainsi, le projet de numérisation des fonds universitaires par Google créera une « bibliothèque numérique universelle » dans son propre réseau, qui ne pourra être indexée par d’autres moteurs de recherche. Cette concentration est inquiétante à un autre égard, que j’avais déjà soulevé en 1999 : « imaginez un embargo d’une grande puissance sur une plus petite, qui aurait pour effet de lui couper l’accès aux réseaux… ». Or voilà qu’en mars 2004 le ministère de la justice américaine enjoint aux éditeurs scientifiques de se plier à l’embargo américain à l’encontre de certains pays. C’est pourquoi, en février 2005, j’exprimais l’éventualité que l’accès à cette « bibliothèque universelle » concentrée dans les ordinateurs d’une entreprise puisse devenir un enjeu politique, voire l’objet d’un embargo renouvelé. Le palliatif ? Utiliser le réseau pour combattre ses dangers potentiels, en y répartissant et dupliquant les contenus, au lieu de les y concentrer. Voire éviter de l’utiliser pour ce qui ne le nécessite pas vraiment… mais est-ce trop demander ?

Post-scriptum :
À propos de tatouage, cf. le rapprochement que j’avais fait entre traçabilité numérique et tatouage de l’individu un an avant l’annonce de l’utilisation de puces RFID pour « tatouer » des employés, et les commentaires indignés qui s’en étaient suivis.

The Blog of Miklos • Le blog de Miklos