Miklos
« Je donne mon avis non comme bon mais comme mien. » — Michel de Montaigne

This blog is © Miklos. Do not copy, download or mirror the site or portions thereof, or else your ISP will be blocked. 

4 juin 2009

Sic transit

Classé dans : Livre, Sciences, techniques, Société — Miklos @ 2:32

« Qui bene amat, bene castigat. » — Proverbe latin

« Ceux qui méritent le plus d’être loués supportent le mieux d’être critiqués. » — Alexander Pope

Je viens d’apprendre – indirectement, c’est symptomatique – la fermeture de la liste de diffusion Biblio-FR. Cette liste avait été créée en 1993 par Hervé Le Crosnier à l’intention de « bibliothécaires et documentalistes francophones, et toute personne intéressée par la diffusion électronique de l’information documentaire ».

J’avais découvert cette liste peu après sa création (ses archives contiennent un message que j’y avais envoyé en janvier 1994), et il m’arrivait d’y faire part d’informations qui me semblaient intéressantes pour ses membres. Mais son utilité pour moi s’est surtout révélée lorsque j’ai été chargé, en 1995, du projet de constitution d’une médiathèque ; elle devait réunir les fonds d’une bibliothèque existante, équipée d’un petit progiciel basé sur des formats propriétaires, avec un fonds, qu’il me fallait constituer, d’archives physiques et numériques.

Si je m’étais rapidement fait une opinion sur les usages et les interfaces – une bibliothèque hybride, physique et numérique, utilisant les technologies émergentes du Web pour interface – je n’étais ni bibliothécaire ni documentaliste ni archiviste ; il me fallait donc trouver comment me renseigner (en quelques semaines !) pour me faire mon opinion sur les options, les standards, les solutions, les tendances, du moins en ce qui concernait la bibliothéconomie, métier que, jusque là, je n’avais vu que de l’extérieur, même si, par curiosité et, entre autres, par fréquentation de Biblio-FR et la réalisation d’autres projets, j’en connaissais certains aspects.

Biblio-FR fut l’une de mes trois sources d’information primaires et primordiales, du fait de la présence de professionnels disposés à partager avec générosité leur expérience et à répondre avec compétence, patience et indulgence aux questions de l’outsider que j’étais. Je retrouve dans ses archives un écho à mon message à la liste à ce sujet (cité dans une des réponses en juillet 1995 ; le message d’origine est absent des archives, ainsi que la réponse qu’Hervé Le Crosnier y avait apporté et que j’aurais aimé relire) :

Bonjour,
 
Pour un projet en cours, je recherche un logiciel de bibliothèque qui :
- permette la gestion du catalogue de la bibliothèque (saisie, interrogation) ;
- gère la circulation (emprunts) ;
- permette d’accéder au « matériau » lui-même s’il est accessible sur informatique (livre, image ou son numérisé) ;
- de préférence, tourne sous Unix ;
- de préférence, possède une interface Z39.50.
 
Où dois-je commencer à regarder ? Recommendations ?
 
Merci d’avance

C’était alors une petite « communauté virtuelle » – la réussite de la constitution d’une telle communauté n’est pas à attribuer à l’outil, mais principalement à son créateur et animateur – et les réponses utiles ne tardèrent pas à arriver1 : Biblio-FR m’a rendu là un service inestimable, qui manifeste l’esprit d’entraide et de collaboration amicale au-delà des contraintes institutionnelles et matérielles que j’ai trouvé dans la communauté réelle sur laquelle la liste s’adosse.

Une fois le projet abouti (en 1996), je n’ai pas quitté ce forum. Le contenu des messages m’intéressait souvent, et leur volume était gérable même s’il était en croissance constante : 43 messages (regroupés, comprenant chacun un ou plusieurs messages « source », mais en nombre raisonnable) en septembre 1994, 60 messages à la même période un an plus tard, pour en arriver à plus de 300 messages mensuels ces derniers temps (l’un d’eux contenant lui-même 43 messages…), diffusés avec des retards croissants. L’intérêt des contenus n’a pas crû avec le volume. J’ai exprimé ailleurs ma frustration à l’égard de cette saturation, qui m’a menée à me désabonner de la liste, et à la consulter de plus en plus rarement.

Biblio-FR, ouverte à tous, a été victime non pas uniquement de son succès, mais du phénomène général lié à la banalisation des technologies de la communication et à leur adoption par un nombre croissant d’utilisateurs pour des usages personnels et plus uniquement professionnel, notamment du fait de l’émergence du Web qui a permis de mettre en œuvre des modes d’accès bien plus conviviaux et abordables pour des « non initiés », de la baisse des coûts du matériel informatique et de la connectivité à l’internet, de la croissance des débits, puis, actuellement, de la convergence informatique – téléphonie.

Cette banalisation s’accompagne évidemment d’une croissance des messages et des informations auxquels l’utilisateur de ces technologies est directement exposé, volontairement ou non, autant de la part de contacts personnels ou professionnels que des spams. Nos boîtes aux lettres se remplissent à une vitesse bien plus grande qu’auparavant, et, de ce fait, il est plus difficile d’accorder son attention à chaque message (et il arrive à chacun de ne pas en remarquer de significatifs). Les téléphones portables sonnent à tout bout de champ – même en plein concert – quand bien même il est possible de les éteindre et de consulter ultérieurement leur messagerie vocale ou la liste des SMS reçus.

Non seulement le malheureux utilisateur est potentiellement en ligne directe de tout autre utilisateur (de l’internet, de la téléphonie…), mais comme il est beaucoup plus facile et presque gratuit d’envoyer un message ou d’appeler un correspondant, on le fait sans discrimination, là où, auparavant, on réfléchissait sur la méthode la plus adaptée à communiquer – lettre, télégramme, téléphone… – en fonction de l’importance du message, de son coût et de son temps de transmission. Le fonctionnement par impulsion et par envie, dans l’immédiat, sont les caractéristiques d’une société de consommation et d’innovation technologique qui s’emballe (jusqu’à ce que les ressources, qu’elle suppose, dans sa logique de fonctionnement basée sur la « création destructrice », infinies, s’épuisent finalement).

Biblio-FR se retrouve englouti dans ce tsunami qui a rendu ce médium difficilement utilisable, c’est-à-dire lisible. De débats, il s’est transformé en un immense dazibao, un mur d’un Jacques Villeglé, où les affiches se recouvrent les unes les autres avec une telle rapidité que leur contenu n’en est plus perceptible, que la masse noie l’essence. Le plus ciblé côtoie le plus banal, l’information la plus objective alterne avec l’opinion parfois virulente, et la couverture des sujets est si vaste du fait de l’évolution des métiers qu’il est probable que chaque lecteur n’est intéressé que par une partie infime des messages – pour certains d’une grande richesse –, le reste étant, pour lui, du bruit. Et ce bruit devient assourdissant.

La modération – bénévole – aurait peut-être pu en laisser passer moins pour tenter de préserver un volume raisonnable et donner à la liste une orientation plus ciblée (par exemple, débats plutôt qu’annonces), mais c’était de toute façon mission impossible : elle a dû faire face à un nombre croissant de messages à traiter et a elle-même saturé. L’outil – liste de diffusion modérée – n’est plus adapté à ses usages actuels.

Face à cette surcharge informationnelle, de nouveaux outils émergent. Il s’agit, pour faire bref, de plateformes plus spécialisées à certains types de communication combinant commentaires, annotations et débats (par exemple : blogs) et de constitution collaborative de contenus (par exemple : wikis) et fournissant des méthodes pour leur organisation sémantique (thématisation, indexation, taggage… préétablis, libres, automatisés…) et temporelle (discerner une information à valeur temporelle courte – news – ou longue – document de référence, par exemple), des principes variés de recherche de l’information et de « navigation » mais aussi de dispositifs permettant le choix et l’organisation personnels de sources d’informations par les usagers : fils RSS, interfaces à la netvibes… Mais l’outil ne (se) suffit pas : il lui faut aussi le médiateur, et c’est un équilibre complexe entre les deux qui en conditionne le succès.

La disparition de Biblio-FR pourrait encourager le développement de services utilisant une ou plusieurs de ces technologies. Si on y gagnera dans le ciblage, on y perdra une caractéristique essentielle de Biblio-FR : elle était la référence première pour tout ce qui touchait de près ou de loin les bibliothèques (physiques puis numériques), elle était l’usuel qu’on consultait en cas de besoin. Cette fragmentation est-elle inévitable ? Elle s’est aussi produite dans d’autres domaines – d’où la nécessité croissante de passer par des moteurs de recherche généralistes, puis, plus récemment, par des moteurs spécialisés (ou portails). Le portail sera-t-il l’avatar de Biblio-FR ?

Le futur est la chose qu’il est le plus difficile de prévoir ou de prédire ; je ne peux que parler avec certitude du passé, et en particulier de celui que j’ai connu : Biblio-FR m’a été extrêmement utile, et je suis donc très reconnaissant que cette liste ait existé. Elle m’a aussi poussé à réfléchir, suscité des réflexions et la nécessité de leur formulation, et pour cela aussi, j’en suis reconnaissant. Je devine aussi l’immense travail, sans doute rarement gratifiant, que ses organisateurs, Hervé Le Crosnier, puis Sara Aubry, ont fourni bénévolement pour faire fonctionner cette liste qui devenait de plus en plus pesante, je leur en suis d’autant plus reconnaissant.


1 Maintenant, un tel message sur la liste aurait suscité des réactions virulentes et son auteur assimilé à « ceux qui jettent une bouteille à la mer faute d’une formation professionnelle idoine » – pour reprendre une expression de Bertrand Calenge dans un récent billet critiquant l’évolution de la liste – contribuant ainsi à son bruit et à son inutilité. Autres temps, autres mœurs.

13 mars 2009

Google Books, ou quand le mieux est l’ennemi du bien

Classé dans : Littérature, Livre, Sciences, techniques — Miklos @ 3:13

Jusqu’à très récemment, on pouvait rechercher dans la fort riche et intéressante bibliothèque numérique de Google des ouvrages publiés avant ou après une certaine année : le formulaire d’interrogation avancée permettait de spécifier l’une ou l’autre (ou les deux). Dorénavant, on peut limiter la recherche au mois près (très utile pour une éventuelle intégration de leur service de presse numérisée à celui-ci) : ces deux cases sont remplacées par des menus déroulants, comprenant d’une part le nom d’un mois, de l’autre le quantième de l’année (et dont les intitulés n’ont pas été traduits, dans la version française de la page). Mais attention, il ne suffit pas de choisir ces dates, il faut en sus cocher l’option de recherche ciblée (ce qui n’était pas le cas dans la version précédente de l’interface) : si on oublie de le faire, ces dates sont purement et simplement ignorées.

Or la première année présente dans ce menu est 1776. Historique, il est vrai (c’est celle de la naissance de la patrie de Google), mais trop limitative : il y a nombre d’ouvrages bien plus anciens dans ce fonds, et l’utilisation de ces menus, tous deux obligatoires si l’on veut cibler la recherche sur une période particulière, ne permet plus de le faire comme auparavant : impossible, par exemple, de chercher un ouvrage publié au XVIIe s.

Heureusement qu’il est encore possible – pour ceux qui l’avaient remarqué auparavant – d’effectuer ce type de recherche ciblée en rajoutant date:1600-1699 dans le corps de la requête : c’est ainsi qu’on peut obtenir les documents souhaités.

Ce n’est pas la première ratée chez Google, cette année – même si celle-ci risque d’être moins remarquée (après tout, combien ont-ils de lecteurs de livres préhistoriques, pardon, pré-1776 ?) : l’étiquetage par Google de tous les sites web comme « risquant d’endommager votre ordinateur » en janvier, les pannes de Gmail en février et en mars, les plus récentes erreurs de partage dans Google Documents, le détecteur de gays du Google Phone (on croit rêver !)…

Comme quoi, la crise frappe tout le monde de folie, même les plus grands.

26 février 2009

Le temps, vite ; ou de forums, de listes de diffusion et de blogs

Classé dans : Livre, Peinture, dessin, Sciences, techniques — Miklos @ 19:21

Voir aussi l’article qui a fait suite à l’annonce de la fermeture de la liste le 3 juin 2009.

Pour ceux qui sont nés informatiquement avant le Déluge – l’émergence du Web qui a tout balayé –, il existait un mode de communication public en réseau appelé Usenet. Prédatant l’internet grand public (conçu en 1979, il s’était développé sur le réseau UUCP), il permettait d’envoyer un message (ou « article ») classifié par son auteur dans une ou plusieurs catégories hiérarchiques (professionnelles ou non) ; cet article se diffusait d’ordinateur en ordinateur qui le « rangeait » dans les catégories adéquates (pour autant que l’administrateur avait abonné l’ordinateur à ces catégories) et le passait aux relais suivants. Les identifiants des catégories rappellent un peu des systèmes de classification connus en bibliothèque… Ainsi, fr.emploi.demandes désignait la catégorie de demandes d’emploi en France (ou en français), sous-catégorie de fr.emploi, elle-même faisant partie de la catégorie-mère fr.

Dans les premiers temps de Usenet, il n’y avait que trois, puis huit, catégories mères (comp pour l’informatique, humanities pour les arts et les lettres, soc pour la sociologie, talk pour le clavardage, etc.), mais bientôt il s’en créera une galaxie représentant d’autres critères de rangement (par exemple le pays, d’où les catégories fr, uk… ; le réseau d’origine, tels bitnet, fidonet…). Certaines classes de catégories mères (notamment celle appelée alt) permettaient à n’importe qui d’y créer des sous-catégories (ce qui a donné lieu à de nombreux abus qui participèrent au déclin de Usenet), d’autres nécessitaient une procédure formelle qui comprenait rédaction de charte, vote, etc. Certaines catégories étaient administrées (« modérées », en franglais) – ce qui causait évidemment des délais supplémentaires dans la diffusion des articles – d’autres non. Un administrateur pouvait en général effacer, après coup, un article qui y avait été diffusé (en envoyant un message spécial qui tentait de « rattraper » l’article en question, et demander aux relais de l’effacer).

Il n’était pas nécessaire de s’abonner pour consulter les messages de telle ou telle catégorie : il suffisait de s’y connecter avec un logiciel adéquat (appelé newsreader en anglais). Toute personne connectée à l’un des réseaux de l’époque pouvait consulter les articles diffusés dans ces catégories, y répondre publiquement ou en privé ; les réponses préservaient l’objet de l’article original, et il était possible de les lire contextuellement. À cet époque lointaine, les articles (et les courriers électroniques aussi, d’ailleurs) se diffusaient lentement : il leur fallait parfois plusieurs jours pour arriver à destination. Au bout d’un certain temps (de l’ordre de quelques jours à quelques semaines, selon ce qu’avait programmé l’administrateur du relais), ils s’effaçaient de la catégorie où ils avaient été publiés (ce qui n’a pas empêché notre AMI – l’Aspirateur Mondial de l’Information – de trouver le moyen de récupérer des archives de ces forums remontant au début des années 80… la vertu de l’oubli s’oublie). Appelés de nos jours « forums » (terme qui recouvre aussi d’autres systèmes de communication), ils sont surtout utilisés en interne, par exemple par des fournisseurs d’accès (ainsi, certains en utilisent pour le « support » de leurs usagers ; ils sont alors thématisés par le genre de problèmes rencontrés – messagerie, téléphonie, connectivité, etc.).

Le déclin de Usenet a commencé dans les années 90 avec l’émergence du Web, et, plus tard, de sites de réseaux sociaux. Si ces derniers sont, pour certains aspects, plus rapides, efficaces ou conviviaux (surtout pour la diffusion de contenus binaires – musique, images fixes ou animées, etc.), aucun d’eux ne possède cette particularité réellement unique qu’avait Usenet (et, à certains égards, irc et icq) : la qualité d’être un système complètement réparti et décentralisé. Les divers Facebook, Youtube, Deezer, Second Life et autres appartiennent en général à une société privée et dépendent d’une infrastructure particulière (qui peut être répartie, comme celle de Google, mais alors répartie en interne et visible de l’extérieur comme un seul service ; d’ailleurs, s’il tombe en panne, comme ça l’est encore arrivé récemment pour l’accès aux sites, puis à ses courriers, cela affecte tout le service et donc l’humanité googleuse). La « propriété » des contenus – créés par les contributeurs – est aussi problématique. Il suffit de rappeler la très récente controverse qu’a occasionnée Facebook en imposant dans ses conditions d’utilisation la clause selon laquelle l’usager lui cède ad vitam aeternam ses droits sur de la totalité des contenus – textes, images… – qu’il y a mis en ligne, pour toute utilisation, y compris celle de son propre nom et de ses photos personnelles, non seulement pendant qu’il y est inscrit, mais aussi après sa désinscription ; le scandale leur a fait annuler cette toute dernière clause, mais pas le reste…

Les listes de diffusion sont venues répondre en général à un besoin plus spécifique, à une thématique particulière. En ce sens, ils correspondent, peu ou prou, à une catégorie (ou forum) de Usenet et fonctionnent quasiment de la même façon : l’envoi d’un message par courrier électronique à des inscrits à la liste (appelés « abonnés ») ; mais au lieu d’avoir à choisir une catégorie parmi d’autres, le message est expédié par son auteur à une adresse (le serveur, qui la diffusera aux abonnés). L’accès en lecture à ces messages nécessite donc d’y être inscrit (plus tard, l’accès web, puis RSS, à leurs archives permettra aussi d’offrir la lecture sans authentification en option), et donc de créer des forums privés, à la différence de Usenet. L’écriture dans une liste peut y être libre ou administrée (même pour ses abonnés). Ces listes ne sont évidemment pas réparties comme l’était Usenet : elles nécessitent, chacune, un « serveur de liste », qui reçoit les demandes de publication, autorise la gestion de filtrages, et gère la diffusion aux abonnés.

La liste de diffusion francophone consacrée aux bibliothèques, Biblio-FR, est née en septembre 1993. Gérée la plupart du temps par une personne (bénévole, dans son temps libre), elle est devenue victime de son succès : un nombre d’abonnés de plus de 17.000, un nombre de contributeurs variés croissant, des sujets et des thématiques (débats, annonces d’événements, demandes et offres d’emploi, questions/réponses) plus riches, voire hétéroclites. En conséquence, au lieu de fournir un mode de communication plus rapide et plus structuré que ne l’aurait fait Usenet – ce qui était le cas dans les premières années d’existence de la liste –, celle-ci est saturée de messages présentés tous au même niveau et envahissant ainsi les boîtes à lettre des abonnés, et s’engorge souvent : interruptions et délais (parfois allant jusqu’à deux semaines) entre l’envoi et la publication (certains événements sont ainsi annoncés après leur tenue…) du fait de sa gestion essentiellement unipersonnelle, regroupement de messages distincts à l’origine dans un même message à sa diffusion (ce qui ne permet pas de les sélectionner indépendamment et nécessite de parcourir tout le message regroupé – tel ce message du 20 février 2009 qui comprenait 43 offres d’emploi à la queue-leu-leu), ce qui est contraire au principe même de la diffusion des messages individuels (les listes de diffusion permettent de créer, indépendamment, des regroupements, appelés digest, mais ils ne sont pas obligatoires)…

Si Biblio-FR vise à être un mode utile de communication autour de sa thématique globale, il me semble qu’il faut prendre acte de cette mutation – non seulement du volume et de la variété de son lectorat, de ses thématiques et de ses auteurs, mais aussi des techniques de communication qui existent présentement – pour continuer à les fédérer, mais d’une façon plus efficace, plus utile, à ses usagers. En bref : de l’organisation de l’information et de la gestion de sa circulation (« workflow »).

Il me semble qu’une évolution possible – ce n’est certainement pas la seule, c’est celle qui me vient à l’esprit, et je la suggère pour réouvrir le débat (j’avais tenté de le faire par le passé, mais la modération n’avait pas laissé passer mon message) – serait de passer à une plate-forme de blog, dans laquelle les billets seraient l’équivalent des messages de la liste. Que permet-elle ?

— la création de catégories hiérarchiques (par l’administrateur) et/ou l’étiquetage (« tags ») des billets (le choix des catégories et/ou des étiquettes peut être fait par l’auteur du billet et/ou l’administrateur), et donc la classification des messages, ce qui permet aux lecteurs de ne consulter que la/les catégorie(s) qui les intéressent (l’ébauche existe dans biblio-fr, « JOBILISE », « QU », « Infosite », etc., mots-clé rajoutés aux objets des messages, mais elle est trop limitée) – en outre, le blog affiche en général aussi la liste des derniers billets toutes catégories confondues – ce qui n’empêche pas de consulter directement à la catégorie souhaitée. En particulier, l’événementiel peut être aussi catégorisé par régions, ce qui permet aussi un meilleur ciblage. Pour ceux qui ne sont intéressé que par un certain nombre limité de catégories, des fils RSS leurs permettent d’être informé de ce qui s’y publie, sans avoir à aller sur le site pour vérifier ; dans certains cas, les fils peuvent être programmés pour répondre à des requêtes (et ressemblent ainsi à de la DSI).

— la gestion des réponses (suivi) à un billet, en tant que commentaires au billet et pas en tant que billets indépendants, évitant ainsi la saturation, et hiérarchisant message d’origine et ses suites, ce qui n’est pas le cas dans la liste de diffusion ;

— le filtrage (« modération ») des billets et de leurs commentaires si souhaité (mais on peut aussi faire en sorte que les messages des inscrits ne nécessitent pas de modération), et l’effaçage a posteriori (ce que ne permet évidemment pas Biblio-FR : une fois qu’un message est parti, il est parti…) ;

— l’affichage des noms des auteurs dans la liste des billets (dans la liste actuelle, l’auteur affiché dans la liste est « Moderateur Biblio-FR », pour connaître l’auteur réel il faut ouvrir le message) ;

— la possibilité d’insérer des images (par exemple des copies d’écran, pour illustrer une discussion sur un logiciel bibliothéconomique), des liens hypertextuels, etc. (ce qui peut être contrôlé, pour éviter des problèmes de droit) ;

— la gestion intégrée d’archives (qui peut réintégrer les archives existantes de la liste, où les messages seraient transformés en billets, préservant leur date originale de publication… on peut d’ailleurs aussi y récupérer la liste des abonnés) et de recherche.

Etc. Un blog (ou tout système technique, d’ailleurs) n’est jamais une panacée : mal organisé, il ne fournit pas un accès structuré ; géré irrégulièrement, il n’accélèrera pas la diffusion des contenus. En revanche, il peut aussi faciliter toutes ces tâches, et fournir une meilleure plate-forme d’échange. C’est ce qu’on souhaite pour Biblio-FR.

Version légèrement modifiée d’un message envoyé à la liste Biblio-FR le 26 février 2009. Voir aussi à ce sujet un article de 2008.

11 septembre 2008

Ça presse

Classé dans : Livre, Sciences, techniques — Miklos @ 1:18

« Les pauvres yeux atterrés se firent violence pour retenir leurs grosses larmes. » — Eugène-Melchior de Vogüé, Les Morts qui parlent, 1899.

« Quotidianum da nobis hodie. »

« Si la presse n’existait pas, il faudrait ne pas l’in­ven­ter. » — Honoré de Balzac, « Les Jour­na­listes. Mono­gra­phie de la presse pari­sienne », in La Grande ville, nouveau tableau de Paris, comique, critique et philo­so­phique, t. 4, p. 87-208, 1843.

Gaudeamus igitur, Google communique sur son entreprise de numérisation en masse de milliards de pages d’articles de presse publiés dans des journaux depuis plus de 200 ans à la surface du globe et de les mettre en ligne indexés. Ils se sont aussi associés aussi avec quelques grands éditeurs de presse (à l’instar du New York Times et du Washington Post) qui détiennent déjà des archives numériques. Ces documents historiques se rajouteront à leur service d’accès à la presse quotidienne actuelle. On rêve des recherches et des découvertes qu’on pourrait y faire…

Entreprise démesurée ? En tout cas, à la mesure de son intention affirmée d’« organiser toute l’information du monde », et ils y mettent les moyens. L’annonce fournit l’adresse du nouveau service en version « beta » (c’est ainsi qu’ils avaient procédé pour le lancement d’autres projets). On peut effectuer des recherches dans les textes (et titres) des articles, la restreindre à une période spécifique, à ne vouloir obtenir que les réponses gratuites – certaines étant fournies par des archives payantes de partenaires du projet. Mais on n’a aucune indication claire du corpus disponible – il s’agit de toute évidence de quelques grands éditeurs américains, de documents juridiques de la Cour suprême (curieuse définition de la presse…) et d’un nombre de journaux nord-américains plus ou moins connus – ni de la période couverte – on retrouve quelques documents (une douzaine parmi les gratuits) datant du XVIIIe s., mais rien de systématique.

On aurait aimé lire les échos de la Révolution française dans la presse américaine de l’époque, mais rien n’est encore entré à ce sujet dans (la partie gratuite de) l’archive. En avançant dans le temps, on trouve trace de Napoléon ; ainsi, la Gazette de Pittsburgh datée du 26 mai 1807 rapporte les revers militaire de « l’invincible Napoléon » (italiques dans le texte) face aux Russes, et ajoute : « When tyrants meet with a reverse of fortune suspicion always haunts them. The invincible Napoleon imputing his want of success to his officers, is said to have accused several of them of treason. His former favorite Duroc is reported to have incurred his displeasure, and to have been sent back to France under an escort of gens d’armes. » À cette époque, le torchon brûlait entre les États Unis et Sa Majesté Britannique : le journal rapporte dans le même numéro que le Président [Jefferson] avait enjoint à un navire de guerre britannique de ne jamais entrer dans les eaux territoriales américaines, et que ce bâtiment avait enfreint à l’interdit.

Contrairement au service de livres numérisés, les contenus eux-mêmes ne sont pas forcément hébergés dans les serveurs de Google : c’est le cas pour les détenteurs d’archives numériques, que Google ne fait qu’indexer et référencer et y fournir l’accès (gratuit ou payant, selon le choix du partenaire). Par contre, Google numérise probablement des microfilms d’autres partenaires, et en héberge le résultat avec des degrés très variables de qualité : pour certains, il identifie de façon assez remarquable les contenus (mot par mot) et la mise en page (les titres), ce qui permet d’en retrouver le contenu, de l’afficher et de s’y déplacer aisément en glissant les pages à l’écran (pour autant qu’elles se soient chargée entièrement). Par contre, on y trouve des pages entières noircies, tachées, déchirées, illisibles et donc souvent inutilisables, comme on peut le voir ci-contre : il est patent que le traitement de masse, automatisé, n’est pas suivi d’un contrôle de qualité. Triste comparaison avec la haute qualité de leur numérisation de livres, et probablement due au fait qu’ici ils n’ont pas utilisé les journaux eux-mêmes mais des microfilms de qualité parfois très médiocre. En théorie, il aurait été utile d’en estimer l’état avant le procédé, et de revenir – si possible – à l’original papier si nécessaire, mais il ne semble pas que cela ait été effectué ; vu l’ampleur du projet, il est peu plausible que cela se fasse, et l’on serait alors condamné, dans ces cas, à accéder à une version dégradée d’une mauvaise photographie de l’original.

Un autre défaut, qu’on a aussi identifié dans leur rubrique de livres numérisés (mais dû probablement à d’autres raisons) est l’indexation incorrecte des dates des documents. Le Victoria Daily Standard daté de 1873 se retrouve classé en 1783, et des milliers de journaux, classés de 1600 à 1699, ont été publiés des centaines d’années plus tard (le Mckenzie River Reflection ne date pas du 10 juin 1664 mais du 10 juin 1994, le numéro de la Tribune qui annonce son édition web n’a probablement pas été publié le 4 janvier 1600…).

C’est donc effectivement une version « beta », et on peut s’attendre à – ou du moins espérer – que la qualité technique des contenus et la couverture des fonds (périodes, pays) s’amélioreront. On ne peut manquer d’établir quelques comparaisons superficielles avec des projets similaires. On se souviendra de l’annonce de la Bibliothèque nationale, le 16/2/2005, de numériser rétrospectivement la presse française couvrant la période 1826-1944, « les archives complètes des quatre premiers [Le Figaro, La Croix, L’Humanité et Le Temps] pourront être consultés sur l’internet dès le début d’année 2006 [… sur] Gallica ». On y trouve effectivement des titres en ligne, mais la consultation ne se fait que par date de parution et en « mode image » : il est impossible d’effectuer une recherche dans le contenu des articles, ce qui revient au mode de consultation des exemplaires papier. Quant à Gallica2, la version « beta » de la BnF, elle annonce bien sur sa page d’accueil « Nouveauté : retrouver les périodiques et la presse dans Gallica 2. Près de 1200 titres de périodiques », mais comment diantre fait-on pour les y retrouver rapidement, les feuilleter ou y effectuer une recherche ? Il semblerait qu’il faille, pour ce faire, aller dans la recherche avancée, cocher « périodique », indiquer son nom dans « titre », puis après quelques autres clics trouver finalement le journal en mode image (une recherche d’un mot très visible dans les contenus n’a rien donné). Pas évident…

Quant au projet de réseau francophone de bibliothèques nationales numériques, « né en 2006 parallèlement à la Biblio­thèque numérique européenne » (qui sera inaugurée sous le nom d’Europeana en novembre 2008), il a révélé au public son prototype de portail lors du Congrès mondial des bibliothèques et de l’information, il y a un mois. Par son entremise, on peut accéder aux documents numérisés par les partenaires ; en ce qui concerne la presse, on y trouve un nombre impressionnant de numéros (133 541 de France, 66 670 du Québec, 3639 du Luxembourg, 1311 de Haïti, etc.). Les documents provenant de France (et de Haïti) sont en fait fournis par Gallica (et non pas Gallica2) dans son interface traditionnelle et portent souvent la mention « Le document que vous avez demandé n’est pas accessible » tout en affichant son contenu… Ils ne sont donc pas (encore) indexés mot à mot, mais uniquement accessibles par date.

D’autres projets sont en cours. On lira ce qu’en dit le New York Times dans son article consacré au projet de Google. En tout cas, nous en sommes encore aux balbutiements de l’accès tout numérique aux archives de la presse. On suivra avec curiosité et intérêt ces divers projets qui se pressent (c’est le cas de le dire) pour être…

© Michel Fingerhut, 1985.

17 août 2008

Le bibliothécaire idéal

Classé dans : Livre, Sciences, techniques — Miklos @ 20:13

La branche française du service de vente en ligne Amazon utilise probablement des logiciels pour classifier automatiquement les tonnes de titres qu’elle référence, ce qui doit lui permettre de les traiter plus rapidement. Mais mieux qu’un bibliothécaire de chair, de sang et de sueur ? On en douterait parfois. Ainsi, ils ont choisi de ranger d’office les livres comprenant le mot Sabbat dans la catégorie Religions et spiritualités > Judaïsme > Fêtes et traditions. À première vue, cela semblerait logique, mais quand on constate le résultat, ça va du pitoyable au cocasse. Voici quelques-uns des titres que l’on peut y trouver en vrac :
— Le Sabbat des caresses, ou les Plaisirs de la nuit / Maurice Dekobra (plus connu pour sa Madone des Sleepings).
— Les enfants du sabbat / Anne Hébert (roman fantastique dans un couvent au Québec).
— Saut-Sabbat / Patrick Fischer-Naudin (roman d’aventure écologique qui se passe à Saut-Sabbat au Surinam).
— Les enfants du sabbat / Frédéric Bouglé (cycle d’expositions sur la jeune création, initié par le Creux de l’enfer en 2001).
— La Reine du sabbat / Gaston Leroux (l’auteur du Fantôme de l’Opéra serait surpris de voir ses romans ainsi catégorisés).
— Les Hanteurs du Sabbat / Pierre Balin (roman écrit en 1892 et qui se passe dans l’ouest lyonnais au XIIIe s.).
— Partition de la Symphonie fantastique, op. 14 – 5e mouvement : Songe d’une nuit de sabbat / Hector Berlioz.
— Miracles et sabbats. Journal du père Maunoir. Missions en Bretagne 1631-1650.
— Rites et sabbats en Normandie / Georges Bertin.
— Sabbat, juges et sorciers, quatre siècles de superstitions dans la France de l’est / Jean Vartier.
— Le sabbat des lucioles : sorcellerie, chamanisme et imaginaire cannibale en Nouvelle-Guinée / Pierre Lemonnier.
— Le sabbat des sorciers en Europe : XVe-XVIIIe siècle.

… et bien d’autres. Si le terme sabbat provient de l’hébreu (dérivé du verbe signifiant « arrêter de travailler », voire « faire grève » et y dénotant le septième jour de la semaine, jour de repos), il a acquis en français d’autres sens détachés du judaïsme, d’abord ésotériques1 puis plus communs2 du fait de « l’interprétation malveillante du sabbat juif faite par les chrétiens » (TLF). Toute personne sachant lire ne ferait pas l’erreur de classer les œuvres ci-dessus dans la catégorie Fêtes et traditions juives sans avoir même besoin d’en connaître le contenu. Le logiciel d’Amazon, lui, ferait bien piètre concurrence au bibliothécaire moyen.

C’est aussi le cas pour le service de livres en ligne de Google. Ainsi, on y voit les actes d’une conférence consacrée aux réseaux de Petri en 2000 indiqués comme ayant été publiés en 1825 – ce qui relève plus de la science fiction que de la science ; un livre sur le langage informatique Python avec, pour mots clé Enola Gay, clopes, nazisme, orgasme, boxe thaï, cyclothymie… ce qui ne manque pas de piquant et démontre bien la cyclothymie du service. Enfin, puisqu’on effleure la médecine, un livre d’introduction aux statistiques, Statistics for People Who (Think They) Hate Statistics classé dans la rubrique Alternative medicine. Il est vrai que ce dernier ouvrage vise à libérer d’une phobie, mais alors il se serait mieux retrouvé dans la rubrique Psychoanalysis. Ou plus simplement Mathematics.

Bibliothécaires, n’ayez pas peur ! Ce n’est pas demain la veille qu’on se passera de vos services.


1 « Assemblée nocturne de sorciers et de sorcières, tenue dans un lieu désert souvent élevé, dans laquelle le culte rendu au diable, les danses et les orgies rappellent ceux de l’antiquité païenne ; pratiques auxquelles on s’y livre » (TLF).
2 « Réunion bruyante, licencieuse ; orgie. . . . Agitation désordonnée et bruyante ; vacarme. » (TLF)

The Blog of Miklos • Le blog de Miklos