Premier brouillon d'un article destiné au prochain livre du GFII sur le livre numérique scientifique et professionnel. C'est ici: Download GFII_Cyberlibris.
Premier brouillon d'un article destiné au prochain livre du GFII sur le livre numérique scientifique et professionnel. C'est ici: Download GFII_Cyberlibris.
January 25, 2012 at 07:32 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: apprentissage automatique, cyberlibris, dice, e-book, fouille de donnés, information, livre numérique, machine learning
Les livres numériques entrent dans les collèges et les lycées!
ScholarVox CDI (qui agrandit la famille ScholarVox) a été adopté par plusieurs collèges d'Ile-de France.
Les collégiens auront accès à plusieurs collections couvrant les thématiques suivantes:
- Scolarité,
- Détente et les loisirs,
- Emplois, métiers et formations
Près de 6000 livres (français, anglais et espagnols) sont accessibles en texte intégral via une plateforme communautaire.
Chaque collégien peut constituer ses "folders" individuels rassemblant par exemple ses livres de prédilection.
Les professeurs-documentalistes ont la possibilité de constituer des dossiers contenant leurs recommandations de lecture. Ces dossiers sont autant d'itinéraires bibliographiques que peuvent
Chaque livre est lisible sur iPad ou ordinateur.
A l'heure où les expérimentations iPad en collèges et lycées se multiplient, les CDI sont avec ScholarVox CDI en mesure d'enrichir ces expérimentations et d'en mutliplier les chances de succès.
La famille ScholarVox:
- Ecoles de commerce: www.scholarvox.com
- Ecoles d'ingénieurs: http://sciences.scholarvox.com
- Université: http://univ-toulouse.scholarvox.com
- Francophonie: http://auf.scholarvox.com
- CRDP: http://crdp.scholarvox.com
- BTS: http://bts.scholarvox.com
Cyberlibris, à l'origine de la famille ScholarVox, offre également des services:
- au grand public: www.smartlibris.com et www.bibliovox.com
- à la fonction publique: http://bnt.execvox.com
December 02, 2011 at 04:44 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: bibliothèque numérique, CDI, cyberlibris, iPad, livre numérique, scholarvox
Roll The DICE... Why? Because The DICE knows! It also knows how to best deliver what it knows!
L'avènement des tablettes tactiles de type iPad n'est pas anodin. Avec ces tablettes, nous récupérons l'usage de nos mains et de nos doigts. La bibliothèque numérique que l'on consulte à partir de ce type de tablettes devient réellement bibliothèque digitale. On retrouve la préhension si caractéristique de l'usage du livre papier : nos pouces opposés aux autres doigts permettent de saisir confortablement la tablette. Cette préhension nous assure une mobilité inégalée et c'est sans doute ce qui explique, d'après les études récentes, le fort usage domestique des tablettes. L'utilisateur « fait corps » avec la tablette et peut ainsi l'utiliser où bon lui semble1. Certes, il en va de même du livre papier que nous pouvons lire en tout lieu.
Cette lecture est usuellement une lecture « d'immersion ». Le lecteur est concentré sur son livre : pour employer un terme de linguistique cognitive, le livre est le focus, l'objet de l'attention. Lire Harry Potter ou L'Homme sans qualités requiert indubitablement une concentration, un temps durant lequel le lecteur est seul livre en mains, absorbé par le texte. Pour reprendre la description de Nicholas Carr :
« The sense of self-containment is what makes a good book so satisfying to its readers, and the requirement of self-containment is what spurs the writer to the highest levels of literary achievement. The book must feel complete between its edges. »2
C'est précisément ces dimensions d'autonomie et de complétude qui font de l'écriture et de la lecture du livre Gutenberg des expériences uniques. Les frontières du livre que nous saisissons entre nos mains définissent le principe même d'une expérience riche et pourtant singulièrement fermée.
Cette fermeture est un paradoxe à l'heure d'un web ultra-connecté, hyper-relié qui semble faire de chacun de nous non plus des fourmis du contenu mais des cigales de l'hyperlien. L'idée d'un espace fermé est antinomique du web comme le rappelle Nicholas Carr :
« The idea of edges, of separateness, is antithetical to the web, which as a hypermedium dissolves all boundaries, renders implicit connections explicit. Indeed, much of the power and usefulness of the web as a technology derives from the way it destroys all forms of containment and turns everything it subsumes into a part of a greater, ever shifting, amorphous whole. The web is an assembly not of things but of shards, of snippets, of bits and pieces.
An electronic book is therefore a contradiction in terms. To move the words of a book onto the screen of a networked computer is to engineer a collision between two contradictory technological, and aesthetic, forces. Something's got to give. Either the web gains edges, or the book loses them. »3
Le web s'inscrit dans cette tension permanente et brouillonne entre le focus et le contexte au terme de laquelle l'important n'est apparemment plus de « savoir » mais de « savoir où cela se trouve »
1Bret Victor, ancien d'Apple, est plus réservé quant à ce retour des mains : http://worrydream.com/ABriefRantOnTheFutureOfInteractionDesign/
2In http://www.roughtype.com/archives/2011/09/the_seethrough_1.php
3Idem note 3
C'est cette tension qu'Amazon tente aujourd'hui d'exploiter avec son Kindle Fire et son système X-Ray. Pour faire simple, chaque livre électronique acheté sur Amazon « embarque » un ensemble d'informations (par exemple Wikipedia) liées au contenu du livre ou plus exactement aux phrases qu'Amazon juge intéressante. Le lecteur peut alors s'évader du texte pour approfondir dans Wikipedia ou ailleurs les phrases ou les mots intéressants du texte. Mais, là encore, il s'agit d'un arpentage local. Le texte est arpenté au moyen des ressources jugées adéquates par Amazon. Quel que soit, le jugement que l'on porte sur ces assauts portés au livre et à son auteur, il nous semble une fois de plus que cet arpentage local est étriqué et procède d'une mauvaise interprétation de la tension focus-contexte.Cette tension est paradoxalement bien mieux maîtrisée dans une bibliothèque municipale ou dans une librairie. Le livre, objet du focus, est en contexte. Il a des voisins proches et lointains, visibles à l'oeil nu, organisés selon les préceptes d'Euclide. La bibliothèque et la librairie sont les lieux du contexte et dans la mesure où nous pouvons y lire des livres elles sont aussi le lieu du focus. Mais, il s'agit d'un contexte bien particulier ordonné selon les règles de l'art du bibliothécaire et du libraire. Comme nous l'avons vu, la bibliothèque numérique procède d'un autre art (et d'une autre science), celui de la géométrie de l'information. En capturant l'information (sur les livres et surtout sur les relations des lecteurs aux livres), la bibliothèque numérique définit son architecture et la dynamique de celle-ci. La tension focus-contexte se résout alors naturellement dès lors qu'elle exprime le passage « sans heurt » du livre (focus) vers la bibliothèque numérique (son contexte) et vice-versa. La résolution de cette tension s'exprime par une interface que nous avons baptisée The DICE (Digital Content Exploration).
The DICE correspond à ce souci de restituer à chaque lecteur à tout moment en toute continuité une image locale et une image globale du livre qu'il est en train de lire. L'idée est de pouvoir passer progressivement du livre lu à sa position dans la totalité de la bibliothèque numérique. C'est un peu l'expérience qu'offre un planétarium lorsque partant d'une planète, il montre comment celle-ci se situe dans l'univers céleste. Que l'on soit enfant ou adulte, l'expérience du planétarium est émouvante et unique : focus et contexte y font bon ménage. Les frontières de chaque planète se dissolvent pour laisser place à un espace qui coupe le souffle et invite à la méditation, au recul. Mais, ce n'est pas pour autant que les planètes disparaissent ou qu'elles en deviennent moins intéressantes. Bien au contraire, chacune dans sa singularité prend un relief particulier. Aucune n'est diluée, chacune fait l'objet d'interrogations particulières.
Il en va des livres et des bibliothèques numériques comme des planètes et du planétarium. Faut-il d'ailleurs rappeler combien astronomie et géométrie s'accordent ! C'est cet émerveillement intelligent que The DICE veut relayer. Certes, il ne s'agit plus de la géométrie de corps célestes mais d'une géométrie (de l'information) sociale. L'ambition de The DICE, c'est-à-dire de l'interface qu'il représente, est « simple » :
Etre intuitif, facile d'utilisation et ludique,
Situer tout livre dans la bibliothèque numérique préalablement calculée (agencée) en tirant parti des informations données par les livres et les lecteurs,
Visualiser toute la bibliothèque, c'est-à-dire tous les livres sans exception en un seul espace,
Suggérer des parcours complets et intelligents (au sens de la géométrie de l'information) de lecture à partir de n'importe quel livre,
Permettre de lancer une recherche dans la bibliothèque (par exemple en texte intégral) dont a/ tous les résultats (livres) sont visibles à l'oeil nu, en une seule entité (contrairement à Google) et b/ tous les résultats (livres) sont situés dans leur voisinage aux autres livres qui, bien que ne contenant pas les mots-clés recherchés, leur sont voisins au sens des habitudes de lecture.
Dans la figure suivante, la courbe rouge illustre ce parcours le plus rapide vers le guide sur la Corée du Sud depuis le livre de départ.
1Nota Bene : Les figures illustrent la version bêta du Dice. Nous travaillons à l'heure actuelle activement à son design final.
2La fameuse longue traîne.
Let's DICE!
The DICE rend l'invisible visible, intelligible et intelligent. Le focus est mis en contexte. Ce contexte est tissé de focus intelligemment disposés dont la totalité n'est autre que la bibliothèque numérique elle-même. De cette intelligence naissent des parcours de lecture, comme autant de sentiers de grande randonnée dont l'emprunt est garant de belles et enrichissantes escapades. Tout cet édifice est rendu possible par un arpentage global de l'information, arpentage qui montre si besoin était combien les techniques d'arpentage local sont réductrices.
De fait, la philosophie du DICE, si bien incarnée par la bibliothèque numérique, embrasse un domaine qui dépasse largement celui des livres numériques. Musique, cinéma, annonces immobilières, destinations touristiques etc..., tout contenu numérique, dès lors que l'on dispose des données appropriées, peut être « dicé » . Et, il paraît évident qu'avec l'avènement des tablettes tactiles, on peut anticiper l'émergence d'une nouvelle génération de navigateurs web dont The DICE pourrait bien être la matrice.
Pour en savoir plus c'est ici: Download The_Dice
November 28, 2011 at 01:32 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: bibliothèque numérique, Cyberlibris, DICE, e-book, Géométrie de l'information, interface, iPad, livre numérique, Nicholas Carr, tablette numérique
28 Business Thinkers Who Changed the World : The Management Gurus and Mavericks Who Changed the Way We Think about Business
This book is a guide to the people who have fundamentally reshaped their industries and the way we do business today. Some of these game changers are great intellectuals while others are 'gut instinct' types; some are motivated by desire to change the world, while others are driven by money and power.
Bursting with energy and wit, Rhymer Rigby profiles the top business brains of our time to show you the humans behind the headlines and how they changed the global business landscape. From Oprah to Mark Zuckerberg, Peter Drucker to Steve Jobs, find out how they made it, the risks they took and the legacies they leave behind.
Online soon in www.scholarvox.com and www.smartlibris.com !
August 22, 2011 at 02:03 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: gurus, Kogan Page, management, scholarvox, smartlibris
What is most important?: Remember information or remember where it can be found (that is to say where it had been found previously)?
And besides, does the fact that we know where to find it entail that one does not need to memorize it anymore?
These are obviously issues (in the tradition of the famous article by Nicholas Carr) of particular importance in a connected world where information is a click away. These are questions that researchers at Columbia University, University of Wisconsin-Madison and Harvard University summarized in the title of a recent article: Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips.
Hereafter some interesting quotes from their work:
"Our research then tested if, once information has been accessed, our internal encoding is increased for where the information is to be found rather than for the information itself."
"It would seem from this pattern that people don’t remember where when they know what, but do remember where to find it when they don’t recall the information. This is preliminary evidence that when people expect information to remain continuously available (such as we expect with Internet access), we are more likely to remember where to find it than we are to remember the details of the item. One could argue that this is an adaptive use of memory—to include the computer and online search engines as an external memory system that can be accessed at will."
"We are becoming symbiotic with our computer tools, growing into interconnected systems that remember less by knowing information than by knowing where the information can be found. This gives us the advantage of access to a vast range of information—although the disadvantages of being constantly “wired” are still being debated."
Wired is the right word in a world where everything is supposed to occur just in time. One can not help but wonder if this generalized "just in time" model, where flows displace inventories, does not create vulnerabilities that we have not yet clearly identified. For the sake of efficiency and profitability, the logic driving our economies eliminates redundancy. Thus, our banks (that give us a lot of trouble these days) operate with minimum equity capital and the maximum leverage. Result: disaster! Corporations try to be leaner and leaner. But a grain of sand is enough (a subcontractor failure, an earthquake, etc) to derail the whole system. Robustness is out, (fr)agility is in!
The obsession is to maximize performance. And we take performance for granted. Worse we (blindly?) trust those who claim to be the masters of performance, those who engineer for us, on our behalf. But guess what, trust ends up more often than not in bad hands!
Fascinating when you think that these profitability and performance metrics (that we are subject to) are often wrong when they are not gamed or manipulated. Surprising when one ventures in the fascinating world of cell biologists to observe that the very issue of robustness is examined there with the greatest attention:
"In short, the trade-off dictates that high-performance systems are often more fragile than systems with suboptimal performance. Interestingly, there are studies reporting suboptimal metabolism performance in Bacillus subtilis and Escherichia coli (Stelling et al, 2002; Fischer and Sauer, 2005). If the trade-off holds, metabolic performance has to be kept suboptimal to ensure a certain level of robustness against environmental perturbations."
"It is important to clearly define robustness and adaptation through evolutionary selection. Here, ‘robustness’ means an individual organism's capability of tolerating external and internal perturbations, such as environmental fluctuations, the addition of drugs, and mutations. Robustness–performance trade-off means that, when two individuals are compared, one is found to be more robust than the other but is outperformed by the other; thus, no individual can be more robust and at the same time exhibit higher performance than others." (Hiraoki Hitano, juin 2010)
"Defining any scientific term is a nontrivial issue, but in this paper, the following definition will be used: 'robustness is a property that allows a system to maintain its functions against internal and external perturbations." (Kitano, 2004a)
Google (used here as a metaphor) gives our brains a remarkable informational agility. But let us not be dupe or candid. This agility comes at a cost for which we are very poor accountants.
Any optimized system is indeed performant (by definition of the optimization) but it is also fragile, that is agile and fragile.
So what is best: To have a robust brain or (fr)agile brain? To paraphrase Nicholas Carr, sometimes we may miss our old brain!
August 19, 2011 at 01:36 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: biology, brain, cognition, Google, Hiroaki Kitano, information, Nicholas Carr
Qu'est-ce-qui est le plus important?: Se souvenir de l'information ou bien se rappeler de l'endroit où on peut la trouver (c'est-à-dire de l'endroit où on l'avait trouvée antérieurement)?
Et d'ailleurs, le fait que l'on sache où la trouver implique-t-il que l'on n'éprouve pas (plus) le besoin de la mémoriser?
Ce sont évidemment des questions qui (dans la lignée du fameux article de Nicholas Carr) prennent un relief particulier dans un monde connecté dans lequel l'information est à un clic de souris. Ce sont des questions que des chercheurs de Columbia University, de University of Wisconsin-Madison et Harvard University résument dans le titre d'un article récent: Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips. Voici en quelques citations leur angle d'attaque et leurs conclusions liminaires:
"Our research then tested if, once information has been accessed, our internal encoding is increased for where the information is to be found rather than for the information itself."
"It would seem from this pattern that people don’t remember where when they know what, but do remember where to find it when they don’t recall the information. This is preliminary evidence that when people expect information to remain continuously available (such as we expect with Internet access), we are more likely to remember where to find it than we are to remember the details of the item. One could argue that this is an adaptive use of memory—to include the computer and online search engines as an external memory system that can be accessed at will."
"We are becoming symbiotic with our computer tools, growing into interconnected systems that remember less by knowing information than by knowing where the information can be found. This gives us the advantage of access to a vast range of information—although the disadvantages of being constantly “wired” are still being debated."
On ne peut s'empêcher de se demander si cette logique du juste à temps généralisée, du flux tendu au détriment du stock ne crée pas des vulnérabilités dont nous n'avons pas encore pris toute la mesure. Cette logique qui sous-tend nos économies élimine dans un souci d'efficacité, de rentabilité, les redondances. Ainsi, nos banques qui nous donnent bien du souci ces temps-ci fonctionnent avec le minimum de capital propre et, donc, l'effet de levier maximal. Résultat des courses: catastrophique! Nos entreprises travaillent en flux tendu et l'on vient à subir la productivité plutôt que de la partager. Comme le rappelait récemment un ouvrier de l'industrie automobile: "enfant je rêvais de voiture, je rêvais de les construire; adulte, à la chaîne, j'y suis mais je ne vois aucune voiture, que des fragments de voiture..." Il suffit d'un grain de sable, un sous-traitant défaillant, un tremblement de terre etc... pour que tout le système déraille tellement sa tension est grande: la fragilité a pris le pas sur la robustesse jugée trop peu rentable, trop peu performante.
L'obsession est à l'optimisation, la performance; optimisation et performance que nous prenons pour acquises tant nous faisons (aveuglément?) confiance à ceux qui nous les promettent. Et, les promesses n'engagent que ceux qui les reçoivent...
Fascinant lorsque l'on pense que ces calculs de rentabilité et de performance sont souvent erronés quand ils ne sont pas manipulés. Etonnant lorsque l'on plonge dans le monde de la biologie cellulaire pour y constater que les question de la robustesse y sont (en revanche) examinées avec la plus grande attention :
"In short, the trade-off dictates that high-performance systems are often more fragile than systems with suboptimal performance. Interestingly, there are studies reporting suboptimal metabolism performance in Bacillus subtilis and Escherichia coli (Stelling et al, 2002; Fischer and Sauer, 2005). If the trade-off holds, metabolic performance has to be kept suboptimal to ensure a certain level of robustness against environmental perturbations."
"It is important to clearly define robustness and adaptation through evolutionary selection. Here, ‘robustness’ means an individual organism's capability of tolerating external and internal perturbations, such as environmental fluctuations, the addition of drugs, and mutations. Robustness–performance trade-off means that, when two individuals are compared, one is found to be more robust than the other but is outperformed by the other; thus, no individual can be more robust and at the same time exhibit higher performance than others." (Hiraoki Hitano, juin 2010)
"Defining any scientific term is a nontrivial issue, but in this paper, the following definition will be used: 'robustness is a property that allows a system to maintain its functions against internal and external perturbations." (Kitano, 2004a)
Google (employé ici comme métaphore) donne à nos cerveaux une agileté informationnelle remarquable. Mais ne soyons ni dupes ni candides. Cette agileté a un coût dont nous n'avons pas encore pris la juste mesure tant l'emphase est mise sur cette information toujours juste-à-temps. Tout système optimisé est certes performant (par définition de l'optimisation) mais il est aussi fragile, agile et fragile.
Alors que vaut-il mieux des cerveaux robustes ou des cerveaux (fr)agiles?
August 19, 2011 at 12:47 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: biologie, cerveau, fragilité, Google, Hiroaki Kitano, just in time, Nicholas Carr, rentabilité, robustesse
Nous avons repris l’idée d’Erathostène, et comme les géométries des mondes virtuels sont beaucoup plus riches que celle du monde réel qui nous entoure, nous l’avons généralisée, si bien que pour comprendre la vraie géométrie de la bibliothèque virtuelle, telle qu’induite par les livres et les lecteurs, nous avons en quelque sorte multiplié à l’envi les mesures locales pour capturer les particularités géométriques de la bibliothèque virtuelle jusque dans leurs moindres détails. Force a été de constater que cette bibliothèque virtuelle n’est ni plate, ni ronde, et qu’elle peut prendre des formes très diverses en fonction des livres, des lecteurs, des habitudes de lecture et de leurs variations.
Qui peut le plus peut le moins: la modélisation complète de la géométrie de la bibliothèque virtuelle nous permet évidemment de saisir le vrai voisinage d’un livre, et donc de réaliser des recommandations plus pertinentes que celles pratiquées “à la Amazon”. Mais là où Amazon est obligé de s’arrêter aux recommandations locales dans la valorisation de sa bibliothèque, à cause de l’ingénuité de sa méthode d’arpentage, nous pouvons nous permettre de monter considérablement en exigence dans l’utilisation de la description globale de notre bibliothèque.
Notre vision d’ensemble de la bibliothèque nous permet par exemple de trouver automatiquement la classification “à la Dewey” qui lui serait la mieux adaptée pour calculer les étagères de ses livres et les présenter à l’ensemble de ses lecteurs. Evidemment, cette classification est dynamique: elle chan- gerait avec les habitudes de lecture, pour présenter une architecture globale de la bibliothèque toujours en phase avec son lectorat. Notre vision d’ensemble de la bibliothèque nous permet également de proposer au lecteur de regar-der bien plus loin que le bout de son livre. En lui proposant des parcours de lecture partant de ce livre, nous sommes à même de reproduire à l’identique dans la bibliothèque virtuelle les promenades qu’un visiteur réaliserait pour partir à la découverte d’un lieu géographique. Partant d’un livre sur la cuisine épicée, la machine serait à même de construire une promenade initiatique amenant le lecteur à la découverte des pays d’origine des épices en question, voire même de contrées insoupçonnées, ayant pourtant un lien indirect avec ces épices, et associées via les parcours de lecture des autres lecteurs. L’intelligence communautaire devient donc une excellente source de sérendipité.
Partant d’un livre, la machine peut construire des parcours de lecture, passant progressivement des thématiques intéressant directement le lecteur à des thématiques susceptibles de l’intéresser à cause des associations faites par les autres lecteurs sur les mêmes livres.
De façon plus générale, les approches locales telles que pratiquées par Amazon ont un inconvénient que notre vision d’ensemble de la bibliothèque virtuelle n’a pas: en dehors des ouvrages les plus consultés, une part importante des livres moins lus prend le risque de se retrouver orpheline de re- commandations, puisque celles-ci se concentrent uniquement sur les livres les plus lus. Ce problème n’existe pas chez nous, puisque la construction virtuelle de la bibliothèque utilise absolument tous les livres.
August 17, 2011 at 06:13 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: Amazon, apprentissage automatique, collaborative filtering, livre numérique
Les arpenteurs de la Terre plate:
Au début de notre ère, les représentations de la Terre contrastaient notablement avec celles qu’on connait aujourd’hui. Les hommes d’alors ne disposaient bien évidemment pas des capacités d’obser- vation actuelles, et les représentations cosmographiques exploitaient les connaissances locales du monde. Hormis en effet les quelques informations globales qu’on savait utiliser à l’époque, comme la position des étoiles, on ne savait observer que ce qui se dessinait aux pieds des arpenteurs et à leur voisinage. Contraint par ces visions locales, le monde était donc assez naturellement plat.
Vinrent ensuite les intuitions, puis les premières observations, puis les premières méthodes techniques, qui permirent de concevoir et caractériser un monde sphérique. De façon assez remarquable, certaines des méthodes utilisées arrivèrent à partir d’un calcul local à estimer avec une précision remarquable le périmètre de la Terre. L’une de ces méthodes est la géodésique d’Eratosthène, qui permit d’estimer à une marge d’erreur minimale le périmètre de la Terre à partir de l’observation des angles des rayons du soleil en deux villes distantes de moins de 1000 km: Syène et Alexandrie. En remarquant la différence d’angle le jour du solstice d’été entre les rayons du soleil et la verticale, à Syène et à Alexandrie, Eratosthène en déduisit facilement une très bonne estimation du périmètre de la Terre.
Les arpenteurs de la bibliothèque numérique "plate":
On sait aujourd’hui que l’information dans laquelle nous baignons héberge des mondes dont la géométrie n’est pas la même que celle du monde Euclidien dans lequel nous vivons. La bibliothèque numérique est l’un de ces mondes, et Amazon fait partie des premiers arpenteurs des collections de livres de très grande taille. Dans ces mondes un peu particuliers, la recherche d’informations cosmographiques a pour objectif principal d’aider les lecteurs. Amazon fournit des recommandations sur la base d’un arpentage local de la bibliothèque virtuelle: les lecteurs qui ont acheté mon livre ont aussi acheté tel ou tel livre. On ne cherche donc pas à voir plus loin que le “nez” des listes de lecture. La première utilité des informations consiste à faciliter la recherche d’ouvrages, la base de données étant justement de très grande taille. Comment construire un outil de recommandation simple et efficace permettant de trouver les quelques livres susceptibles d’intéresser un lecteur, au coeur d’une montagne de livres accessibles ?
La solution exploitée par Amazon consiste à ne surtout pas s’éloigner du lecteur, et à arpenter localement la bibliothèque, en utilisant comme base du déplacement l’ensemble des comportements de lecture des lecteurs. Pour dépasser la simple proximité géographique - mais statique - de l’étagère physique, reproductible à l’identique dans la bibliothèque numérique en utilisant les classifications ad hoc (par exemple Dewey), Amazon a en effet utilisé la proximité virtuelle des livres dans les habitudes de lecture: on conseille à un lecteur les livres qui sont associés, dans les habitudes de lecture des autres lecteurs, aux livres qu’il a déjà lus. Le gros avantage de cette technique est qu’elle donne un coté dynamique à la recommandation: que les habitudes de lecture changent, et les recommandations changent dans la foulée; qu’un best-seller soit introduit dans la bibliothèque, et les recommandations le captent quasi immédiatement à hauteur de son statut de best-seller.
Ce mode de calcul, tel qu’il est pratiqué, fait toutefois penser à un arpentage très limité de la bibliothèque numérique puisqu’on ne sélectionne que des livres immédiatement voisins des livres lus dans les habitudes de lecture. On ne tient donc pas compte des livres se trouvant à peine un pas plus loin, peut-être très proches des livres déjà lus - voire plus proches encore que certains livres recommandés - . D’une certaine manière, en faisant l’impasse sur les structures géométriques globales de la bibliothèque numérique, cette façon locale de procéder s’apparente à celle des arpenteurs de la Terre plate, et considère donc que la bibliothèque est plate.
On peut bien sûr objecter que les recommandations “à la Amazon” ne nécessitent finalement qu’un arpentage local de ce monde, et pas la capacité d’aller voir un peu plus loin que le bout du nez des listes de lecture. Néanmoins, même à cette échelle, la vision de la bibliothèque qu’en donne Amazon est étriquée, et ses recommandations demeurent approximatives.
L'arpenteur global de la bibliothèque numérique (à suivre :-)
Eric Briys et Richard Nock (Cyberlibris TechFacts - 2011)
August 08, 2011 at 11:44 AM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: algorithmes, algorithms, Amazon, apprentissage artificiel, digital library, e-books, ebook, machine learning
Cyberlibris was started ten years ago. Some quick facts about us: Facts
Cyberlibris is a very active player of the e-book and digital libraries arena and has been so for the last ten years. Indeed, we have patiently crafted along with publishers an all you can eat subscription online (streaming) based business model for e-books. We started with the academic world and expanded to "main street" along the way. This has been a long journey indeed and, as it seems from the Internet jargon, we started it on earth and are now in the clouds :-)
Our view has always been that one has put the reader/user at the forefront. This is the extent to which what we the reading ecosystem is complete that will shape what you design (or more importantly don't design). For example, in the academic world, communities are already there. You don't have to build them. However, you have to give their members tools, services, opportunities to become more efficient learners and teachers. This is what we have done for instance with ScholarVox www.scholarvox.com, a service dedicated to business schools or ScholarVox Sciences http://sciences.cyberlibris.com , a service dedicated to engineering schools.
The economic model has to be simple and straightforward (I am a former academic and a former dean of the MBA and PhD program at www.hec.fr) so that it becomes a no-brainer for schools. This means that an all you can eat subscription streaming model is what is needed: Schools subscribe on a yearly basis on behalf of students, professors and librarians. In a sense, they (yearly) rent books which they never own as opposed to the physical library where owned books are stored.
But when you think of it, especially in the area of academic publishing (where obsolescence is quite rapid), you never "own" physical books: Yes you own a vintage year but you will have to purchase the new edition in 3 year time (otherwise patrons will complain that the library is not up to dtae). As a result, it is as if you were renting the book except that the cash-flow cycle is not the same as a true rent. You pay say $60 one shot for a print copy and $60 again three years after. Ignoring discounting this is a $20 / year rent! Not to mention the fact that you will have one way or the other to get rid of the old copies (because of lack of physical space).
Hence the subscription model is not that remote from the ownership model in that example. It moreover shows that the devil lies in the details: Be careful with too general a definition! That is why we have been successful with it and have hundreds of schools and universities subscribing year after year. Let me add for the sake of completeness that all the books are readable online either via PC/Mac or iPad.
The best metaphor I can offer for what we do is "group insurance" (after having been an academic I went to investment banking :-) Indeed, in group insurance, corporations buy a global insurance policy on behalf of their employees. This is usually good for the insurance company because with a large group of people the law of large numbers has a better chance to work and, more importantly, the issue of adverse selection may turn out to be less severe. In other words, those who have more frequent/higher claims are subsidized by those who don't. Hence insurance companies usually don't go bust.
Why is all this relevant to the all you can eat digital library model? Well, schools subscribe a global "insurance" policy (they pay the lump sum annual subscription fee) on behalf of students, professors and librarians. What does this policy cover?: What I call information/knowledge claims. When a keyword is typed, this means that a claim is about to occur. Following the full-text request, relevant books are displayed. As soon as books are opened and read, claims start to aggregate. School users are happy because their needs have been covered.
But for this to be made possible, publishers and authors for that matter have to be compensated. They have to have a share of the global insurance premium that schools have paid to us. Well, this is what we compute on a monthly basis: We pay each publisher according to its percentage share in the total number of consultations across all publishers. By consultation, we understand a book page viewed on screen (one consultation) and a page printed (one additional consultation).
Each month, each publisher receives a detailed royalty (consultations) statement which yields the overall amount to be invoiced and the split of that amount across books. In my insurance parlance, a consultation is indeed a claim. The book collection we carry allows us to match the claims for which we have then to indemnify the publishing houses. Now, the beauty having large academic groups is that heavy readers are somehow subsidized by light readers (just like in insurance companies that don't go bust!)
This begs the ultimate question: How do you price this insurance premium? Well, somehow, using actuarial principles, just like an insurance actuary would do. In insurance, what they call the pure (core) premium is the expected value of the claim, that is, in a nutshell, probability of having a claim x size of the claim. To get to this number, actuaries blend "art and science" in their computations. In our case, we have to figure out what the overall frequency of consultations is going to be given the size of the academic crew. This is where gathering data points is crucial and, in the end, gives you a edge. Because we have been in this business for the last ten years along with more than 300 publishing partners, we have gathered a rich set of data to feed our pricing scheme. And, as always money talks :-)
One last observation is in order as far as academic services are concerned. All schools access the same service: For instance, all business schools access www.scholarvox.com. Indeed, there is no reason why being a professor of finance in Dakar, Senegal should preclude you from seeing what a finance faculty member at a top school in France reads or uses in class. On the contrary! As a result, when you launch a search for finance textbooks to use in your class you are able to filter the results to identify only those that are used for the same purpose by other academics at other institutions. A kind of peer filtering on top of the full text search engine output. Moreover you're no longer limited to one textbook only, what I call the tyranny of the single required text for class which has the unfortunate result that academic publishing is more often than not a zero-sum game, a winner take all proposition. As a professor you can cook a menu for your students, far tastier than a single book. In the course of doing so more books get more chance to make more money.
We have expanded our services from the academic world to the corporate world and to the public libraries sector using the same institutional all you can eat subscription model (also community driven). For instance, public libraries get access to BiblioVox www.bibliovox.com.
Recently, with tablets blossoming everywhere, we have decided to address families at home. I insist on families at home. We don't want to be jack of all trades and master of none. Tablets will sooner or later be part of our homes enabling us to enjoy more of our WiFi home connections. You use both hands when you hold your tablet and no keyboard is keeping you at a distance from the screen. You regain the Gutenberg (cognitive) sensations. Hence, we recently launched Smartlibris www.smartlibris.com that we have for the moment optimized for the iPad.
Smartlibris is predicated on the same all you can eat subscription model. The difference is that the subscription is individual and monthly. We have designed the whole service as a service to the family, to each of its member, mum, dad, the kids. Our objective is not to have all the latest best-sellers. We have given some serious thoughts as to why a digital library makes sense in a family context. This is why we have organized it into three main silos: Knowledge, Evasion, Success.
Knowledge is taken in a broad sense. It covers: Cooking, Do-It-Yourself, Law, Psychology, Architecture, Economics, Personal Finance, Business, History, Gardening, Geography, Maternity, Nutrition, Nature, Sciences, Wine tasting, Religion, Sexuality, Health, Philosophy etc...
Evasion covers: Adventure, Comics, Novels, Kid books, Theater, Poetry, Thriller, Travel guides...
Success covers: Education, Recruitment, Exams, School, College, Tests and quizzes, etc...
We have carefully allocated all the books to the relevant silos and sub-silos. Now, if mum and dad want to prepare a reading shelf for their kids, they can. The family is planning its next holidays: It has full access to hundreds of travel guides (including Michelin, Ulysses, Petit Fûté etc... guides: http://www.smartlibris.com/books/index/categoryID/14#).
The objective is to make Smartlibris a valuable service with high quality content that will cover many aspects of family life and needs. The same way families purchase insurance for their homes, cars etc..., the same way they can purchase this digital library insurance. The difference with the group insurance case is that adverse selection might be stronger: You end up attracting families that read a lot only and this will in turn affect the pricing strategy. Hence the need to find ways to attract large groups of families in one shot to get the full benefit of the law of large (reading) numbers :-)
Pricingwise the same arithmetic as before is at play. Again, numbers indeed don't come out of the blue. They have to be simple and families have to "feel and experience" the return on investment. Furthermore, one shall not forget that book library subscription is not the only (and priority number 1) subscription that families have to pay for: Phone, electricity, water, WiFi, movies, TV, music etc...). Taking a fragmented view misses the budget constraint that all families have to face. Pricing is tantamount aligning planets but never forgetting that all planets have not yet been discovered!
This is a challenging and stimulating exercise and, as already mentioned with the proper metaphor (and tools), it is achievable. Now, will the result appeal to families like it did for schools, well this is the glorious uncertainty of business indeed. The only way to know is to try, observe and learn.
Publishing houses can learn a lot too. Indeed, e-books are more often than not treated as if they were a single homogeneous commodity. They are not. The same strategies (and more) that led the publishing houses to market hard covers, paperbacks, pocket books etc... are available. Take the following example: Assume the latest book of a best-selling author. What about having a pre-release of the book in digital format readable for free (meaning no additional fee), say, for one week in the subscription based library. After a week of availability, the book is only accessible by purchase only. Finally, after a few months, the book is again available in the digital library through the subscription service. This is one of the few ideas one may have. So, even before venturing into what future e-books are going to be (interactive, multimedia etc..), there is ample room for imagination and innovation.
Talking about innovation, there is one valuable lesson that digital libraries teach. Physical "brick and mortar" libraries are a tribute to Euclid, the famous Greek mathematician, the Father of Geometry, and its no less famous axioms. Indeed, between two given books there is one straight shelf only. Two straight shelves never cross each other (otherwise books would fall :-) etc... This is what our eyes can see in, say, public libraries.
As a result, musing in a physical library is highly structured, organized. Books sit on shelves, not any shelves though. These are the shelves that librarian classification have elaborated over years of efforts sorting out books. As a result, a physical library is a tribute to Euclidean geometry whose motto is:
Physical library = Books + Readers
The physical space is structured such that the books affordance is maximized for patrons walking along shelves.
Musing in a digital library is very different. A digital library is a tribute to non-Euclidean geometry and it goes by the following motto:
Digital library = Information
Why? Because this is this very high-dimensional information, our footprints, that we leave behind us (what we read, what we have in our bookshelves, how we organize our bookshelves, what keywords we type in, what tags we choose and so on and so forth), that these days machines can learn to tame and to decipher. This requires a fairly intensive dose of (non-Euclidean) geometric modeling and the appropriate treatment of large set of data that go well beyond the classical (flat and nearby) Amazon recommendation system.
Now if you are willing to take the scientific gamble and struggle with data, matrices, eigenvectors and the whole shabam, you will not be disappointed (and this is precisely what we have done in close collaboration with the Ceregmia lab of the University of French West Indies). Here is an appetizer: This is what we call computing books paths or books musings or book promenades... These are not random promenades. They are computed by trying to learn what the data may have to teach us.
They used to say at the French Railway, "beware, a train may hide another one", urging you to prudence. Here we say "guess what, a book may hide several other books... and several other readers" and we advise you to follow the guide! A picture says it all:
Fig.1: Picture drawn from Cyberlibris library algorithm.
Here the cube contains the whole digital library which means that, on an iPad, you will hold the whole library in your hands, at your fingertip. Not any kind of library though. This is how, given the library users habits, the library should be structured. Now, based on this, one can trace, starting from any single book, promenades that will help you discover other books that you would have had more difficulties discovering otherwise. Note also that this a whole new way to browse the library. We call it a logistical browser.
This is most useful for readers, authors and publishers. At least, we try to make sure that no single book remains orphan for too long. The qualitative dividends of this quantitative effort are many-fold. Promenades are one of them. And, by the way, at the risk of playing to hard with words, many-fold is possible because we view the digital library as book manifolds.
In a nutshell, united digital library users are stronger than isolated users and this strength can be unleashed by machine learning. That's what we mean by innovation. The least we can do for users paying a fee to access the library is to make sure that they get the most out of it given the constraints they face, we all face.
I am of course a biased, though passionate, observer of our services. I talk a lot to our academic users and I do observe my own family using Smartlibris everyday. What I can simply say is that, thanks to users, publishing houses and a significant amount of work, books are accessible in ways they were not before and users do enjoy it.
This is enough for us to wake up every morning and strive for more!
August 05, 2011 at 01:53 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: cloud, content, cyberlibris, digital library, ebook, ebooks, insurance, spotify, streaming
Pas encore partis, déjà partis? Qu'importe, les guides Ulysse sont là, en ligne et c'est déjà dans BiblioVox et dans Smartlibris.
August 04, 2011 at 05:04 PM | Permalink | Comments (0) | TrackBack (0)
Technorati Tags: bibliothèque numérique, bibliovox, cyberlibris, ebook, Editions Ulysse, guides de voyage, livre numérique, online, smartlibris, travel guides
Recent Comments