Algorithmes et éditorialisation automatisée
Cinquième séance du séminaire "Écritures numériques et éditorialisation".
Aujourd'hui nous parlons de la fonction éditoriale des algorithmes avec Dominique Cardon, à Paris, et Audrey Laplante ici à Montréal.
Voici le descriptif de la séance:
Derrière nos expériences de lecture se cache de plus en plus une structuration des données par des algorithmes (souvent propriétaires) qui deviennent les producteurs du sens des contenus.
En créant des parcours de lecture et en les offrant aux lecteurs les algorithmes sont un dispositif d’éditorialisation de plus en plus présent et puissant.
Outre le PageRank de Google, quels sont les nouveaux paradigmes métriques et statistiques qui façonnent par défaut (si ce n’est par autorité) notre monde informationnel et la mise en signification du monde ?
L’algorithme est-il une réponse plausible (et unique) à la prolifération des données transformant le web en “un immense bazar où il serait impossible de trier l’information de qualité” ?
Et les questions que nous avons posées à nos intervenants :
1-
Dans quelle mesure les algorithmes affectent-ils notre choix de contenus (recommandation) et nos expériences de lecture (impact de l'éditorialisation automatique sur les interfaces)? Peut-on considérer dans ce cas les algorithmes comme des véritables éditeurs ?
2-
Les algorithmes sont basés sur une certaine vision du monde (la méritocratie du Page Rank, logique d’audience de l’Edge Rank) mais finissent dans le même temps par en proposer une, devenant ainsi prescriptifs et normatifs en nous demandant de nous adapter à leurs valeurs. Dans ce contexte, comment peut-on articuler des stratégies éditoriales humaines traditionnelles et des stratégies algorithmiques ? Sur quelles valeurs, et quelles bases éthiques ?
Et mes notes:
On commence à Montréal avec Audrey Laplante
Recommandations musicales. Dans le domaine musical, il y a des millions de contenus. Il est évident que des algorithmes sont nécessaires. Il y a des difficultés spécifiques pour la musique : peu de métadonnées, fichiers sans texte et en plus les choix ne sont pas forcement liés à la musique elle-même. L'algorithme doit prédire les goûts à partir des activités en ligne. Au départ le problème est qu'on n'a pas assez de données sur l'usager.
Toutes les activités sont enregistrées: ce qu'on a aimé, ce qu'on a téléchargé etc. (Ex LastFm). On prend en considération aussi l'historique d'écoute - cet historique est public car LastFm est aussi un réseau social.
3 types de filtrage
1. social
2. basé sur le contenu
3. hybride
L'approche sociale est aussi celle d'amazon et elle est la plus courante. L'algorithme dans ce cas ne prend pas en compte le contenu (juste ce que les usagers ont fait), on parle de fan2fan.
Derrière ce choix il y a l'idée que les goûts musicaux sont socialement construits. Mais ça devient un concours de popularité. Les artistes inconnus sont désavantagés (le plus on est vu, le plus on est visible). Le problème est aussi que très difficilement on va découvrir quelque chose de nouveau.
Revenons à l'idée des goûts socialement construits. Adorno critique le dispositif de l'industrie culturelle (1938) - standardisation etc.
Mais l'idée de la construction sociale des goûts peut aussi être associée au lien entre musique et identité. Les goûts musicaux deviennent donc un badge social. Les préférences musicales sont très peu liées à la musique elle-même - ça dépend des conditions sociales et psychologiques de la personne.
La deuxième approche est basée sur le contenu: on analyse la musique elle-même (c'est une approche essentialiste vs une approche constructiviste). Le projet Pandora, par exemple, donne la possibilité d'attribuer 250 mots-clés par chanson. Le catalogue est petit, il y a un choix. The echo nest est un service qui propose une recommandation hybride (il vend les données aux radios etc.)
Beats Music : on met en avant l’expertise humaine. On fait appel à des experts qui créent des playlists.
Est-ce un phénomène nouveau ? Des systèmes de décompte étaient déjà mis en place dans les jukebox (les données étaient utilisées pour concevoir la programmation des radios).
Évidemment les algorithmes façonnent nos goûts car ils décident de l'accès.
Il faut tenir en compte le fait que l'objectif de ces algorithmes est de servir le groupe qui peut rapporter de l'argent. Echonest le déclare clairement (justement parce qu'il s'adresse aux services et pas aux usagers) http://echonest.com/.
Dominique Cardon
La politique des algorithmes. La question est : "comment classer le web?"
L'idée c'est bien sûr de confier la tâche à des humains qui puissent faire de la curation, mais vu la quantité des informations disponibles, l'intervention des algorithmes est fondamentale. Il s'agit de mettre en place une anthropologie es algorithmes.
Il faut éviter l'opposition homme-machine et considérer le couple algorithme-humain.
Il y a des familles très différentes d'algorithmes, on ne peut pas les uniformiser. La position du calcul par rapport au web détermine les algorithmes:
1. à côté : l'audience
2. au dessus (comme pagerank principe d'autorité)
3. dedans (on regarde les pratiques)
4. en-dessous (prédictivité), c'est le modèle du machine lerning.
On a là 4 différentes positions du calcul. Une mesure doit avoir prise sur le web.
1. lien
2. like
3. vue
4. trace
Il y a ici une division assez forte entre ce qu'on fait et ce qu'on montre qu'on fait.
1. le web pris d'à côté : on mesure la popularité. On compte les clics, les vues. (c'est une mesure propriétaire). Ce type de mesure est très démocratique (égalité entre les cliqueurs).
2. mesurer par au-dessus : l'autorité. C'est clairement l'idée de PageRank. On valorise l'idée méritocratique. C'est un dispositif de production de l'autorité. NOTORIété différent de la popularité. Car le pagerank veut garantir la qualité. L'idée est de détacher les personnes des textes. On déplace la fonction d'autorité. L'aspiration de PageRank est de disparaître pour ne pas influencer le web. Il veut avoir une vision objective du web. Il faut éviter de construire le web en fonction de l'algorithme.
3. dedans : l'affinité. Le compteur est à l'intérieur. Ce qu'on mesure est la réputation (réseaux sociaux, like, retweet). Quand on like ou on retweet on est en train d'attribuer de la qualité à un objet mais aussi on fait un geste de production d'identité (les likes et les retweets sont des dispositifs d'identification). Dans ce système, personnes et contenus sont très liés. - il y a deux dimensions qui se mélangent : ce que les personnes sont et ce qu'elles veulent être. Les métriques du web social sont faussées par cela. Dans ce cas il n'y a pas de différence entre naturel et stratégique, ce qui était le cas pour le dispositif métrique de pagerank
4. Enregistrer les traces. On regarde ce qui se passe, on ne s’intéresse qu'aux comportements.
Bien évidemment, dans la réalité, ces modèles sont hybridés.
Dans le débat on souligne:
1 le risque du désalignement entre ce que les algorithmes disent de faire et ce qu'ils font. Il faut que les algorithmes soient transparents
2. la question de la literacy : il faut connaître les algorithmes