"Nouveau millénaire, Défis libertaires"
Licence
"GNU / FDL"
attribution
pas de modification
pas d'usage commercial
Copyleft 2001 /2015

Moteur de recherche
interne avec Google
Du rôle prédictif des données à la gouvernementalité algorithmique
Confiance et sécurité
Identité numérique
Par Hubert Guillaud
le 16/12/10
Xavier de la Porte - Guillaume Main - Erick Alphonse - Antoinette Rouvroy

Origine : http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-gouvernementalite-algorithmique/

Sur Place de la Toile, le 12 décembre dernier, Xavier de la Porte recevait Guillaume Main, consultant et statisticien, qui s’occupe du site Statosphère ; Erick Alphonse, maître de conférences au Laboratoire d’Informatique de Paris-Nord (LIPN) et responsable d’Idaaas, une société qui construit des modèles prédictifs, notamment via PredictiveDB, un logiciel prédictif et Antoinette Rouvroy, chercheuse au Fonds national de la Recherche scientifique, qui travaille sur les formes de pouvoir induites par l’usage des données.

Réécouter l’émission en ligne, ou parcourez le transcript augmenté de liens.

Il y a de multiples formes de données, rappelle en préambule Xavier de la Porte : données sociales, messages, commentaires, celles qu’on publie chez les autres ou que les autres publient sur soi. Il y a bien sûr les données comportementales : celles qui mesurent ce que vous faites sur l’internet, les données géographiques, les données publiques, les données privées. Sans compter les données environnementales issues des capteurs qui peuplent le monde. Le mouvement de l’open data encourage leur publication, alors que le nombre de données s’accroit sans cesse. Il y a enfin ce web des données ou web, qui revendique l’exploitation des données comme un nouvel horizon, à l’image du journalisme de données qu’évoquait Xavier de la Porte dans une de ses précédentes émissions.

Xavier de la Porte : Quels sont les modèles prédictifs ? Que prévoit-on et comment ? Pouvez-vous nous en donner des exemples ?

Guillaume Main : Sur Facebook par exemple, on trouve l’indice du bonheur national brut, qui s’appuie sur les statuts postés par les membres, et qui par le cumul des statuts et l’analyse permet de dessiner la tendance de l’humeur des internautes. On peut ainsi se rendre compte qu’il y a des moments plus heureux que d’autres. On est plus positif au moment des fêtes ou des grandes compétitions sportives. Cela se retrouve tous les ans. On parle donc de modèle prédictif par extension, car on observe la même tendance sur le long terme. On observe également des exceptions, des points de négativité non prévus, par exemple, la mort de Mickael Jackson.

Une autre étude récente a utilisé Twitter pour tenter d’anticiper de deux-trois jours les cours du Down Jones. C’est également une orientation majeure de Google : essayer de créer des outils pour suivre des tendances et notamment les tendances financières. Autre exemple encore utilisant Twitter, cette analyse de 3 millions de tweets évoquant 24 films du box-office américain, permettant de mesurer l’intensité du succès des films en question. L’analyse a montré qu’on pouvait dire, dès la première semaine d’activité, qu’Avatar allait être le plus gros succès du moment. On est capable très tôt de se rendre compte du rapport de force des données. La masse rend possible ce genre de modèles prédictifs.

Xavier de la Porte : Comment se construit un modèle prédictif ?

Erick Alphonse : La prédiction est un terme très général, qui comporte de nombreuses techniques et méthodologies. Le data mining est une technique très opérationnelle permettant de fouiller les données. Derrière il y a des méthodologies très simples appliquées sur des tas de choses, comme celles appliquées chaque jour pour trier et aiguiller le courrier papier. Le paradigme qu’on trouve derrière ce genre d’outils consiste à définir un système qui fait une association entre une entrée et une sortie : l’entrée étant la description d’un environnement, d’un objet d’intérêt et la sortie étant être la propriété que l’on veut prédire ou déterminer. On peut imaginer par exemple, pour la description du sentiment auquel faisait référence Guillaume Main, qu’on aura en entrée la description du tweet et qu’en sortie on évaluera si le tweet est positif ou négatif. Pour la météo on va avoir la description de la journée pour savoir si, en sortie, il fait beau ou pas. Pour le crédit bancaire, ça va être la description du client, son historique et en sortie d’évaluer s’il va rembourser son prêt ou pas. Une fois qu’on a constitué, qu’on a décidé quel était la sortie et l’entrée, il suffit d’avoir une base de données correspondante.

Xavier de la Porte : Je suppose que plus la base de données est gigantesque, plus c’est intéressant pour les modèles prédictifs ?

Erick Alphonse : Oui, plus on peut avoir confiance dans la prédiction qui sort du système. On parle d’apprentissage de la base d’exemples, car la discipline derrière la prédiction s’appelle l’apprentissage automatique ou machine learning, qui essaye d’apprendre les couples entrée-sortie, d’établir un modèle de ces données.

Xavier de la Porte : Ce n’est pas une prédiction de prophète ? C’est plutôt une prévision ?

Erick Alphonse : Oui, c’est très général, c’est plutôt marketing. Mais cela reste du classement, de la catégorisation. On a un tweet qui arrive et on va le catégoriser comme positif ou négatif. Pour les mails par exemple, le filtrage des spams (c’est-à-dire savoir si un mail va être étiqueter spam ou pas), dépend d’un modèle prédictif, qui prédit l’étiquette que vous auriez attribuée à ce courriel si vous l’aviez lu.

Xavier de la Porte : A partir de toutes ces données, l’idée est de pouvoir aller au-delà de la description d’un état des lieux. Elles permettent d’anticiper…

Erick Alphonse : Oui. L’intérêt de la sortie est plutôt quand elle est une propriété qui est difficile à acquérir, couteuse d’un point de vue de l’expertise humaine, comme dans le cas de l’expertise médicale. Ca peut être également une propriété qui n’aura une valeur que dans le futur. C’est d’ailleurs là qu’on parle de prédiction. On peut même imaginer pour une émission de radio, en prédire l’audience. C’est une propriété de l’émission de radio, mais on ne le saura que plus tard, et c’est dans ce cadre bien particulier qu’on va parler de système prédictif. Reste que la technologie existe depuis 50 ans et qu’on l’utilise tous les jours.

Xavier de la Porte : Quels sont les usages possibles de ces modèles ? On a beaucoup parlé de modèles de prévisions liés à l’expansion d’une épidémie par exemple, juste à travers de requêtes faites sur Google. Comment ça marche concrètement ?

Guillaume Main : Ca s’appelle Google Flu Trends. C’est un outil réalisé par Google qui va prendre toutes les recherches effectuées sur le moteur de recherche et qui va mesurer combien de fois le mot grippe ou gastro-entérite ou varicelle a été recherché et, en fonction, de ce nombre de fois, le moteur va essayer de mesurer cela sur le plus grand nombre d’années possible et dans le plus grand nombre de pays différents. En fait, ils se sont rendu compte en mesurant ce genre de choses que les gens avaient tendance à rechercher des informations sur la grippe ou sur une autre maladie quand ils pensaient en avoir les symptômes. Du coup, on se rend compte que la masse des gens cherchant des informations sur la grippe par exemple, a tendance à faire ces recherches en anticipant la maladie et on se rend compte que généralement quand les gens cherchent des symptômes c’est qu’a priori, dans une très large majorité des cas, ils les ont. Ce qu’on observe concrètement, c’est que lorsque Google annonce une certaine intensité des recherches sur une pandémie grippale, on se rend compte que cette intensité arrive quelque deux semaines plus tard.

Concrètement, Google parvient à anticiper, prédire, prévoir, deux semaines à l’avance ce que les organismes médicaux arrivent aussi à savoir. Les organismes médicaux vont relativement vite, mais par exemple, Sentinelles en France, un groupe d’un millier de médecins généralistes choisis de manière représentative, qui fait remonter tout ce qu’ils observent de leurs patients, n’est pas aussi rapide. On se rend compte que quand on met en parallèle les informations de Google avec les informations de Sentinelles, Google a deux semaines d’avance…

Xavier de la Porte : … et qu’il mobilise 1000 personnes pour le faire alors que Google Trends en mobilise énormément.

Erick Alphonse, quand vous avez fondé Idaaas, vous avez pensé à quels types d’usages pour vos modèles prédictifs ? Quels sont les clients que vous avez en ce moment et ceux que vous imaginez pouvoir aller chercher avec un outil de ce type ?

Erick Alphonse : Le type d’application, pour l’instant, est vraiment dans le cadre du web sémantique. C’est la capacité d’enrichir par des modèles prédictifs les données disponibles sur le web. L’exemple des tweets est un très bon exemple. On souhaite associer aux tweets une information comme faisant l’opinion. Mais on peut aussi prédire depuis l’analyse des tweets l’âge de la personne, son sexe, ses tendances politiques, par exemple pour essayer de regarder s’il n’y a pas un biais naturel dans l’écriture des blogs si on observe les blogs. Sinon, il y a aussi des applications dans l’industrie pharmaceutique. Ces modèles peuvent être utilisés pour prédire si une molécule fera un bon médicament, si elle sera active dans le corps humain… Il est possible de faire des cribles automatiques de molécules, pour se concentrer sur celles qui potentiellement pourraient être plus efficaces.

Si l’on parle beaucoup de prédiction, c’est que le changement n’est pas technologique. Cela fait 30 ans qu’on comprend bien ces outils, qu’on sait les utiliser, qu’on sait faire des systèmes industriels ou commerciaux avec. On assiste bien sûr à un changement en terme de qualité des données. Il y a eu d’abord dans les années 90 la capacité de stockage qui a augmenté. Les bases de données se sont banalisées, tant et si bien qu’on a maintenant beaucoup de données qu’on souhaite valoriser. Couplée à cette augmentation de capacité, il y a aussi, la capacité d’acquisition qui a changé. Enfin, on a de nouvelles données : on a du texte, on a les capteurs, les GPS, les images, et maintenant, il y a de nouvelles applications qui apparaissent, de nouvelles envies, de nouvelles idées, et c’est bien cette explosion de la qualité des données qui ouvrent un nouveau champ pour de nouvelles idées.

Xavier de la Porte : J’imagine que les gens qui s’occupent des questions marketing, doivent être extrêmement sensibles à cette nouvelle possibilité d’utiliser des données et notamment des données comportementales.

Erick Alphonse : Oui, ça fait longtemps qu’ils les utilisent. Quand on reçoit un courrier pour un produit financier, il faut savoir que ce n’est plus du tout aléatoire. On a été ciblé par un algorithme qui considère qu’on a une certaine appétence sur ce produit financier. Comment font-ils ? Ils ont déjà en interne – car ce ne sont pas des bases de données partagées, on s’en doute bien – un certain nombre de clients qui ont acheté le produit en question, ou pas (on retrouve des exemples d’entrée/sortie) et ils vont demander à l’algorithme de qualifier au mieux les prospects pour pouvoir se concentrer sur ceux qui devraient le mieux s’intéresser au produit.

Xavier de la Porte : Avez-vous Guillaume Main des exemples marketing de ce style ?

Guillaume Main : Sur le plan marketing, pas tout à fait. Les moteurs de recherches ont toujours essayé de mettre en place ce type d’outils, notamment Google avec son AdPlanner, un outil pour planifier la publicité qui va permettre au webmaster et aux annonceurs de savoir sur quels sites il vaudrait mieux publier des publicités. Google va essayer d’évaluer la répartition par âge, sexe, revenus… Et les annonceurs vont être capables de mieux cibler les sites qui les intéressent et ceux qui ne les intéressent pas.

Erick Alphonse : Il y a même une partie automatique dans Google – et c’est justement sa force -, qui fait qu’il est capable, quand on interroge chacun le moteur de recherche, de ne pas nous montrer les mêmes pages et surtout les mêmes publicités. En fait, le système initial qu’il avait mis en place qui reposait sur une compétition et une vente aux enchères des mots clefs ne rapportait pas assez. Désormais, ils font une analyse des profils psychologiques, des intérêts des différentes personnes, pour apporter différentes publicités. Ils ne respectent plus le système des enchères.

Xavier de la Porte : Quelle est la chose la plus folle que vous pourriez imaginer pouvoir prédire ? Car il y a des limites à cette prédiction, liée notamment au fait que beaucoup de données sont privées…

Erick Alphonse : Les applications folles c’est effectivement tout ce qui est santé. Etre capable de prédire une forme de molécule qui répondrait à un type de maladie par exemple. On peut penser aussi à ce qui se fait pour les films… Mais on sait déjà le faire avec la masse de données disponibles. On sait utiliser les tweets pour prédire si un film va avoir un bon revenu ou pas. Ou prédire le résultat d’une élection. Il y a une société qui arrive à prédire le revenu d’un film à partir de son seul script…

Guillaume Main : Un exemple m’a frappé, c’est le site RecordedFuture, un moteur de recherche qui s’emploie à récupérer toutes les dépêches, tous les communiqués de presse et les articles qui sont parus depuis des sources fiables. Et à partir de ces données il va être capable de reconnaitre par approche sémantique toutes les phrases tournées au futur, toutes les informations faisant allusion au futur qu’il agrège pour dessiner de grandes tendances pour les semaines, mois et années à venir. Quand on consulte ce moteur, sur un mot clef particulier, par exemple en faisant une recherche sur “l’Islande”, on se rend compte que, avant que cela ait été annoncé, Julian Assange comptait s’y installer.

Xavier de la Porte : Pour le coup c’est là une anticipation comportementale d’un individu…

Guillaume Main : Oui, une quantité de sources très faibles faisait allusion à cela. Mais le moteur de recherche était capable de rendre cette information par concaténation. Il est significatif de savoir que Google a investi dans ce moteur, ainsi que la CIA.

Xavier de la Porte : La prévision de nos comportements pose des problèmes sur les comportements statistiques que les données fournissent…

Antoinette Rouvroy vous avez publié il y a un an un article avec Thomas Berns, où vous définissez “la gouvernementalité algorithmique ” [voir également l'émission que Place de la toile avait consacré au sujet]. En quoi le fait que les données puissent permettre de prédire les comportements humains est en train de changer la forme du pouvoir exercé ?

Antoinette Rouvroy : Les nouveaux dispositifs prédictifs qui se déploient à partir de bases de données et de ces nouvelles technologies de prédiction que sont le profilage et le data mining permettent ou mettent en oeuvre une nouvelle stratégie de gestion de l’incertitude. On est en train d’assister grâce à la disponibilité de quantités massives de données et de possibilités de faire des opérations (c’est-à-dire faire tourner des algorithmes de corrélation statistique prédictive sur ces bases de données) à des situations où l’on a de nouveaux instruments pour prévoir de façon assez fine les comportements des individus.

Ce à quoi je me suis intéressé en terme de dispositifs technologiques, ce sont surtout des dispositifs utilisant des modèles prédictifs par exemple des dispositifs de détection multimodale dans le domaine de la sécurité ou des dispositifs utilisés dans le domaine du marketing. C’est-à-dire des systèmes d’observation, de détection, de classification et d’évaluation anticipative des comportements, des comportements d’achats, des comportements potentiellement dangereux sur le plan de la sécurité. Ce qu’on a appelé avec Thomas Berns “une nouvelle gouvernementalité algorithmique”, parce qu’en fait, ces systèmes de détection en viennent à gouverner, notamment parce qu’ils permettent de structurer a priori le champ d’action possible des individus. On sait bien qu’il n’y a pas que les gouvernements qui gouvernent au sens technique du terme : les entreprises peuvent gouverner… dans les écoles il y a des formes de gouvernement. Toutes les structures dont le champ d’action tourne autour de la perception des individus se trouvent dans une logique de gouvernement. Mais ce qui nous a intéressés, c’est le rapport qui existe entre ce nouveau mode de production de savoir prédictif que permettent le profilage et le data mining et cette nouvelle manière de gouverner, c’est-à-dire d’exercer un certain pouvoir et d’organiser la prévisibilité des comportements humains.

Xavier de la Porte : Cela passe par le sentiment assez étrange d’avoir deux corps, notre corps physique et notre corps statistique, qui nous assigne à notre profil. Mais en même temps, on ne se sent pas directement assigné par nos profils comportementaux en tant qu’individu. On a des doubles numériques qu’on n’incarne pas vraiment. Cela fait, comme vous l’expliquez dans votre article, qu’il est difficile de mobiliser contre ces nouvelles formes de pouvoir. On n’a pas le sentiment d’être assigné, alors qu’on l’est, paradoxalement.

Antoinette Rouvroy : Exactement, c’est en cela que ce nouveau pouvoir parait tout à fait inoffensif, et en même temps, c’est en cela qu’il tire sa puissance. Il est un mode de gouvernement, de structuration à priori du champ d’action possible des individus, qui ne s’oppose jamais à la volonté individuelle, ou à la sauvagerie des faits. Tout simplement, c’est un gouvernement qui s’exerce, qui structure le champ d’action possible, sans jamais contraindre les sujets, mais plutôt en façonnant à priori leurs environnements informationnels, comme les recommandations d’Amazon.

Xavier de la Porte : Les recommandations d’Amazon fonctionnent à partir des livres que vous avez commandés, et des gens qui ont commandé les mêmes livres que vous, on vous propose des livres qui sont sensés vous intéresser…

Antoinette Rouvroy : Ce qui intéresse de fait le gouvernement algorithmique, ce n’est pas le sujet identifié par son corps, le sujet individuel, mais quelque chose de beaucoup plus abstrait de beaucoup plus fantomatique : ce sont les comportements qui pourraient advenir. C’est donc un gouvernement qui ne s’intéresse pas du tout à l’actuel, mais seulement au virtuel. Ce qui intéresse ce gouvernement ce n’est pas non plus les individus, mais plutôt les réseaux de données. Finalement, le sujet de la gouvernementalité algorithmique n’est pas le sujet capable d’entendement et de volonté, typique de la gouvernementalité libérale, c’est bien plutôt des réseaux de localisation dans des tables actuarielles.

Xavier de la Porte : Juste pour préciser, ce pouvoir-là, vous le voyez s’exercer où ? Dans les entreprises ?…

Antoinette Rouvroy : Oui. On le voit aussi se déployer progressivement dans des applications sécuritaires, dans des applications de marketing, dans des applications de divertissement. On a ainsi des scénarios de web TV interactives par internet qui peuvent détecter, grâce à une webcam posée sur l’écran, les expressions faciales des spectateurs et adapter le contenu diffusé aux émotions qui sont détectées à partir de la reconnaissance de mouvements du visage. Ces détections se font sur bases de patterns ou de structures de comportements qui sont produites par des algorithmes, par l’analyse de masses gigantesques de données sans rapport les unes avec les autres d’ailleurs, mais, à partir de corrélations observées ont peu effectivement produire des sortes de modèles de comportement qui ensuite – et là c’est la dernière phase du processus -, sont utilisés dans le cadre d’un profilage. C’est-à-dire que quand on voit telle caractéristique visible chez une personne on va pouvoir en inférer, de la seule présence de cette caractéristique, d’autres caractéristiques qui elles ne sont pas visibles, mais qui peuvent être prédictives de ces comportements, de ces attentes, des ces préférences, etc.

Xavier de la Porte : Vous disiez que c’est un pouvoir qui ne s’intéresse plus aux causes, mais qui fait des corrélations…

Antoinette Rouvroy : Ce à quoi on assiste c’est qu’on a affaire à un nouveau rapport au savoir. Ce qui change, c’est qu’on a l’impression d’avoir abandonné un petit peu les ambitions de la rationalité moderne, qui visait à comprendre les phénomènes en les reliant à leur cause, au profit d’une rationalité post-moderne, qui est fondée sur une logique purement statistique, donc sur la découverte de corrélations entre des données recueillies dans des contextes extrêmement divers, hétérogènes les uns aux autres, et qui sont reliés entre eux par aucun lien de causalité.

A partir de cette masse de données sans rapport, on construit pourtant un savoir prédictif, alors qu’on pourrait dire – au risque de susciter quelques animosités – qu’il s’agit d’un savoir imbécile, dans la mesure ou c’est un savoir qui ignore les causes des phénomènes qu’il désigne. C’est un paradoxe. A la fois, c’est un système qui paraît plus objectif que la détection et l’anticipation humaine dans la mesure où on a l’impression qu’il est capable de détecter à partir du réel lui-même, sans plus aucune hypothèse politique sur le réel, mais c’est un système qui est fondé sur l’abandon de la notion même de rationalité au sens moderne du terme.

Xavier de la Porte : Erick Alphonse, la question des formes de pouvoir et de gouvernement est-elle une question que vous vous posez, depuis les pratiques que vous proposez ?

Erick Alphonse : Oui, même si le pouvoir est avant tout dans la détention de l’information. On a l’impression que l’ordinateur est une boite noire dont on ne comprend pas bien les mécanismes, entouré de gourous qui manipulent des paramètres qui nous échappent. Or, le pouvoir en question repose avant tout sur la détention des données. On peut prendre l’exemple de Google et de ses profils psychologiques. Il faut savoir que Schmidt, le PDG, a annoncé il n’y a pas si longtemps qu’ils avaient beaucoup d’applications en cours, mais qu’ils n’osaient pas les montrer au public pour ne pas effrayer les gens.

Le problème est effectivement l’asymétrie de l’information. Il y a des grands groupes qui arrivent à centraliser des masses de données extraordinaires, qui touchent vraiment à la vie privée des gens, comme c’est le cas des recherches que l’on fait sur Google. Il faut savoir que tout est stocké et qu’on arrive ainsi à avoir un profil psychologique très fin d’une personne en ayant tout son historique de requêtes sur Google. Bien sûr se pose un problème de vie privée en terme d’acquisition des données. A-t-on le droit de recouper, de faire des tests de personnalité à votre insu ?

Xavier de la Porte : Quel outil juridique peut-on imaginer pour contrer cela ? Face à une forme de pouvoir qui échappe aux analyses foucaldiennes qui nous servaient jusqu’ici, du coup comment peut-on répondre ? Faut-il s’intéresser par exemple à qui possède les données ?

Antoinette Rouvroy : Les questions juridiques que vous abordez nous obligent à plonger dans quelque chose de presque plus épistémologique qui est le changement du rapport au savoir. On se rend compte qu’on abandonne le savoir causal et que, ce qui est dévalué dans la possibilité de faire du sens, c’est la dévaluation de l’expérience sensible elle-même au profit du calcul. Cela nous renvoie à une problématique juridique essentielle qui est la disparition dans ce contexte-là pour les individus “de comparaitre”.

Comparaitre, c’est être mis à l’épreuve par une norme qui serait visible et intelligible. Or la norme n’est plus visible et intelligible, mais est devenue opérationnelle, et ce, sans avoir été vraiment délibérée, explicitée. C’est une forme de normativité qui fonctionne très différemment de la normativité juridique. Elle fonctionne avec une forme d’efficacité et de performativité à rebours, puisque ce qui advient ce sont les faits, qui nomment et valident les méthodes d’interprétation automatique qui s’y appliquent. On a ici vraiment à faire à une manière de rendre le réel signifiant et intelligible qui est tout à fait étrangère à la rationalité juridique.

Dans le cadre de la rationalité juridique, ce qu’il se passe c’est que les individus quand ils désobéissent à une norme sont appelés à comparaître devant un tribunal pour expliquer notamment ce qui les a fait agir ainsi. Dans un contexte de gouvernementalité algorithmique, qui a priori structure notre champ d’action possible, je ne vois pas comment les individus peuvent rendre compte de ce qui les a fait agir. Rendre compte des motivations de nos actions, du sens qu’on leur donne est également un des rôles du procès, comme d’offrir une scène sur laquelle les individus peuvent venir dire non pas tant de leurs intentions, qui nous échappent toujours en partie, mais au moins du sens qu’on donne a posteriori à nos actions. Il y a donc effectivement un rôle du droit, surtout à l’heure où on essaye d’éviter les procès et les lourdeurs du procès. On se dit que finalement, le droit, par rapport à une normativité plus technologique, est très inefficace dans la mesure ou il permet la désobéissance, où son élaboration est le résultat relativement lourd et inélégant de négociations partisanes… Tout ce qu’on reproche au droit comme lourdeur, comme inefficacité, comme inefficience, c’est finalement ce qui fait sa dignité, car c’est ce qui permet aux individus de devenir non pas sujets statistiques, mais sujets de droit. Ca les décolle de cette sorte d’imanence et leur permet de rendre compte par eux-mêmes de raisons biographiques et éventuellement de désaccords avec la norme en la rendant visible dans la contestation. Et cela permet de se rendre compte effectivement de ce qui nous affecte en tant que norme, de rendre compte de ce qui fait qu’on n’est pas d’accord avec certaines normes. Sans compter que le droit organise lui-même son propre système de mise à l’épreuve.

La gouvernementalité algorithmique ne nous propose rien de cela.