Blog

Pour en finir avec l’analyse prédictive statistique

Posted by Jean-Pierre Malle on 03/04/18 07:15

Qu’est-ce que l’analyse prédictive ?

Le terme « analyse prédictive » est un oxymore. On ne peut analyser que ce qui existe (analyse mathématique dans un espace de points, analyse de composés chimiques d’une molécule, analyse médicale d’un patient, …). La prédiction vise à imaginer l’avenir elle est par définition incertaine, irréelle. En imaginant l’avenir à partir des résultats d’une analyse, on mène une « prédiction analytique », communément appelée à tort analyse-prédictive.

Donc, l’analyse prédictive est l’art de prédire une situation en analysant les indices de situations présentes et en les confrontant à des situations passées.

L’homme a toujours cherché à prédire l’avenir. Pour cela il fait même appel à la magie sous toutes ses formes et développe des croyances lui permettant de satisfaire avec plus ou moins de bonheur cette quête.

Mais le rêve de l’homme n’est pas si déraisonné que cela puisse paraitre. En effet nombre de phénomènes sont récurrents. Dans une situation similaire la même évolution peut se reproduire. Il est alors normal de chercher à mieux cerner le phénomène pour mieux prédire un avenir probabiliste.

Deux approches s’affrontent alors, l’approche conventionnelle de l’analyse prédictive basée sur la statistique et l’approche situationnelle basée sur l’individualité. Dans ce dernier cas la prédiction repose sur l’induction ou l’abduction. Seule cette approche permet de répondre aux attentes one-to-one des consommateurs d'aujourd'hui.

L’analyse prédictive situationnelle est inductive et abductive et non statistique

L’analyse prédictive moderne ne s’appuie pas sur une approche conventionnelle, statistique et fédératrice, mais sur une approche situationnelle, différenciatrice, inductive ou abductive.

Si lorsqu’une situation se produit je suis capable de faire une association avec une situation passée similaire déjà vécue, alors je pourrai projeter l’évolution de cette situation sur celle que je vis actuellement et donc je prédirai l’avenir avec une certaine probabilité. C’est une induction.

Si je remarque qu’un phénomène est récurrent depuis quelques temps, alors je pourrai fabriquer une image grégaire de ce phénomène. Puis lorsqu’une situation se produira et que je serai capable de faire une association avec le phénomène agrégé, alors je pourrai projeter la fin du phénomène sur la situation que je vis actuellement et donc je prédirai l’avenir avec une certaine probabilité. C’est une abduction.

Beaucoup de personnes méconnaissent les principes de l’induction et de l’abduction. Dans des ouvrages renommés apparaissent aussi de graves confusions. Certains pensent que l’induction créé des modèles, ce qui est faux : la modélisation éphémère (agrégat en perpétuelle mutation) relève de l’abduction. De nombreuses personnes font une induction mais disent « j’en déduis que » alors qu’il ne s’agit pas de déduction. Ceci, et de nombreux autres cas, alimente la confusion.

La déduction, forme de raisonnement réputée parfaite, se base sur des règles établies et démontrées. A ce titre elle ne peut que « prédire le passé ». Si je rencontre une personne vivante je peux déduire qu’elle est née préalablement. Mais en prédisant qu’elle va mourir un jour, je ne fais pas une déduction mais une induction. D’expérience, cette induction a une forte probabilité de se réaliser, mais ce n’est pas pour autant une déduction.

Analyse prédictive et e-commerce

Dans le cas du e-commerce, l’analyse prédictive vise à prévoir comment chaque client va agir sur le site. Cela peut se décliner sous plusieurs formes selon que l’on vise l’achat, l’intention d’achat, la recherche de renseignements sur des produits, la comparaison de produits, etc...

Selon l’approche conventionnelle statistique, la partie « analyse » de l’analyse prédictive permet de d'intégrer des individus dans un groupe de comportements similaires (cluster) et représenter un phénomène sous une forme graphique y=f(t) à partir de mesures concernant ce groupe d'individus, puis la partie « prédiction » de l’analyse prédictive consiste à prolonger ce graphique dans une zone à venir donc non explorée, c'est une extrapolation.

Ceci n’est possible que si le phénomène est continu et suffisamment alimenté. Dans le cas de produits peu vendus ou présentant beaucoup de variantes, ce principe ne s’applique plus.

Selon l’approche situationnelle, la partie « analyse » de l’analyse prédictive permet, elle, de constituer un ensemble de situations de référence (cas de l’induction) ou de créer une image grégaire de situation (cas de l’abduction) pour chaque individu. La partie « prédiction » de l’analyse prédictive consiste à reproduire ces situations, ce qui est applicable même pour des situations peu fréquentes ou très variables.

Les attentes des consommateurs en matière d’individualisation de leur relation au site et les modifications très fréquentes de leurs situations font que seule l’approche situationnelle de l’analyse prédictive basée sur l’induction et l’abduction a un réel avenir pour un e-commerce de qualité.

Analyse prédictive et technologie

L’analyse prédictive situationnelle s’articulant sur des inductions et/ou des abductions, relève de la technologie des machines apprenantes agissant sur des cas individuels.

Là encore, il existe une certaine confusion. Certains parlent de raisonnement par récurrence pour désigner l’induction, ce qui n’est pas toujours juste.

Le raisonnement par récurrence consiste à démontrer un principe général en l’appliquant à une série de cas particuliers. Or l’homme effectue des inductions en se basant très souvent sur une seule expérience. Par exemple si on me demande de construire une proposition commerciale pour un groupe pétrolier et que j’en ai réalisé une l’année dernière pour un autre groupe pétrolier je vais associer les deux situations et induire la nouvelle proposition à partir de l’ancienne avec plus ou moins de déformation.

Pour réaliser une induction, un algorithme doit surtout détecter la similarité de la situation par rapport à une plus ancienne. Le nombre de critères peuvent être très nombreux, certains peuvent ne pas être connus, certains peuvent être différents sans que cela nuise à l’induction.

Cette association est menée par le cerveau humain comme une analogie. Il s’agit alors d’un vécu analogue à celui que l’on vit actuellement. Pour reconnaitre une situation il faut détecter des milliers de signaux faibles via des centaines de trackers car ce n’est qu’avec une grande richesse informationnelle (en fait une grande diversité des signatures de situations) que des motifs apparaitront au sein des signatures permettant de réaliser ces analogies.

De plus l’homme oublie nombre de situations passées, de la même façon la machine apprenante devra gérer sa mémoire afin de ne pas supporter un poids inutile de situations et se concentrer sur celles qui ont des chances de servir à des inductions futures. Il s’agit là aussi d’un mécanisme d’analyse prédictive. Le phénomène est donc récursif.

Les limites de l’analyse prédictive statistique

Comme nous l’avons vu précédemment, les limites de l’analyse prédictive conventionnelle sont celle de l’analyse statistique en général.

Dans un monde en perpétuel changement, et ou les changements peuvent être très violents le recours à des modèles est peu efficace.

L’élaboration d’un modèle nécessite beaucoup de temps et d’énergie, c’est une action à reconduire régulièrement, l’entreprise s’use à cette tâche pour un bénéfice de courte durée. Faire appel à des machines apprenante devient quasi-obligatoire pour s’affranchir de ces charges.

En outre le monde devient de plus en plus individualiste, chacun veut être reconnu pour ce qu’il est et non pour la catégorie à laquelle il appartient.

On trouve aujourd’hui pléthore de modèles et algorithmes de machines apprenantes statistiques sur internet en open-source mais leur grande diffusion et leur application à des situations inappropriées les rend impopulaires auprès des consommateurs.

Qui veut encore subir les effets d’un moteur de recommandation annonçant que ceux qui ont vu ce produit on aussi vu ceux-là ? Non, chacun veut que l’on s’adresse à lui individuellement pour ce qu’il est, pour ce qu’il vit.

Par exemple, ayant modifié au fil des années mes habitudes alimentaires pour des raisons médicales, je me retrouve avec une cave inexploitée et des bouteilles de vin en surnombre. Pour me rendre compte de ce que cela pouvait valoir je me suis rendu sur deux sites de vente entre particuliers et j’ai consulté nombre d’offres. J’ai immédiatement été submergé de publicités de professionnels de la filière viticole alors que je ne suis pas acheteur. Si les sites en question avaient analysé correctement ma navigation ils auraient pu induire que j’étais vendeur et non acheteur. Ils auraient pu également comprendre par mes recherches que je disposais surtout de bourgogne et ne pas m’adresser des offres de bordeaux. Ils auraient pu me fournir des conseils sur la façon de vendre ce type de vin sur leur site, me communiquer des statistiques de vente en fonction des prix, etc. Bref prendre en compte ma situation individuelle au lieu d’agir de façon aveugle et contreproductive.

C’est pour traiter ce genre de limitations que je mène depuis plusieurs dizaines d’années des travaux dans le domaine de l’analyse situationnelle, que j’ai imaginé des méthodes, des modèles, des algorithmes et des processeurs (machines apprenantes) qui prennent en compte chaque situation individuellement.

L’analyse prédictive et les PME

L’analyse prédictive conventionnelle peut sembler une solution de facilité et donc intéresser les PME limitées en moyens et en investissements.

En revanche son domaine d’application se trouve terriblement réduit. Il faut que les produits soient peu variés et fortement consommés pour la rendre applicable. La PME n’a souvent pas le volume correspondant et doit faire face à une clientèle exigeante ce qui rend cette technique peu efficace, voire dévastatrice dans certains cas.

La PME doit être aussi très prudente si elle fait appel à un intégrateur pour développer sa solution de recommandation à ce que ce dernier ne se contente pas d’implémenter un algorithme open source comportemental conventionnel et bien trop basique du genre « ceux qui ont vu ça ont aussi vu ça » ou « ceux qui regardent ça achètent généralement ça ».

N’oublions pas que les taux de transformations des sites internet ne représentent que quelques petits %, ces statistiques ne sont donc établies que sur une infime partie des visiteurs. Qu’ont faits les autres ? Ont-ils acheté ailleurs ? Pourquoi n’ont-ils pas acheté ici ? Les non réponses à ces questions faussent les statistiques de ces moteurs conventionnels bas de gamme.

L’alternative moderne recourant à une machine apprenante inductive ou abductive analysant la situation de chaque visiteur indépendamment constitue une bien meilleure solution pour mener des analyses prédictives.

Elle offre de la souplesse en toute circonstance, répond mieux aux attentes, s'adapte automatiquement aux consommateurs et ne nécessite pas de consacrer des jours à la modélisation et à la maintenance d'un modèle. Son cout de possession sera moindre et sa performance bien supérieure.

 

Jean Pierre Malle
Fondateur m8 - Data Scientist - Conseil Scientifique Netwave

Topics: Personnalisation