logo
image3

Qu'est ce que la transparence des algorithmes dans le monde de l'assurance ?


10/09/2018, Article du Livre Blanc « Être assuré en 2030 ! » de l’École Polytechnique d’Assurances (EPA)

Qu'est-ce que la transparence des algorithmes dans le monde de l'assurance ? - Anna NESVIJEVSKAIA

Article d'Anna NESVIJEVSKAIA, extrait du Livre Blanc « Être assuré en 2030 ! » de l’École Polytechnique d’Assurances (EPA). Ce Livre Blanc est associé au :

 

La transparence des algorithmes n’a pas à être perçue comme une contrainte imposée par le régulateur : c’est une incitation à la coopération. En effet, les algorithmes ne sont pas des machines, mais le fruit d’une relation entre acteurs dont la forme de collaboration conditionne la valeur de leur usage.

La pratique de l’assurance en 2030 sera résolument truffée d’algorithmes ! Les usages imaginés, et d’ores et déjà en cours de déploiement, sont innombrables : de la création de nouveaux produits basés sur l’IOT jusqu’à la détection des fraudeurs, en passant par la prospection qualifiée et optimisée tous canaux confondus ou l’accélération de la gestion des sinistres, sans oublier bien évidemment la tarification et la protection de portefeuille par l’anticipation des résiliations. L’intelligence artificielle s’empare progressivement des champs de prise de décision humaine, et ce au cœur des activités clés des institutions d’assurance. Les équipes de Data Scientists prennent de l’ampleur auprès des équipes historiques des actuaires et du marketing. Ainsi, lorsque la CNIL soulève la réflexion sur les enjeux éthiques et sociétaux liés à l’usage des algorithmes(1), tout en posant les principes de loyauté et de vigilance, le secteur de l’assurance est l’un des premiers intéressés.

Si la maturité des citoyens face au concept d’« algorithme » est à la traine, peu d’entreprises semblent préparées aussi bien que les assureurs aux questions relatives au traitement des données, qui irrigue historiquement l’analyse des risques. Pourtant, la maturité des acteurs internes parait, elle aussi, perfectible. Cela se traduit par un certain malaise, des attentes quelquefois fantasmatiques, des incompréhensions, des réticences et parfois un désengagement des praticiens métier des projets data internes, et même de mauvaises pratiques. Le résultat ne se fait pas attendre : les projets s’enlisent dans des explorations qui n’aboutissent ni à des usages réalistes ni à des bénéfices tangibles, voire conduisent à des dérives. Ces dernières ne tardent pas à se faire remarquer par les citoyens et les régulateurs, comme les pratiques agressives ou discriminantes de certains assureurs britanniques(2). A ce jour, de nombreux assureurs français ont investi dans des projets data, ne serait-ce que pour s’offrir leur propre montée en maturité, et il est temps de faire le point sur le concept d’« algorithme ». Ici, il n’est pas question d’un outil incontournable et révolutionnaire dans la pratique métier, ni d’une menace américaine ou chinoise. Il est question du rôle offert aux praticiens français dans la construction de cet inexorable objet technique pour l’assurance de demain.

1. Un algorithme n’est pas un robot

Qu’est-ce qu’un algorithme ? Il s’agit, d’après la définition simple de la CNIL, d’« une suite finie et non ambiguë d'instructions permettant d'aboutir à un résultat à partir de données fournies en entrée ». Trois questions sont alors posées pour mieux le comprendre... Quelles sont les données source ? Quelles sont les instructions ? Quel est le résultat obtenu et à quoi sert-il ? Jusqu’ici, tout est plutôt simple. Cela semble se compliquer lorsque le phénomène Big Data impacte de front les trois réponses, mais qu’en est-il vraiment ?

La baisse des coûts de traitement, la mise en données massive et la facilitation des accès enrichissent les référentiels de données habituels. La prise en compte de sources inexploitées auparavant, internes ou externes, conduit à repenser le périmètre d’analyse d’un risque ou d’une performance. Ces sources contiennent potentiellement des données personnelles, des variables discriminantes, sans oublier des données de mauvaise qualité pouvant biaiser les résultats. Les nouvelles données nécessitent alors une qualification, qu’elle soit technique, analytique, ou simplement métier. Par ailleurs, il faut construire, nettoyer, agréger, dériver, enrichir, malaxer les données source pour en extraire la signification, à commencer par les données internes, souvent issues de plusieurs silos et fonctions de l’entreprise. Des praticiens, capables de comprendre le sens des données, sont ainsi impliqués dans la sélection des données dès le démarrage d’un projet data, sans attendre que les Data Scientists n’aient déniché un signal, statistiquement fort intéressant, mais incompréhensible ou éthiquement inexploitable. Ce travail conjoint assure la qualité de la matière première pour alimenter l’algorithme. Ainsi, la transparence des données en entrée est, de toute évidence, à la main des concepteurs des algorithmes, c’est-à-dire les Data Scientists et praticiens métier.

La suite d’instructions de l’algorithme fait, elle aussi, l’objet d’une évolution de fond. En effet, les instructions sont traditionnellement paramétrées par des individus, sous forme de règles métier notamment. Le Machine Learning permet, quant à lui, de générer un paramétrage optimisé, selon un processus d’apprentissage automatisé, basé sur un ensemble de données dédié, distinct des données sur lequel l’algorithme résultant sera appliqué. Le rôle de la machine suscite alors de la fascination ou de la méfiance. Démystifions ce sujet : jusqu’à nouvel ordre, si la machine peut bien fournir des instructions optimisées, elle nécessite elle-même un paramétrage humain pour se lancer dans les apprentissages. Les bibliothèques disponibles, y compris en Open Source, pour la génération d’algorithmes sont aujourd’hui d’une richesse sans précédent et de plus en plus accessibles, au point où ce n’est pas l’algorithme qui prime, mais son choix parmi les algorithmes possibles. Les algorithmes de Machine Learning s’étendent des plus simples aux plus complexes, parfois à tel point que les concepteurs ne peuvent pas identifier eux-mêmes le cheminement logique des instructions générées, et encore moins les piloter dans le temps. La volonté de transparence des algorithmes peut amener à privilégier les méthodes explicites, en particulier lorsque celles-ci ne dégradent pas la précision souhaitée des résultats. Ce choix, associé à un discours pédagogique sur les méthodes de Machine Learning, garantit alors l’absence de l’effet « boite noire » auprès des utilisateurs internes des résultats, des régulateurs et des clients.

Enfin, qu’en est-il de l’usage du résultat de l’algorithme ? Le résultat doit être une information utile à une prise de décision, automatisable ou non. Il s’agit certainement de l’élément le plus important à prendre en compte dans la conception d’un algorithme, puisqu’il guide le choix des données et des méthodes de Machine Learning utilisées, et surtout la création de valeur par le nouvel usage proposé. Or, l’éventail des usages possibles ne cesse de s’agrandir, allant des pratiques les plus saines aux plus déloyales, délibérées ou inconscientes. Plus alarmant encore, lorsque les praticiens se reposent sur une fouille des données sans a priori pour découvrir de nouvelles hypothèses métier, il est tout à fait légitime de se poser la question de la maturité et de l’éthique des interprètes de ces hypothèses pour l’imagination des usages imprévus. Une double implication des acteurs métier est alors clé dans la phase de conception des algorithmes : en amont, un engagement actif dans le choix des objectifs et des usages, et, en aval, une appropriation approfondie des résultats pour décider en toute connaissance de cause s’ils sont acceptables pour l’usage. Sans surprise, la loyauté des algorithmes est avant tout une loyauté des concepteurs des usages mobilisant ces algorithmes.

Ainsi, la conception d’un algorithme, jalonnée de décisions humaines, est très loin d’être le fruit d’un robot.

2. La valeur est dans la co-construction

La CNIL demande à douter des algorithmes. Dans ces circonstances, douter ne consiste pas à juger un résultat statistique, mais à s’impliquer dès l’amont du projet dans les choix structurants des données, des méthodes de génération d’algorithmes, et des usages. Douter implique d’exiger la documentation des technologies et des méthodes analytiques, la capitalisation et le partage des connaissances ainsi que la rigueur éthique de chaque acteur impliqué dans la conception, marquée par des étapes d’arbitrage. Or, les experts métier ne peuvent arbitrer qu’à condition d’être informés de façon intelligible par les experts des données, eux-mêmes informés des risques éthiques, généraux ou propres au secteur de l’assurance, afin de pouvoir tirer l’alerte face aux dérives possibles des usages. Les Data Scientists doivent ainsi travailler en étroite collaboration avec les experts métier, c’est-à-dire les directions générales, les actuaires, les responsables marketing, les financiers, les juristes, les Knowledge Managers, et tout autre contributeur désireux de façonner la conception de l’algorithme ou impacté par son usage.

Mais alors, comment délimiter les responsabilités des concepteurs et des utilisateurs ? L’intérêt d’un algorithme est la transformation de données brutes en informations utiles à la réduction des incertitudes face à une prise de décision. Si aujourd’hui la responsabilité est portée par un décisionnaire, demain elle sera séparée en deux : d’une part, le décisionnaire, c’est-à-dire l’utilisateur de l’information fournie par l’algorithme, et d’autre part le concepteur de l’algorithme. Prenons un exemple simplifié de la prévention de l’attrition client selon un score de churn, où un algorithme fournit une liste de clients à risque élevé de résiliation de contrat : un agent ne portera plus que la responsabilité opérationnelle de la rétention des clients ciblés selon la liste restreinte, alors que les concepteurs de l’algorithme porteront celle des critères de ciblage. Le partage et la concentration des responsabilités ne paraissent acceptables qu’à condition que l’autonomie de décision des utilisateurs soit garantie par une symétrie informationnelle avec les concepteurs. Sans cette autonomie, les utilisateurs verraient leur capital de connaissances stagner, voire fondre, leur périmètre d’action se réduire, et leur responsabilité individuelle croitre. L’application du principe de loyauté semble donc devoir franchir d’abord le pas des utilisateurs internes, citoyens vigilants comme les autres, avant d’être pleinement opérant auprès des clients et de la communauté.

***

La transparence des algorithmes ne doit donc pas être considérée seulement comme une requête complémentaire du régulateur. Elle conditionne avant tout la création de valeur par la pertinence économique et démocratique des usages, et la capitalisation des connaissances métier internes. Elle ne peut avoir lieu qu’à travers l’engagement pédagogique des Data Scientists et la prise de conscience des concepteurs métier et des utilisateurs internes, pour accompagner pas à pas la montée en maturité du secteur de l’assurance d’ici 2030 sur le concept, pas si mystérieux, d’« algorithme ».

 

(1) https://www.cnil.fr/fr/comment-permettre-lhomme-de-garder-la-main-rapport-sur-les-enjeux-ethiques-des-algorithmes-et-de

(2) https://www.cnet.com/roadshow/news/uk-insurance-company-charges-more-based-on-email-domain-first-name/

 


Avec de plus de 10 années de carrière en finance et conseil, une contribution permanente à la recherche scientifique sur la génération de valeur à travers le Big Data, Anna NESVIJEVSKAIA exerce aujourd'hui le métier de Directrice Projets Data Science au sein de Quinten, société française experte en valorisation stratégique des données. Son recul professionnel et académique lui permet de mettre en perspective les dispositifs d'exploitation de données à travers des usages dans de multiples secteurs d'activité, et plus particulièrement l'assurance.