logo
image3

Intégration, valorisation et exploitation des données à l'ère des Big Data

La MasterClass

Du mercredi 8 Avril 2015
Au jeudi 9 Avril 2015

Centre de conférences Paris Victoire
52, rue de la Victoire
75009 Paris

Coût: 1180 euros
Places limitées à 14

Informations supplémentaires:
contact@epassurances.fr
01 45 81 86 15

Big DataNous assistons, depuis ces dernières années, à une augmentation extrêmement importante des flux de données et d’informations : on estime en effet aujourd’hui que le volume total de données générées par l’humanité double tous les deux ans. Cet environnement de plus en plus « numérique » et « connecté » a de nombreuses implications pour les entreprises qui souhaitent rester compétitives et se démarquer de la concurrence, quel que soit le secteur d’activité dans lequel elles opèrent.

L’approche « Big Data » est actuellement en train et va continuer de révolutionner le monde de l’assurance, à la fois en apportant de nouveaux outils d’analyses aux sociétés opérant dans ce secteur, et en leur permettant de délivrer de nouveaux services à leurs clients.

Conquérir et fidéliser de plus nombreux assurés, comparer son offre à celle de la concurrence en temps réel, protéger sa réputation, qualifier le risque, consolider les clients rentables, faire de la prévention, lutter contre la fraude… telles sont les perspectives qu’ouvre le Big Data aux acteurs du monde de l’assurance.

Cependant, les compagnies d’assurance, les courtiers, les institutions de prévoyance, les mutuelles ou encore les bancassureurs… ne pourront bénéficier des avantages que le Big Data peut leur apporter, qu’à la condition de préparer suffisamment en amont, puis de réaliser, un certain nombre de mutations, notamment dans l’organisation de leurs systèmes d’information.

Les acteurs du monde de l’assurance doivent tout d’abord changer de paradigme dans leur approche aux données. La révolution des données doit en effet être propagée à l’ensemble des services et métiers et ne pas rester confinée au sein des seules Directions des Systèmes d’Information (DSI), ceci afin de pouvoir instaurer dans l’entreprise une culture de la décision basée sur les données (ou data-driven).

La gestion des flux et la manutention des données étant devenues des opérations peu onéreuses et bien maîtrisées, le principal enjeu concerne désormais l’exploitation et la valorisation en temps réel de ces mêmes données, puisque, dans un monde ultra-compétitif, le premier à agir dispose d’un avantage concurrentiel primordial. Il faut cependant savoir que les récentes avancées technologiques permettent dorénavant de raccourcir les cycles d’analyse et de réflexion, et d’accélérer la mise en place d’actions stratégiques.

Les décideurs doivent donc identifier les compétences qui leur permettront d’articuler les besoins et de mettre en place les solutions permettant d’injecter les flots de données directement au sein de l’opérationnel, afin d’assurer le passage, dans l’entreprise, de l’interprétation traditionnelle de la donnée comme outil descriptif du passé, à une conception de la donnée envisagée comme outil prédictif de l’avenir (grâce à la Business Intelligence).

Cette Master Class de deux jours a pour double objectif de permettre aux participants d’évaluer  les impacts que le Big Data va avoir sur l’organisation des systèmes d’informations (notamment à travers leur déploiement auprès des équipes opérationnelles et en interaction avec les clients/partenaires), et de les rendre semi-opérationnels dans la valorisation efficace des données dans un environnement Big Data.

N.B. : Cette Master Class est validée par l'Institut des Actuaires et délivre 80 points PPC.

Objectif de la Master Class

LE BUT DE CETTE FORMATION EST DOUBLE :

  • D’une part, il s’agit de sensibiliser les entreprises opérant dans le secteur de l’assurance à l’impact des Big Data et à la révolution des données qui en découle, et de montrer l’intérêt qu’il y a à développer et déployer des systèmes d’informations à destination des équipes opérationnelles ou en interaction directe avec les clients et les partenaires.
  • D’autre part, la formation veut offrir un panorama large de l’ensemble des concepts et des outils qu’il faut adopter pour valoriser efficacement ses données dans un environnement Big Data. Notre objectif est que les participants soient semi-opérationnels dès la fin de la formation.  L’accent sera donc mis sur les aspects pratiques, avec le logiciel R.

Le déroulement se fait sur deux jours, avec une présentation des enjeux suivie d’un exposé des technologies et métiers (le tout illustré par des cas d’usages représentatifs), ainsi qu’un projet pratique sur la dernière demi-journée.

Programme détaillé

Jour 1

SENSIBILISATION AUX ENJEUX DES BIG DATA

Nous brosserons un panorama des enjeux liés aux Big Data, ainsi que des intérêts de mettre en place une véritable politique data-driven au sein de l’entreprise. Nous introduirons les concepts et les idées importantes qui serviront de repères pour le reste de la journée.

ECOSYSTEME BIG DATA

Nous aborderons la question des sources et des silos de données. Nous verrons les grandes familles technologiques de gestion et d’intégration de données, ainsi que les défis posés par la variété et l’hétérogénéité des données.

Un environnement Big Data se caractérise par des données de sources variées et de formats hétérogènes. Nous verrons comment travailler avec des données structurées et non-structurées dans les systèmes d’information modernes.

* Données Textuelles

Une des révolutions majeures liées aux Big Data est l’intégration des données non-structurées dans les processus d’analyse et de décisions, et plus particulièrement les données textuelles.  Nous introduirons les méthodes et les concepts de bases de la fouille de texte, ainsi que la classification et la comparaison de documents.

* Graphes

Les données constituent généralement un réseau d’information à travers leurs relations et leurs interactions. Ce réseau est un contexte informatif extrêmement important, mais est généralement peu lisible lorsque les données sont stockées sous forme de tables. Nous verrons les nouvelles solutions technologiques qui émergent dans l’exploitation des réseaux de données, avec une exploitation directe du graphe correspondant, ainsi que les métriques propres à l’analyse de réseaux complexes.

TROUSSE A OUTILS DU DATA SCIENTIST

Une présentation de quelques-uns des outils les plus répandus pour l’exploration et l’analyse des données dans un environnement Big Data, dans un environnement Unix, à commencer par le plus simple : la ligne de commande. Nous introduirons notamment le logiciel R pour l’analyse de données, qui nous servira à illustrer les différents concepts tout au long du cours.

PREPARATION DES DONNEES

Préparer correctement ses données avant toute analyse est une étape primordiale pour la réussite d’un projet Big Data.

Un travail de sensibilisation sera fait sur les défis de sélection, de validation et d’intégration de toutes les sources de données, en particulier les bonnes pratiques et les pièges (bruit et redondance, données incomplètes ou mal formatées, etc.).

ANALYSE EXPLORATOIRE DES DONNEES

Introduction aux concepts mathématiques et statistiques de base, et à la visualisation des données. Cette étape permet de mieux connaître ses données afin de choisir les bons outils lors du développement des systèmes prédictifs.

Jour 2

EXPLOITATION DES DONNEES : SYSTEMES PREDICTIFS ET PRESCRIPTIFS

Une fois les données préparées et validées, la construction de modèles prédictifs constitue le cœur du travail. Nous étudierons les grandes familles d’algorithmes pour faire de la classification et de la prédiction, et surtout la validation de ces modèles avant leur mise en place dans les systèmes opérationnels.

INTRODUCTION A L’APPRENTISSAGE STATISTIQUE

Introduction aux notions et concepts de base permettant de déployer des systèmes apprenants efficaces : apprentissage supervisé (classification et régression), non-supervisé (principalement réduction de dimension et clustering), sélection de features pour l’apprentissage, validation des résultats.

Le sujet étant assez large et complexe, nous nous concentrerons principalement dans cette partie de la Master Class sur la compréhension des différents éléments, afin de pouvoir rapidement choisir et déployer des algorithmes de machine learning. De nombreuses illustrations de cas d’usages, et quelques conseils pratiques sur les différentes étapes, permettront d’acquérir intuitivement une bonne compréhension du sujet, sans être noyé sous les détails mathématiques et techniques.

CAS PRATIQUES

Une fois familiarisés avec l’ensemble de la chaîne de valorisation des données, nous mettrons en place quelques projets concrets et complets en R. Les participants pourront apporter un  ordinateur (de préférence sous un environnement Unix : Mac ou Linux) avec les logiciels R et RStudio installés pour tester eux-mêmes les cas pratiques présentés.