Équité et apprentissage actif dans les problèmes multi-classes

uploaded February 13, 2023 Views: 56 Comments: 0 Favorite: 0 CPD

Speakers:

Description:

Suite à l'augmentation des données disponibles et de la puissance de calcul, l'Intelligence Artificielle (IA) constitue une force de motivation pour le développement et la transformation du secteur de l'assurance. En effet, les cas d'usage intégrant le Machine Learning (ML) sont nombreux. La précision de l'algorithme d’apprentissage pour fournir une meilleure segmentation du risque (p. ex. tarification des contrats), pour réaliser une automatisation à grande échelle, ou pour concevoir un processus de prise de décision (p. ex. traitement des documents textuels) peut à la fois améliorer l'évaluation du risque et l'efficacité opérationnelle, et réduire les coûts d'une entreprise. L'actuaire doit donc se saisir de ces nouvelles méthodologies pour renforcer son expertise du risque. Cependant, cette masse de données comporte des enjeux spécifiques en termes de réglementations comme par exemple le Règlement Général sur la Protection des Données (RGPD) : ces données peuvent contenir des informations non-conformes aux normes RGPD, soulevant ainsi des questions éthiques et ne peuvent pas être conservées par l'assureur. Souvent, ces données sont étiquetées par des experts (oracle) et ce processus n'est pas adapté à la gestion de grands volumes ni à une gestion de l'information en temps quasi réel. Par conséquent, la mise en place d'un système d'apprentissage précis (en termes de prédiction), peu coûteux (en termes d'étiquetage) et éthique (en termes d'équité) est nécessaire en assurance et cette thèse résout certains de ces défis. Le premier défi est de réduire l'effort d’étiquetage : en assurance les données non étiquetées sont abondantes, l'apprentissage actif (boucle de rétroaction entre l'inférence ML et l’oracle) devient donc un atout important pour réduire le coût d'étiquetage. Un deuxième défi est la question de l'équité dans les inférences ML. Puisque des inégalités et des discriminations sont présentes dans les données, les modèles d'apprentissage sont susceptibles de reproduire certaines injustices, ce qui les rend inutilisables en pratique. Cette thèse propose des solutions, notamment pour les problèmes multi-classes. Pour le premier défi, nous proposons une étude du choix optimal des lots d’étiquetage en apprentissage actif. Traditionnellement, cela repose sur un compromis entre la performance du modèle et le coût de délai de réapprentissage. Notre étude considère la taille du lot comme un processus en temps continu qui gouverne la dynamique de la qualité du modèle. Ce problème de contrôle stochastique peut être résolu dynamiquement en utilisant l'approche de Bellman. Pour le deuxième défi, nous étendons les deux définitions d'équité exacte et approximative (compromis optimal entre équité et précision avec un niveau d’iniquité prédéfini) dans le cas de la parité démographique à la classification multi-classes. Nous spécifions les expressions correspondantes des classificateurs équitables optimaux. Cela suggère une procédure plug-in pour laquelle nous établissons des garanties théoriques. Toutes ces approches sont évaluées sur des données synthétiques et réelles et s'avèrent être très efficaces par rapport à l’état de l’art.

Sponsoring Partner

Categories

Category ACTUARIAL DATA SCIENCE Équité et apprentissage actif dans les problèmes multi-classes

Sponsoring Partner