Les bandits à plusieurs bras (Multi-Armed Bandits) est un modèle d'apprentissage par renforcement où un agent choisit itérativement un bras à tirer parmi ceux disponible. Une fois tiré, un bras va produire une récompense issue d'une distribution indépendante, inconnue de l'agent. Nous nous sommes focalisés sur le problème de maximisation des récompenses dans un contexte d'apprentissage fédéré, où l'agent souhaite maximiser ses récompenses, tout en déléguant la tâche de maximisation à une autorité centrale qui va fédérer chaque bras considéré comme indépendant.
Notre attention s'est portée sur l'élaboration de SAMBA, une plateforme sécurisée pour la maximisation des récompenses dans un contexte d'apprentissage fédéré. Cette plateforme est capable d'exécuter une multitude d'algorithmes de bandits, conçus pour ce problème de maximisation, sans contraintes supplémentaires. Grâce à l'utilisation de primitives cryptographiques, SAMBA garantit plusieurs propriétés de sécurité (par exemple, seul l'agent doit connaître la somme des récompenses obtenues). Enfin, à la différence d'autres approches comme la confidentialité différentielle, SAMBA ne perturbe pas le fonctionnement de l'algorithme de bandits exécuté.