Bruno Scherrer, Chercheur. [English version]

Membre de l'équipe BIGS de l'INRIA(1) (Institut National De Recherche en Informatique et Automatique).
Membre de l'équipe Probabilités et Statistiques de l'IECL (Institut Elie Cartan de Lorraine), à l'université de Lorraine(2).

Thèmes de recherche: Contrôle optimal stochastique, apprentissage par renforcement, processus de décisions Markoviens, programmation dynamique approchée, analyse d'algorithmes, processus stochastiques.

Journaux auteurs-payeurs (parfois mal nommés "open access") : Pourquoi je refuse d'être relecteur.

Editeurs véreux: Méfiez vous de VDM Publishing (et de ses filiales Editions Universitaires Européennes, Lap Lambert Academic Publishing, etc...); ils acceptent de publier n'importe quoi, comme ce livre bidon généré aléatoirement par mathgen (accès au contenu absurde de ce livre ici).

Adresse électronique : Prénom.Nom@inria.fr, Téléphone : +33 (0)3 72 74 54 04, Bureau : 219
Adresse postale 1 : Centre de recherche Inria Nancy - Grand Est, 615 rue du Jardin Botanique, 54600 Villers-lès-Nancy, FRANCE.
Adresse postale 2 : IECL, Université de Lorraine, Site de Nancy, B.P. 70239, F-54506 Vandœuvre-lès-Nancy Cedex, FRANCE.

(1) L'INRIA est "inventeur du monde numérique", de l'informatique au pluriel, fossoyeur de l'article défini, et adepte du dialogue de sourd social.
(2) L'université de Lorraine est "proche du périmètre d'excellence requis pour les ISITE, mais avec un spectre d'excellence dont la largeur ne permet pas de se qualifier aux IDEX."


Travaux choisis (une liste complète est disponible sur hal)

Présentation à AWRL 2017, 15 novembre 2017. Two simple tricks for improving the solution to large RL problems

Présentation à EWRL 2016, 3 décembre 2016. On Periodic MDPs

Habilitation à diriger des recherches, 28 juin 2016. : manuscrit, transparents

Cours donné au CIMI à Toulouse, dans le cadre d'un Trimestre Machine Learning: "Introduction to Reinforcement Learning" : transparents, code

Sur les algorithmes pour les processus de décision Markoviens / jeux de somme nulle

J. Pérolat, B. Piot, M. Geist, B. Scherrer, O. Pietquin. Softened Approximate Policy Iteration for Markov Games. ICML 2016.

J. Pérolat, B. Piot, B. Scherrer, O. Pietquin. On the Use of Non-Stationary Strategies for Solving Two-Player Zero-Sum Markov Games. AISTATS 2016.

B. Scherrer. Improved and Generalized Upper Bounds on the Complexity of Policy Iteration. Mathematics of Operations Research, 2016.
--- Une version courte publiée dans NIPS 2013.
--- En français: Quelques majorants de la complexité d'itérations sur les politiques.

J. Perolat, B. Scherrer, B. Piot and O. Pietquin. Approximate Dynamic Programming for Two-Player Zero-Sum Markov Games. ICML 2015.

B. Lesner and B. Scherrer. Tight Performance Bounds for Approximate Modified Policy Iteration with Non-Stationary Policies.
--- Une version courte a été publiée à ICML 2015.

M. Tagorti and B. Scherrer. Rate of Convergence and Error Bounds for LSTD(λ).
--- Une version courte a été publiée à ICML 2015.
--- En français: Vitesse de convergence et borne d'erreur pour l'algorithme LSTD(λ).

B. Scherrer and M. Geist. Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy Search. ECML 2014.

B. Scherrer. Approximate Policy Iteration Schemes: A Comparison. ICML 2014.
--- En français: Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques.

B. Scherrer, M. Ghavamzadeh, V. Gabillon, B. Lesner and M. Geist. Approximate Modified Policy Iteration and its Application to the Game of Tetris. Journal of Machine Learning Research, 2015.
--- Une version courte publiée dans ICML 2012.
--- Quelques-uns des résultats empiriques ont été publiés dans NIPS 2013.

M. Geist and B. Scherrer. Off-policy Learning with Eligibility Traces: A Survey. Journal of Machine Learning Research, 2014.

B. Scherrer. Performance Bounds for Lambda Policy Iteration and Application to the Game of Tetris. Journal of Machine Learning Research, 2013.

B. Scherrer and B. Lesner. On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Discounted Markov Decision Processes. NIPS 2012.

M. Geist, B. Scherrer, A. Lazaric and M. Ghavamzadeh. A Dantzig Selector for Temporal Difference Learning. ICML 2012.
--- En français: Un sélecteur de Dantzig pour l'apprentissage par différences temporelles.

V. Gabillon, A. Lazaric, M. Ghavamzadeh and B. Scherrer. Classification-based Policy Iteration with a Critic. ICML 2011.

B. Scherrer. Should one compute the Temporal Difference fix point or minimize the Bellman Residual? The unified oblique projection view. ICML 2010.

C. Thiéry and B. Scherrer. Least-Squares Lambda Policy Iteration: Bias-Variance Trade-off in Control Problems. ICML 2010.
--- Rapport technique associé: Performance bound for Approximate Optimistic Policy Iteration.
--- En français: Least-Squares Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal.

M. Petrik and B. Scherrer. Biasing Approximate Dynamic Programming with a Lower Discount Factor. NIPS 2008.

Sur le jeu de Tetris:

V. Gabillon, M. Ghavamzadeh, B. Scherrer. Approximate Dynamic Programming Finally Performs Well in the Game of Tetris. NIPS 2013.

C. Thiéry and B. Scherrer. Building Controllers for Tetris. International Computer Games Association Journal, 2009.
C. Thiéry and B. Scherrer. Improvements on Learning Tetris with Cross Entropy. International Computer Games Association Journal, 2009.
--- En français: C. Thiéry and B. Scherrer. Construction d'un joueur artificiel pour Tetris. RIA, 2009.

En français: A. Dutech, B. Scherrer and C. Thiéry. La carotte et le bâton... et Tetris. Images des Maths (2013), Interstices (2008).

Divers:

A. Boumaza and B. Scherrer. Convergence and Rate of Convergence of a Foraging Ant Model. CEC 2007.
--- Une version étendue.
--- En français: Convergence et taux de convergence d'un algorithme fourmi simple.

A. Boumaza and B. Scherrer. Optimal control subsumes harmonic control. ICRA 2007.
--- Une version étendue.

B. Scherrer. Asynchronous Neurocomputing for optimal control and reinforcement learning with large state spaces. Neurocomputing, 2005.