Avec des équipes IT conséquentes, notamment de développeurs, et des métiers rompus pour beaucoup à l’utilisation du numérique, l’Insee (Institut national de la statistique et des études) fait largement appel à l’open source et aux méthodes agiles pour faire évoluer un système d’information maison. Prochaine étape, déjà initiée, le passage d’un SI décomposé entre infrastructures et logiciels à une offre interne de services et produits managés destinés aux métiers, le tout en mode DevOps.

Entretien avec Jean-Séverin Lair, DSI de l’Insee 

Quelles sont les spécificités de la DSI de l’Insee? Quelles sont les grandes briques fonctionnelles du SI?

De par ses activités, collecter des données, les analyser, produire des référentiels et des indicateurs, l’Insee est naturellement très digital. Dans ce contexte, la DSI a un rôle d’appui sur l’ensemble des activités métier. Difficile d’imaginer aujourd’hui la production des données sans un système d’information bien charpenté. Globalement, autour de 200 applications, une véritable mosaïque, sont en production pour répondre à des besoins diversifiés. Elles prennent en charge la collecte et le traitement de données administratives très riches comme la déclaration sociale nominative (DSN), la gestion de grands répertoires comme Sirene, le recueil des données par Internet, par téléphone ou contact direct avec des enquêteurs, le recensement de la population, la fabrication d’indicateurs de conjoncture, de démographie… Côté applications de gestion transverses, comme d’autres administrations, nous nous reposons sur le SIRH interministériel RenoiRH (l’outil interministériel de gestion des ressources humaines) et sur Chorus pour les aspects comptables et financiers.

Et les briques techniques?

Originalité, dans la quasi-totalité des cas, les applications métiers ont été développées en interne et basées sur de l’open source. Les serveurs sont sous Linux. Microsoft est présent principalement pour l’annuaire et Windows sur les postes de travail.Les bases de données PostgreSQL remplacent progressivement Oracle qui devrait avoir totalement disparu du SI en 2023. LibreOffice est utilisée pour la bureautique, et Zoom, un reliquat du Covid, pour la visio. L’éditeur Jalios fournit l’intranet. Nous utilisons aussi l’outil de SAS pour les analyses. Cependant, les « métiers », pour leurs analyses, utilisent de plus en plus des développements maison basés sur le langage R, un langage de programmation libre destiné aux statistiques. Ce qui devrait à terme réduire le rôle de SAS. Particularité, une partie des besoins métier impliquent de la puissance de calcul. Quelque 6  000 machines virtuelles, du VMware, supportent l’ensemble de nos besoins de calcul. Il ne s’agit toutefois pas de HPC. Globalement, l’open source va continuer sur sa lancée et, pour les services transverses, le recours aux solutions SaaS va s’accroître. Le passage au télétravail pendant le confinement s’est déroulé sans accroc, ce qui atteste aussi de la bonne qualité de l’infrastructure bureautique. Les infrastructures serveurs sont internes, nous ne pouvons pas prendre le risque de mettre des données sensibles directement sur le cloud public. Ceci dit, nous restons à l’écoute de l’offre interministérielle et nous envisageons d’utiliser le cloud de la DGFIP pour certains besoins, notamment ceux exigeant une forte disponibilité. Nous avons un pilote en cours et nous apprivoisons ce nouvel environnement.

Jean-Séverin Lair, DSI de l'Insee 

« Difficile d’imaginer aujourd’hui la production des données sans un système d’information bien charpenté. »

Vous parlez de données sensibles qui sont au cœur de la mission de l’institution. Comment cela se traduit-il pour la DSI? Comment prenez-vous en compte le RGPD?

Jean-Séverin Lair, DSI de l'Insee 

« L’un des défis majeurs est d’utiliser ces technologies tout en gardant la main. »

Pour rappel, nous gérons entre autres le RNIPP, le Répertoire national d’identification des personnes physiques, et le recensement de la population. Deux exemples parmi d’autres du très gros enjeu de confidentialité à prendre en compte pour une partie des centaines de téraoctets de données. Autre illustration, la croissance du PIB est un chiffre quelque peu sensible jusqu’au moment de sa diffusion. Le besoin d’une forte sécurisation n’est pas nouveau et il existe des règles strictes, suivies avec le service juridique interne. Du fait de la loi et de la réglementation, toutes les données sont classées selon leur sensibilité. En fonction de ce classement, les conditions d’usages et de traitement sont plus ou moins strictes. Certaines données transitent de façon chiffrée indépendamment de la sécurisation du transport, certaines le sont forcément au moment de leur stockage. Globalement, hormis le cas de l’open data, les données à l’Insee sont soumises à des conditions strictes d’hébergement et d’accès. Des applications maison prennent en charge ces opérations. Dans ce contexte, avec en plus toutes les obligations du secret statistique, nous étions déjà largement sensibilisés et actifs sur la protection des données avant même l’entrée en vigueur du RGPD. Pour ce qui est de la conformité à cette réglementation, nous travaillons comme toutes les directions de Bercy sous la houlette du DPO ministériel. La préoccupation de green IT devrait ajouter d’autres points d’attention, mais qui, sans surprise, vont aussi dans le sens de la protection des données, par exemple en cherchant à éviter la duplication de jeux de données. Un chantier de taille !

Avez-vous commencé à mettre en œuvre des technologies récentes, notamment l’IA? Quels sont les défis majeurs à venir? Comment voyez-vous l’innovation pour votre DSI?

La data science est aujourd’hui en mutation. L’IA est déjà utilisée par l’Institut, dans sa version machine learning supervisée. L’Insee travaille par exemple sur un cas d’usage pour générer automatiquement de la codification. L’un des défis majeurs est d’utiliser ces technologies tout en gardant la main. Il reste par exemple indispensable d’avoir des résultats explicables. Les statisticiens de la maison sont déjà rompus à utiliser des outils traditionnels pour faire leurs analyses, mais un certain nombre souhaitent aller plus loin et innover. Côté DSI, nous devons leur donner des moyens à l’état de l’art technologique. Bénéficier de la souplesse des technologies du cloud pour les data sciences implique de nos jours de maîtriser les techniques de containers en mode DevOps, voire DataOps. À terme, nous utiliserons ces approches en interne. La démarche est déjà initiée. Nous avons notamment développé Onyxia*, une souche logicielle libre permettant de créer un environnement cloud de déploiement d’outils utiles aux data scientists.

Ces transformations en cours nécessitent des compétences nouvelles. Comment faites-vous avec vos équipes? L’Insee s’est lancé dans l’agile depuis des années. Où en êtes-vous aujourd’hui?

Le rôle central du numérique se traduit aussi dans le ratio des effectifs de la DSI par rapport au total. Implanté sur tout le territoire national, l’Insee compte autour de 5  000 agents pour une DSI de 450 collaborateurs, soit près de 10 % des effectifs ; ce qui est assez rare. Sur ces 450, 200 prennent en charge les développements. Spécificité par rapport à d’autres organisations publiques, la quasi-totalité, autour de 95 %, sont des fonctionnaires. Les statisticiens comme les collaborateurs de la DSI sont issus du même concours.Cette proximité originelle ‒ ils auraient pu se retrouver dans les métiers comme dans l’IT ‒ facilite la relation entre les deux. Les IT ont une large sensibilité aux métiers et les autres, surtout les plus jeunes, adoptent spontanément des outils cloud et de nouveaux langages. Un accompagnement, surtout en termes de montée en compétences sur les aspects techniques, reste nécessaire, mais la relation entre les métiers et l’IT est plus facile qu’ailleurs.

Enfin l’agile, de mon point de vue, est naturel, il faut juste s’ouvrir à ses valeurs. N’oublions pas qu’à ses débuts, l’informatique a commencé en étant agile et open source. Le matériel était très cher, mais côté code, on échangeait « librement », on allait voir les métiers pour adapter les développements dans la foulée, avant de partir dans des modes propriétaires sous l’impulsion de la micro-informatique et du transfert de la valeur du matériel au logiciel. L’agile allié au logiciel libre est bien un mode naturel, et sa version moderne, structurée, améliore sa portée.

Jean-Séverin Lair, DSI de l'Insee 

« La relation directe entre la DSI et les métiers va faciliter le développement d’outils innovants. »

Comment voyez-vous le SI de l’Insee dans quelques années?

Les statisticiens présentent une appétence certaine pour utiliser les outils numériques. Aujourd’hui, 1  500 personnes accèdent aux serveurs de calculs. En parallèle des applications métier, un service dénommé Self leur permet de tester, mettre au point de nouveaux traitements, de nouveaux indicateurs, mais aussi de faire une part de la production statistique. Comme je le soulignais, la relation directe entre la DSI et les métiers va faciliter le développement d’outils innovants. Côté DSI, nous partons d’une organisation et d’une logique bâties sur les infrastructures d’un côté, et sur les applications de l’autre. Nous allons passer progressivement à une logique de services et de produits managés. Le DevOps, la deuxième gâchette de la fluidité après l’agilité, est également en cours d’adoption par les équipes. Il sera le socle de cette évolution vers les produits et services. D’ores et déjà, une boîte à outils, un produit managé, comme Métallica (METadonnées Actives, Logiciels Libres et Infrastructure pour une Collecte Assistée, NDLR) permet aux statisticiens de créer des enquêtes à la demande sans avoir à se soucier d’installations ou de versions. 

Propos recueillis par Patrick Brebion / Photos de Sébastien Mathé

Jean-Séverin Lair, DSI de l'Insee PARCOURS DE JEAN-SEVERIN LAIR

Depuis novembre 2020 : DSI de l’Insee
           2019-2020 : Chargé, puis directeur du programme Tech.gouv
           2015-2020 : Directeur du programme interministériel Vitam
           2008-2015 : DSI du ministère de la Culture et de la Communication
           2006-2008 : Adjoint chef de service administration électronique
           2003-2006 : Chef de la mission service aux usagers, ADAE
           1999-2003 : Directeur technique de Certinomis
Formation
École Polytechnique
Télécom Paris