Plateforme d'Enquêtes Militantes

Les algorithmes à l'époque de la start-up nation : sur Parcoursup et la sélection à l'Université

15 Juin 2018, 09:030 commentaire

 

Avec une expression qui est devenue célèbre, la Harward Business Review a défini la Data Science comme « le job le plus sexy du 21ème siècle » [1]. La définition - assez débattue - de ce domaine indique en général la capacité d'extraire des prévisions à partir de bases des données massives. Un pilier de la discipline est le Machine Learning (ML), c’est-à-dire l’utilisation de différentes techniques statistiques pour permettre à un ordinateur d’« apprendre » sans être explicitement programmé pour le faire. Par exemple, plus de 95% des profits de Facebook viennent de la vente d’espaces publicitaires « ciblés » [2] : la plateforme est capable de montrer à chaque utilisateur des annonces sélectionnées par les algorithmes de ML sur la base de ses activités passées.

 

La capacité d’extraire des prévisions à partir de quantités massives de données constitue déjà une des sources du capitalisme moderne : « Data is the oil of the 21st century », pour reprendre une expression très courante dans le domaine du Big Data [3].

 

Dans ce contexte, un pilier du quinquennat d’Emmanuel Macron à l’Elysée consiste précisément dans la conversion au numérique d’une partie consistante de l’économie française.  Les slogans “start-up nation” ou “silicon valley française” sont représentatifs de cette intention et ont été accompagnés par des choix politiques déjà clairs pendant cette première année de présidence. Par exemple, un financement massif dans le domaine de l’Intelligence Artificielle (1,5 milliards d’Euros) a été récemment annoncé, en soutien au « plan pour l’Intelligence Artificielle » dévoilé par Macron en collaboration avec le mathématicien Cédric Villani [4]. Suite à cette décision, de nombreuses plateformes comme Google et Facebook ont annoncé l’ouverture de centres R&D dans la région parisienne. En même temps, un renforcement significatif du secteur de la formation numérique se développe en Île-de-France. Le Président a également prévu un régime fiscal adapté aux besoins de l’économie numérique [5], pour essayer de faire de la France le leader européen du secteur [6], comme l’Allemagne l’est déjà par rapport à l’industrie 4.0.

 

 

Évidemment le secteur de l’instruction supérieure joue un rôle stratégique dans ce plan, car il doit produire des travailleurs formés selon les besoins du nouveau marché du travail. Il ne s'agit pas seulement du plan de contenu, mais plutôt de l’introjection des fondements de ce système (« méritocratie », compétition, sélection…) dès le début des études. Il faut donc analyser la réforme de l’accès à l’université, loi ORE, dans le contexte de ce plan global du quinquennat Macron.

 

Il y a quelques jours, les premiers résultats de la nouvelle procédure d’inscription ont été publiés avec l’algorithme qui attribue les places aux candidats [7]. Ce n’est pas étonnant que, dans ce contexte de numérisation de l’économie et de la formation, un algorithme soit en jeu : Parcoursup. La délégation du dispositif de sélection à un code est une opération qui met à disposition des promoteurs de la réforme une rhétorique déjà prête à cacher sa violence derrière le faux-semblant de l'objectivité et de la neutralité des algorithmes : ceux-ci concerneraient un ensemble de règles destinées à résoudre un problème et fournir une solution (output) à l’intérieur d’un nombre fini d’opérations, à partir d’une quantité déterminée de données (input). En revanche, les algorithmes sont des outils au service d'un système qui les pense et qui les produit à l’intérieur d’un cadre politique spécifique (dans notre cas, la conversion au numérique de la France macronienne). Bien loin, donc, de simples instruments neutres. Il est alors important de comprendre le fonctionnement de Parcoursup selon deux axes : d'une part son appartenance au plan-Macron pour le développement du capitalisme de plateformes en France, d'autre part en comprenant le sens d'une bataille « contre l’algorithme » (ou plutôt « dans l’algorithme »), c'est-à-dire, comment et dans quelles parties de la procédure le code « numérise » les dispositifs de sélection et de contrôle.

 

Il est intéressant de commencer par la rhétorique de la « transparence » qui a accompagné la publication du code. Selon le communiqué du ministère, celui-ci favoriserait « la pleine compréhension des mécanismes de la nouvelle procédure d'entrée dans l'enseignement supérieur » [8]. En soi une telle déclaration n’est pas fausse, mais elle concentre le débat autour d'une petite partie de la procédure : le code publié qui attribue des propositions aux candidats sur la base du « classement » qui fait fonction de input.

 

Expliquons-nous mieux. Un aspect décisif pour comprendre le concept de « non-neutralité » d’un algorithme est de prendre en considération que son fonctionnement ne signifie rien si on ne tient pas compte du type d’input et par une réflexion sur son output. Mais de quoi s'agit-il dans le cas de Parcoursup ?

 

La procédure comprend trois étapes :

 

1 - Le candidat exprime ses vœux et envoie un dossier sur la plateforme

2 - Les dossiers sont classés par les commissions de chaque formation

3 - La plateforme, à l'aide du code public, reçoit en input le classement du point 2 et envoie les propositions aux candidats.

 

Le code rendu public ne concerne que le point 3, alors qu'il est crucial de comprendre qu'on ne peut pas parler d'un algorithme sans considérer sa totalité, y compris le choix de l’input, ce qui concerne les phases 1 et 2.

 

En particulier, dans la phase 1, les éléments de sélection et de compétition typiques de l'entreprise sont transposés dans le monde de la formation. Le candidat doit envoyer un curriculum vitae et une lettre de motivation, en sachant (point 2) qu'ils contribueront à son classement. On passe de l’importance à montrer de l'intérêt/compétences à celle de montrer « plus d'intérêt » et de compétences que les autres, dans une logique de compétition et d’auto-normation imposée directement au niveau de la formation de base.

 

La phase 2 est le cœur du dispositif et il vaut la peine d'en parler plus en détail. Il est important de remarquer que l'algorithme n'accepte pas les cas de « parité » comme input : chaque commission est obligée d'opérer un choix sélectif. Un cas typique où le code est tout à fait non-neutre.

 

Le travail de classement des candidats par les commissions locales implique alors d’évaluer des milliers de dossiers en quelques semaines. C'est là (et sur certains aspects du point 3, comme l'« effet d'entonnoir », dont nous parlerons ensuite) que la plupart des critiques se concentrent. Il a déjà été expliqué à plusieurs reprises [9] que la prétendue « transparence » de Parcoursup est un leurre, une simple opération de communication qui cache le côté sombre de la procédure dans la phase de classement. Cela est vrai pour plusieurs raisons.

 

Tout d'abord, chaque comité peut bien sûr adopter des critères différents. Les données à évaluer sont en fait multiples et ont un impact et un sens différents : les notes, le lycée de provenance, le sexe, les lettres de motivation, jusqu'à la « fiche avenir », une évaluation compilée par le conseil de classe du lycée qui, sur la base de l’expérience avec l'étudiant, doit juger de son potentiel pour une future carrière universitaire.

 

Un autre aspect consiste dans le volume de dossiers à évaluer dans un délai très court, ce qui implique que le classement doit au mieux s’effectuer rapidement sur la base de quelques caractéristiques « remarquables » - un autre aspect typique de la sélection sur le marché du travail : mettez en évidence les compétences dans votre CV, en sachant qu'il sera lu d'un coup d'œil qui tentera d'en saisir les aspects les plus saillants. Dans le pire des cas, les commissions ont utilisé dans le traitement des dossiers des codes élaborés localement, ce qui a permis de gagner du temps lors de la classification [10]. Ces algorithmes locaux ne seront pas rendus publics. Particulièrement grave (et peu souligné) est le fait que la question de la publication d'algorithmes pour la « classification locale » a été longuement débattue au Parlement, en arrivant à un vote des députés qui approuvent un amendement pour la non-publication proposée par le gouvernement [11]. Un vote qui annule de facto toute « transparence » et va même à l’encontre de la loi « pour une République numérique » d'octobre 2016, laquelle impose aux administrations publiques de publier les algorithmes utilisés dans leur processus de sélection.

 

Il est clair que le choix des éléments à évaluer et le temps limité (qui pousse à automatiser la procédure autant que possible) sont politiques plutôt que techniques. Par exemple, dans l'évaluation de milliers de dossiers, il est impossible de lire chaque lettre de motivation et d'évaluer chaque parcours en profondeur, alors que (à un niveau déclaré ou inconscient) de plus en plus de caractéristiques telles que le lycée de provenance seront déterminantes, ce qui renforcera l'exclusion et la dévaluation de nombreux parcours scolaires [12]. Il s'agit d'un pas décisif vers le renforcement d’un système de classe : ce n'est plus un diplôme d'Etat qui garantit l'accès à l'enseignement public, mais le progrès est basé sur des critères extérieurs, qui consolident les asymétries sociales déjà à l’œuvre.

 

La question est de savoir si ces éléments sont suffisants pour comprendre le fonctionnement du dispositif. Il convient d'interpréter cette phase à l’intérieur du contexte de la transformation du travail dans le sens numérique dont nous avons parlé au début. En particulier, il est crucial de souligner le fait que nous ne pouvons pas nous limiter à constater que la « transparence » n’est pas de mise, ni que le temps pour l'évaluation des dossiers est trop limité.

 

Même discours pour qui se limite - quoique correctement - à critiquer l'impossibilité de « numeriser » le jugement sur une personne. Il faut plutôt noter comment le type de division des tâches inhérent à Parcoursup (une commission qui fournit des « chiffres » à un algorithme responsable de la finalisation du processus décisionnel) va dans le sens d'une transformation structurelle du travail dans le capitalisme moderne, et en particulier de la relation entre l'homme et la machine : en apparence, c'est l'homme qui sert d'« outil » pour permettre à une machine de finaliser la tâche.

 

Nous avons parlé au début de Data Science. Un exercice très commun dans la formation en ce domaine est de prédire le succès d'un étudiant dans une université américaine, à partir de données telles que ses notes moyennes au lycée et ses résultats au test GRE [13]. Quelques lignes de code suffisent pour entraîner un algorithme qui peut atteindre une excellente précision en fournissant des prévisions à partir de nouvelles données. Il ne serait pas surprenant qu'en ajoutant des éléments tels que le revenu, le sexe, la race et le code postal aux informations disponibles, cette précision augmente encore.

 

Cet exercice est très semblable à celui de la procédure « obscure » de présélection de Parcousup. Il est intéressant de le mentionner afin de mieux comprendre les problèmes qui sont inhérents aux concepts de « transparence » et d'« objectivité ». Paradoxalement, un algorithme ML moderne permettrait de classer les milliers de dossiers de Parcoursup en quelques heures, en tenant compte de toutes les informations. Nous pourrions également extraire une liste des informations qui ont pesé le plus dans la « décision » finale et fournir une « explication » de la décision elle-même, ainsi qu’obtenir une « précision » supérieure à celle de l'homme. Il est intéressant de noter que cette déshumanisation complète d'un processus qui est « humain » par excellence, comme la lecture d'une lettre, est probablement ralentie (ainsi que par des problèmes techniques) par la nécessité de maintenir un plan de communication qui rend la procédure de sélection plus acceptable :« C'est un processus humain, qui n'est pas régi par une machine », a commenté Vidal  à propos de la classification des dossiers (mais, comme nous l'avons vu, la déclaration est partiellement fausse). La preuve en est que ces techniques sont déjà largement utilisées, par exemple sur les lieux de travail pour évaluer la performance des employés de l'entreprise.

 

Cependant, détecter cet aspect est bien différent de prétendre que le rôle « humain » est subordonné à l'algorithme, ou de se résigner à mener une bataille « contre » l'algorithme tout court. Il s'agit de souligner l'importance de l'input, comme nous l'avons déjà mentionné plus haut en ce qui concerne Parcoursup. En Data Science, ce processus a un nom spécifique : « feature selection », c'est-à-dire choisir les éléments sur lesquels entraîner la machine à prendre des décisions. Ces éléments détermineront la décision, mais ils sont choisis par des humains sous l’influence de leurs choix politiques. C'est ce qu'on appelle le « bias ». Par exemple, un algorithme qui interprète la langue sera soumis aux mêmes préjugés raciaux et sexistes que la langue commune [14]. Dans le cas de la réussite scolaire, un bias par rapport à des éléments tels que le lycée, la race, le revenu est déjà une réalité, qu'il soit fourni par un algorithme, une commission ou une interaction entre les deux - comme dans le cas de Parcoursup.

 

Enfin, considérons la troisième étape de la procédure Parcoursup. Le principal changement par rapport à l'ancien système APB est la non-hiérarchisation des vœux. Avec APB, un candidat qui se voyait attribuer un poste était automatiquement exclu de toutes les autres candidatures sur sa liste de préférence. Par exemple, un candidat qui s’est vu attribuer un poste correspondant à son deuxième choix aurait été exclu du classement à partir de son troisième choix.

 

La suppression de cet élément, ainsi que la procédure de classement du point 2, est le cœur du dispositif de sélection. Il est clair que les candidats classés « meilleurs » dans une formation auront une forte probabilité d'être parmi les « meilleurs » dans une autre (disons au moins dans les 20% des meilleurs).

 

Il faut s'attendre (en effet, il y a des témoignages à ce sujet parmi les premiers résultats du Parcoursup) qu'un groupe restreint de candidats recevra beaucoup de propositions, alors qu'un groupe beaucoup plus large n'en recevra pas, au moins au début. Ce phénomène est connu en théorie des réseaux sous le nom de « winner-takes-all » [15].

 

Ce passage est un exemple clair du fait que, au-delà de sa prétention de « neutralité », un algorithme est la traduction de choix politiques précis.

 

Voyons aussi lesquels. Dans le contexte de la numérisation de l'économie, de l'inversion de la relation homme-machine et de la précarisation, un élément clé est la disponibilité d'une main-d'œuvre surqualifiée par rapport à ses fonctions. En particulier, le phénomène « winner-takes-all » est un élément clé de la formation de haut niveau (Bac+5, PhD, postdoc) et l'« effet d'entonnoir » de Parcoursup est un dispositif qui a déjà été testé avec succès dans le cas de la transaction entre doctorat et postdoc. La disproportion entre le nombre de bourses de doctorat (notamment en sciences 'dures')  et le nombre de postes disponibles dans la recherche publique fait que seulement une minorité de docteurs reste à l'université [16]. Une majorité croissante d'entre eux finit par constituer une main-d'œuvre hautement qualifiée (aux frais de l'État) mise à disposition du capitalisme de plateforme.

 

L'adoption d'un mécanisme similaire au niveau secondaire implique la reproduction du même phénomène à une étape inférieure du parcours de formation, avec la circonstance aggravante  que, plus on remonte dans l'âge et dans le niveau d'éducation, plus les conséquences du bias deviennent violentes.

 

Au terme de cette analyse, le système Parcoursup est donc pleinement cohérent avec la politique de Macron et, en particulier, avec son rôle de représentant du capitalisme de plateforme en Europe. Pour reprendre l'analogie avec l'Allemagne, le processus en cours dans l'économie française rappelle l'intégration des parcours professionnels et de l'industrie 4.0 dans le système éducatif allemand.

 

L'éducation joue un rôle décisif dans ce contexte et il n'est pas surprenant que la loi ORE ait été approuvée au cours de la première année du quinquennat. Mais la relation entre la politique, la transformation de l'emploi, les choix et la mise en œuvre des critères de sélection doit être lue dans un cadre unique. En même temps, la question se pose de savoir comment structurer une réponse.

 

A cet égard, des éléments clés concernent la « feature selection » pour le classement (c'est-à-dire le bias) et l'algorithme lui-même.

 

Il convient de mentionner en conclusion un troisième élément crucial : la propriété des données. Dans le cas de Parcoursup, par exemple, une compréhension approfondie du fonctionnement de la procédure nécessite une connaissance détaillée de ses résultats. La publication du code et des résultats est une partie minimale de l'information nécessaire. Cet aspect reflète plus généralement un autre élément clé de l'économie des plateformes : ce ne sont pas seulement les algorithmes qui jouent un rôle clé, mais aussi la propriété des données. Dans ce cas, les données sur les résultats de la sélection ne sont pas connues : par exemple, quelle est la répartition du pourcentage de propositions reçues selon l'école secondaire d'origine, le revenu, la race ?

 

Une enquête partielle en Ile-de-France montre les premiers signes d'une disproportion évidente entre la banlieue et Paris [17]. Une bataille sur la connaissance des données intégrales est donc fondamentale en ce sens dans le contexte d'une bataille contre la sélection.

 

L'analyse de la sélection des « features » et du classement pose enfin une autre question : l'inversion de la relation homme-machine relègue-t-elle notre rôle à celui de pure et simple main d'œuvre, tandis que la  décision  est prise par l'algorithme ? Même dans le cas de Parcoursup, il est important de comprendre que les deux questions sont intrinsèquement liées : si la « feature sélection » est la contrepartie numérique des mécanismes d'exclusion, la sélection est traduite en algorithme. En tout cas, les phases sont inséparables, profondément liées à l'impact humain et politique qui les entoure. Bref : ni « neutralité » ni « transparence ». Le jeu contre le capitalisme de plateforme se joue donc sur cette relation entre les dispositifs déjà existants et leur mise en œuvre numérique. Et une telle relation est ou sera à l’œuvre aussi en ce qui concerne les domaines des finances publiques, de la justice, des politiques de la ville, de la santé, etc.

 

Emmanuel Macron a les idées claires : « quand vous prenez une décision politique, il faut une part de jugement personnel. C’est la qualité d’un décideur, et l’intelligence artificielle ne remplacera jamais cela » [18].

 

Nous devons suivre son offensive et comprendre les instruments dont nous avons besoin pour une réponse. Parcoursup représente, comme nous l'avons vu, une expérience qui peut être généralisée à de nombreux autres secteurs. A partir de cette analyse, nous pouvons mettre en évidence au moins deux perspectives : d'une part, une campagne pour une publication complète des données, y compris les algorithmes locaux. En même temps, des enquêtes autogérées pourraient fournir de nouvelles idées pour comprendre les effets de Parcoursup. D'autre part, le rôle des algorithmes impose des formes d'organisation qui placent l'algorithme lui-même au centre du processus de négociation.

 

-

[1] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

 

[2] https://www.statista.com/statistics/267031/facebooks-annual-revenue-by-segment/

 

[3] https://medium.com/project-2030/data-is-the-new-oil-a-ludicrous-proposition-1d91bba4f294

 

[4] https://www.lesnumeriques.com/vie-du-net/intelligence-artificielle-strategie-macron-en-6-points-n72903.html

 

[5] http://www.lefigaro.fr/secteur/high-tech/2018/05/24/32001-20180524ARTFIG00246-mounir-mahjoubi-annonce-cent-mesures-pour-les-start-up.php

 

[6] https://en-marche.fr/emmanuel-macron/le-programme/numerique

 

[7] https://framagit.org/parcoursup/algorithmes-de-parcoursup/tree/master

 

[8] http://etudiant.lefigaro.fr/article/parcoursup-le-gouvernement-publie-l-algorithme-a-la-veille-des-premieres-reponses_78423746-5d03-11e8-a07a-5c4593c42936/

 

[9] http://www.liberation.fr/france/2018/05/22/que-nous-apprend-l-algorithme-de-parcoursup-qui-a-ete-rendu-public_1651903 ,  http://ingenuingenieur.blog.lemonde.fr/2018/05/22/que-revele-une-premiere-analyse-du-code-source-de-parcoursup/, https://www.marianne.net/societe/parcoursup-les-premiers-resultats-et-refus-attendus-dans-la-plus-grande-opacite?

 

[10] http://www.liberation.fr/france/2018/05/21/parcoursup-il-y-a-un-cote-hyperviolent-a-operer-un-classement_1651672

 

[11] https://www.lemonde.fr/campus/article/2018/05/15/parcoursup-le-secret-des-deliberations-sera-maintenu_5299363_4401467.html

 

[12] https://mobile.lesinrocks.com/2018/05/24/actualite/parcoursup-nest-pas-seulement-dans-la-selection-mais-dans-lexclusion-111086745/

 

[13] https://www.theguardian.com/technology/2017/apr/13/ai-programs-exhibit-racist-and-sexist-biases-research-reveals

 

[14] https://www.theguardian.com/technology/2017/apr/13/ai-programs-exhibit-racist-and-sexist-biases-research-reveals

 

[15] https://blogs.mediapart.fr/ingenieur-different/blog/180418/les-trompettes-de-parcoursup

 

[16] http://icorsa.org/wp-content/uploads/2016/02/Too-many-phds-Nature-2015.pdf

 

[17] https://swaggcocos.wordpress.com/2018/05/27/cartographie-lexclusion-avec-parcoursup/

 

[18] https://www.lemonde.fr/pixels/article/2018/03/31/pour-emmanuel-macron-l-intelligence-artificielle-est-aussi-une-revolution-politique_5279161_4408996.html

Partager sur Facebook
Partager sur Twitter
Partager sur LinkedIn
Commentaires
Aucun commentaire
Laisser un commentaire
 
 
* Champs obligatoires
Propulsé par WebSelf