Coder un fichier en PCS 2020

Coder un fichier en PCS 2020

Pour coder automatiquement un fichier en PCS 2020, il faut disposer de données comprenant les informations nécessaires en collecte (libellé de profession, normalement collecté dans la liste ; variables « annexes ») et utiliser le tableur contenant l’ensemble des règles de codification.

Dans ce tableur, appelé matrice de codification, les libellés de profession sont en ligne, les combinaisons des variables annexes en colonne et les codes de profession au croisement des lignes et des colonnes. Vous pouvez le consulter ou le télécharger ci-dessous, ainsi qu’un document de synthèse présentant les principes suivis pour établir les règles de codification et la manière dont la matrice a été élaboré. 


Par construction, la PCS 2020, qui est la nomenclature en vigueur, n’évolue pas. En revanche, les instruments (listes de professions, matrice de codification, tables de codage) permettant de classer les professions dans cette nomenclature ont vocation à évoluer chaque année pour prendre en compte des améliorations. Ces instruments sont donc millésimés (cf. site de l'INSEE pour les millésimes antérieurs). Ainsi, par exemple, les listes de libellés de professions 2024 correspondent aux versions des listes embarquées dans les enquêtes de l’Insee en 2024.

  • Principes de codification de la PCS 2020, à consulter ou télécharger

    Télécharger
  • Matrice de codification de la PCS 2020, à consulter ou télécharger

    Télécharger

En pratique, la codification automatique suppose :

  1. de disposer au préalable d’un fichier comprenant cinq variables : le libellé de profession, et quatre variables (STATUT, PUB, CPF, TAILLE) issues des trois questions utilisées en collecte ;
  2. puis de lui appliquer un ensemble de traitements statistiques pour normaliser les libellés de professions et retourner le codage en PCS 2020.


Un exemple de tels programmes édités avec les logiciels statistiques SAS, R et Python qui comprennent de plus le transcodage initial nécessaire pour passer des questions posées en collecte aux variables « annexes », peuvent être consultés ou téléchargés ci-dessous.


Avec ces programmes, on obtient le code des personnes en emploi ou ayant déjà travaillé. Dans certains cas, peu fréquents, l’information ne permet pas d’obtenir un codage complet (qui correspond à un des 311 codes à quatre positions de la PCS 2020) : le libellé est alors codé au niveau des professions regroupées et le code se termine par un zéro. En de tels cas, pour avoir un codage sur quatre positions, il peut être nécessaire d’utiliser d’éventuelles informations contextuelles comme le secteur d’activité ou la connaissance de l’établissement employeur. Mais parfois, la combinaison des variables annexes ne permet pas d’attribuer un code plus précis que la catégorie socioprofessionnelle : ces cas sont traités en reprise manuelle.

Programme SAS de codification automatique de la PCS 2020, à consulter ou télécharger

Télécharger

Programme R de codification automatique de la PCS 2020, à consulter ou télécharger

Télécharger

Programme Python de codification automatique de la PCS 2020, à consulter ou télécharger

Télécharger

Le taux de codification automatique dépend du taux de libellés appartenant à la liste de libellé, qui dépend lui-même du mode de collecte du recueil de l’information. Les enquêtes informatisées (notamment collectées par enquêteurs) offrent le plus de garantie d’avoir un taux de codification automatique élevé.


Les libellés non codés automatiquement peuvent être codés à l’unité, complètement ou partiellement. Il s’agit de rapprocher le libellé déclaré d’un libellé de la liste, ou à défaut de trouver directement un code de PCS 2020, en mobilisant éventuellement des informations contextuelles (par exemple le libellé de secteur d’activité). Le document ci-dessous indique les consignes à suivre pour la reprise manuelle.


Le document (ci-dessus) qui précise les principes de codification suivis dans la matrice de codification automatique, fournit également des informations qui peuvent être utiles à la reprise manuelle pour coder la PCS 2020.

Consignes de reprise manuelle de la PCS 2020, à consulter ou télécharger

Télécharger

nomenclature-pcs / site actualisé en décembre 2023