• Résumé

    Le travail décrit dans cet article a pour but de construire une BDD (Base De Données) sur la RSE (Responsabilité Sociétale et Environnementale) des entreprises françaises. Il définit des indicateurs afin de mesurer et suivre la démarche RSE d’une entreprise, et ainsi évaluer sa progression dans le domaine du développement durable. Nous avons mené une étude analytique en suivant le processus de traitement de la data (collecte, processing, analyse des données et restitution des résultats).  Nous proposons trois indicateurs RSE, deux variables sur la dimension sociétale et une autre variable sur la dimension environnementale. Nous avons construit une base de données relationnelle qui contient des variables sur les entreprises françaises ainsi que les indicateurs RSE.

    Citation : Aoutcheme, H., Hamitouche, T., Adjao, F., & Mama, Y. (Sep 2022). Une base de données sur la R.S.E. des entreprises françaises. https://management-datascience.org/datasets/21105/.
    Les auteurs : 
    • Harris
       (h_aoutcheme@stu-psbedu.paris) - oscaro.com
    • Thinhinane Hamitouche
       (t_hamitouche@stu-psbedu.paris) - PNB Paribas
    • Fatiath Adjao
       (f_adjao@stu-psbedu.paris) - PSB
    • yasmiinemamah1
       (yasmiinemamah1@gmail.com) - Paris school of Business
    Copyright : © 2022 les auteurs. Publication sous licence Creative Commons CC BY-ND.
    Liens d'intérêts : Le ou les auteurs déclarent ne pas avoir connaissance de conflit d'intérêts impliqués par l'écriture de cet article.
    Financement : Le ou les auteurs déclarent ne pas avoir bénéficié de financement pour le travail mis en jeu par cet article.
    Objectifs

    Contexte

    A l’heure où les consommateurs accordent de plus en plus d’importance aux problématiques sociétales et environnementales, les entreprises ont tout intérêt à adopter une démarche socialement responsable. A travers la RSE (Responsabilité Sociale et Environnementale), les entreprises engagent des pratiques plus éthiques et plus durables dans leur mode de fonctionnement, permettant ainsi de contribuer à l’amélioration de la société et à la protection de l’environnement. En France, faire de la RSE et l’intégrer au cœur de son entreprise est donc essentiel pour gagner la confiance des consommateurs et des partenaires, pour cultiver son image et sa marque employeur.

    Objectifs

    Ce travail consiste à faire une analyse sur la responsabilité sociétale et environnementale (RSE) des entreprises françaises.
    Il est orienté selon les objectifs suivants :

    1. Construire des indicateurs RSE pour les entreprises françaises ;
    2. Organiser et préparer le jeu de données ;
    3. Effectuer des analyses statistiques sur les données ;
    4. Construire une base de données relationnelle regroupant des informations sur les entreprises françaises et la RSE ;
    5. Analyser les résultats du jeu de données afin de démontrer son utilité, sa qualité et la réutilisation des données .

    Organisation et préparation du jeu de données

    Afin de collecter les données, nous nous sommes basés sur 8 principaux jeux de données ouvertes provenant du catalogue des données publiques de l’administration françaises (site data.gouv.fr).

    Dataset Rôle
    Admin Il regroupe des données sur les entreprises françaises, notamment leurs numéros Siren, leurs dénominations, etc
    Adresse Ce dataset comprend des données relatives aux adresses des entreprises françaises sous forme de numéro de voie, commune, code postal, etc
    Code région Ce dataset nous renseigne sur les codes des régions en France
    Effectif Ce dataset nous renseigne sur les codes des effectifs des entreprises françaises
    NAF Ce dataset nous renseigne sur les codes des secteurs d’activités des entreprises françaises
    Ecart Ce dataset représente une enquête qui a permis d’avoir l’écart des salaires entre homme et femme dans les régions de France.
    CO2 Ce dataset représente une enquête qui a permis d’avoir l’émission de CO2 par année selon le secteur d’activité en France
    Télétravail Ce dataset comporte le taux de salariés en télétravail selon l’effectif de l’entreprise

     Tableau 1 : Synthèse des datasets récoltés

    Nous avons effectué le data cleaning avec Python dans l’environnement Jupyter de la plateforme Management & Data Science.  Après importation de tous les datasets précédemment expliqués, nous avons réalisé un cleaning de chacun d’eux. Afin de construite le dataset final, nous avons fait une jointure de tous ces datasets, et supprimé les lignes contenant des valeurs null. Ainsi, nous avons obtenu un dataset final, de 3576 lignes et de 13 colonnes, propre et prêt à être analysé (voir Figure 1).

    Figure 1: Dataset final

    Analyse des données

    Nous avons exploité le dataset final afin de mieux connaître nos données. Nous avons d’abord étudié le taux d’entreprises en télétravail par effectif (voir Figure 2).

    Figure 2: Taux d’entreprise en télétravail par effectif

    Nous constatons que les entreprises avec un plus grand nombre de salariés (500 à 4999) travaillent en majorité en télétravail. Tandis que celles avec un nombre moins élevé de salariés (10 à 19 salariés) travaillent en minorité en télétravail. Ce qui peut s’expliquer par le fait que plus le nombre de salariés est élevé, plus le télétravail est nécessaire afin d’éviter au maximum les contacts physiques. De plus, les grandes entreprises disposent généralement de plus de moyens technologiques qui permettent le télétravail des salariés.

    Ensuite, nous avons effectué une répartition des entreprises françaises par région (voir Figure 3).

    Figure 3 : Répartition des entreprises françaises par région

    Nous constatons que la région Île-de-France comporte le plus grand nombre d’entreprises (>1000), ensuite c’est la région Auvergne-Rhône-Alpes (>400) et l’Occitanie (>200).

    Nous nous sommes également intéressés à l’écart salarial homme-femme par région (voir Figure 4).

    Figure 4 : Ecart salarial homme-femme par région

    Nous constatons que les régions Grand Est, Auvergne-Rhône-Alpes et Provence-Alpes-Côte d’Azur sont celles où l’écart salarial est le plus grand (>= -17,5%). La Réunion est la région avec le plus petit écart salarial (-7%). Ce qui signifie donc que les femmes sont payées 17,5% de moins que les hommes dans le Grand-Est. Tandis qu’elles sont payées 7% de moins que les hommes à La Réunion.

    En utilisant le dataset CO2, nous avons pu déterminer le taux d’émission de gaz à effet de serre par année selon le secteur d’activité (voir Figure 5). Nous avons uniquement sélectionné quatre années (1990,2000,2010 et 2019) afin d’avoir un résultat plus synthétique.

    Figure 5 : Taux d’émission de gaz à effet de serre par année selon le secteur d’activité

    Nous constatons que le secteur de l’industrie manufacturière est celui qui présente le plus fort taux d’émission de gaz à effet de serre. Cependant, ce taux a diminué au fil des années (140% en 1990 contre 70% en 2019).

    Construction de la BDD relationnelle

    Conception du schéma relationnel

    Dans la construction de notre base de données, nous nous sommes basées sur les datasets précédemment expliqués. Pour concevoir le schéma relationnel, nous avons suivi une approche par décomposition qui consiste à remplacer la relation R(A1, A2,…,An), le dataset final dans notre cas, par une collection de relations R1, R2,…, Rp obtenues par projection de R sur des sous-ensembles d’attributs dont l’union contient tous les attributs de R. Les relations obtenues convergent vers les datasests utilisées avec un effort de normalisation pour éviter des redondances sur les données.

    En ce qui du niveau de normalisation, nous nous sommes contentés de la 3FN (Forme Normale). Dans la pratique, la 3FN est suffisante pour avoir des BDD optimales et normalisées.

    Les tables relationnelles constituant le schéma sont les suivantes :

    Table 1: te_siren_admin

    Elle regroupe les données qui permettent d’identifier les entreprises françaises

    Attribut  Type
    siret (PK) bigint
    siren bigint
    nic integer
    date_creation_etablissement date
    denomination_usuelle_etablissement character varying (100)
    code_postal_etablissement character varying (10)
    reg_code (FK) character varying (10)
    activite_principale_etablissement (FK) character varying (10)
    tranche_effectifs_etablissement (FK) character varying (10)

    Tableau 2: te_siren_admin

    Table 2 : te_siren_region

    Elle regroupe les données sur les régions en France.

    Attribut  Type
    reg_code (PK) character varying (10)
    reg_name character varying (100)

    Tableau 3 : te_siren_region

    Table 3 : tr_code_effectif

    Elle regroupe les données sur les codes désignant les effectifs des entreprises.

    Attribut  Type
    tranche_effectifs_etablissement (PK) character varying (10)
    Effectif character varying (100)

    Tableau 4 : tr_code_effectif

    Table 4 : tr_naf

    Elle regroupe les données sur les codes des activités des entreprises françaises.

    Attribut  Type
    activite_principale_etablissement (PK) character varying (10)
    Libelle character varying (100)

    Tableau 5 : tr_naf

    Table 5 : ind_ecart_salaire

    Elle regroupe les données sur les codes des activités des entreprises françaises.

    Attribut  Type
    reg_code (PK) character varying (10)
    reg_name character varying (100)
    ecart_salaire_fh double precision

    Tableau 6 : ind_ecart_salaire

    Table 6 : ind_teletravail

    Elle contient le 2ème indicateur sur le pourcentage de télétravail dans les entreprises de différentes tailles.

    Attribut  Type
    tranche_effectifs_etablissement (PK) character varying (10)
    Effectif character varying (100)
    Teletravail double precision

    Tableau 7 : ind_teletravail

    Table 7 : ind_emission_co2

    Elle contient le 3ème indicateur sur le taux d’émission de gaz à effet de serre (CO2) selon le secteur d’activité des entreprises mesuré sur trois décades (1990, 2000, 2010, 2019).

    Attribut  Type
    secteur_activite (PK) character varying (10)
    taux_emission_1990 double precision
    taux_emission_2000 double precision
    taux_emission_2010 double precision
    taux_emission_2019 double precision

    Tableau 8 : ind_emission_co2

    La figure suivante illustre le schéma relationnel en précisant les tables, les liens entre elles ainsi que les cardinalités.

    Figure 6: Schéma relationnel de la BDD

    Implémentation du schéma relationnel

    Nous avons implémenté notre BDD sous PostgreSQL dans l’environnement PgAdmin4 de la plateforme Management & Data Science. Chaque table dans la base a été créée avec un script de création SQL. Par exemple, le script de création de la table tr_code_effectif est le suivant.

    Figure 7 : Script de création de la table tr_code_effectif

    Après création de toutes les tables, nous avons obtenu le schéma complet de la BDD implémenté sous PostgreSQL.

    Figure 8 : Schéma de la BDD sous PostgreSQL

    Nous avons également construit une VM (Vue Matérialisée)[1], appelé siren, en faisant une jointure des tables relationnelles précédentes. Ainsi, nous pouvons l’utiliser pour exécuter plus rapidement certaines requêtes pour des fins d’analyses statistiques. Cette VM a été générée avec le script suivant.

    Figure 9 : Script de création de la VM siren

    Ainsi, nous avons obtenu une vue matérialisée qui contient tous les attributs nécessaires à l’interrogation de la BDD (voir Figure 10) .

    Figure 10 : Structure de la VM siren

    5.3 Interrogation de la BDD

    Pour faire des analyses statistiques sur la BDD, il suffit d’interroger la vue matérialisée siren. Par exemple, pour obtenir le nombre d’entreprises par région, nous pouvons exécuter la requête suivante.

    Figure 11 : Requête d’interrogation de la BDD

    Les résultats sont cohérents avec ce que nous avons obtenus précédemment (voir section 4).

    Figue 12 : Résultats de la requête d’interrogation de la BDD

    6. Discussion

    La responsabilité sociale des entreprises est la contribution des entreprises au développement durable. De part notre étude, nous avons défini plusieurs critères nous permettant ainsi d’appliquer cette notion sur les entreprises françaises.
    Le premier critère est le respect de l’environnement à travers l’étude de l’émission de gaz à effet de serre des entreprises. Le deuxième est l’absence de discrimination au sein des entreprises à travers l’étude de l’écart salarial selon le sexe. Et enfin, le troisième est la condition favorable des salariés à travers l’étude des conditions de télétravail du fait de la crise sanitaire.
    L’étude de l’émission de gaz à effet de serre nous a permis de comprendre que dans la plupart des secteurs d’activités, le taux d’émission a diminué, en particulier dans le secteur de l’industrie où nous notons une baisse de 140 à 70 (voir Figure 5). Cependant, nous notons quand même une augmentation de ce taux entre 1990 et 2019 dans le secteur du transport routier.
    L’étude de l’écart salarial selon le sexe (voir Figure 4), a permis de constater que les femmes gagnent en moyenne 15,5% de moins que les hommes en France. Ce qui va à l’encontre des principes de la RSE qui voudrait une parité homme-femme parmi les salariés.
    L’étude des conditions de télétravail (voir Figure 2) montre que les entreprises avec un plus grand nombre de salariés travaillent en majorité en télétravail. Les entreprises françaises veillent ainsi à la limitation de propagation du virus face à la crise et donc au bien-être de leurs salariés.

    7. Conclusion

    De part notre étude, nous constatons que les entreprises françaises veillent dans l’ensemble au respect des principes de la RSE. Cependant, au niveau de l’environnement, un effort doit être fait notamment dans le secteur du transport routier. Dans un contexte où la problématique du changement climatique prend de plus en plus d’ampleur, il est urgent de mettre en place des mesures afin de limiter les émissions de gaz à effet de serre. Nous pourrions, par exemple, sanctionner les entreprises identifiées comme polluantes à travers des amendes ou une interdiction temporaire d’exercer leur activité.
    Quant à l’inégalité salariale homme-femme, il est nécessaire de développer des actions ou campagnes de sensibilisation pour les entreprises afin de les aider à prendre conscience des effets de la discrimination et des enjeux du mieux « vivre et travailler ensemble ».

    [1]  La vue matérialisée est une table contenant les résultats d’une requête. Les vues améliorent l’exécution des requêtes en précalculant les opérations les plus coûteuses comme les jointures et les agrégations et en stockant leurs résultats dans la base.

  • Évaluation globale
    (Pas d'évaluation)

    (Il n'y a pas encore d'évaluation.)

    (Il n'y a pas encore de commentaire.)

    • Aucune ressource disponible.