DecRIPT

Détection des diverses Représentations de l’Information permettant d’identifier les données Personnelles contenues dans les Textes.

Date

2014-2020

Partenariat

ErdilHEG GEHE-ArcGlobal Data Excellence

Site internet

DecRIPT


Problématique & objectifs

Assurer la sécurité des données est devenu incontournable pour leur collecte et leur exploitation, y compris pour les textes susceptibles de contenir des données personnelles. Selon la règlementation GDPR (en français RGPD « Règlement Général sur la Protection des Données ») depuis mai 2018, toute entreprise doit être en mesure de prouver que les données à caractère personnel qu’elle détient sont protégées et inexploitables en cas de vol. L’adoption du RGPD crée un nouveau besoin d’outils automatiques permettant l’identification et le masquage/offuscation des données à protéger, afin de faciliter la mise en conformité des entreprises avec la législation. Un traçage sera obligatoire.

Le projet DecRIPT a pour objectifs de proposer un modèle linguistique-sémantique pour pouvoir identifier automatiquement les données personnelles dans les textes en langage naturel, et de traiter ces données textuelles pour leur sécurité, offuscation et gouvernance. Un modèle sémantique, méta-modèle, de repérage des données sera élaboré pour servir à l’automatisation de ces tâches.

Résultats et liens

Résumé du projet INTERREG DECRIPT en vue des entretiens qualitatifs dans le cadre de l’étude de marché [PDF] (21 juillet 2020)

Summary of the INTERREG DECRIPT project for qualitative market research interviews [PDF] (21st of July, 2020)

Anonymisation de zones de texte libre : tour d’horizon – un l’état de l’art vulgarisé sur les solutions en entreprise

Enquête sur la gouvernance et la protection des données / Survey on data governance and protection (15 septembre – 15 octobre 2021)

Projet DecRIPT : bilan et références – bilan par l’entreprise ERDIL

Publications et communications scientifiques

Walid El Abed, Hélène Madinier, Sylviane Cardey, Thierry Bregnard, Iana Atanassova. Semantically-Driven Knowledge Modelling for the Business Ecosystem. Conférence IFKAD 2022 – Knowledge Drivers for Resilience and Transformation, Lugano, Suisse.

Iana Atanassova (moderator), Thierry Bregnard, Walid El Abed, Hitoshi Isahara, Sylviane Cardey. Panel « Personal Data in Texts: Detection, Annotation and Governance ». Conference CPDP 2022, May 2022, Bruxelles, Belgique.

Alexis Kauffmann, François-Claude Rey, Iana Atanassova, Arnaud Gaudinat, Peter Greenfield, Hélène Madinier, Sylviane Cardey. Indirectly Named Entity Recognition. Journal of Computer-Assisted Linguistic Research (JCLR), Universitat Politècnica de València, 2021, 5 (1), pp.27-46. DOI : 10.4995/JCLR.2021.15922. ⟨hal-03476411⟩

Iana Atanassova, Sylviane Cardey-Greenfield, Hélène Madinier, Walid El Abed. Identification et gestion des données personnelles dans les textes: modèle sémantique et applications. CiDE.22 : 22éme édition du Colloque International sur le Document Electronique Données Documents Connaissances : Perspectives de recherche et d’enseignement, Dec 2021, Paris, France. ⟨hal-03506075⟩

François-C. Rey, Alexis Kauffmann. French indirectly named entities: Data set (version 1.3). 2021. DOI : 10.5281/zenodo.5158253. ⟨hal-03476463⟩

Journal BULAG No. 40. « Languages Analysis, Comparison and Generation Systems, Models and Applications: Homage to Peter Greenfield ». Presses Universitaires de Franche-Comté (PUFC), France. Décembre 2022. ISBN 978-2-84867-948-8. Editeurs Sylviane Cardey, François-C. Rey et Iana Atanassova

Sylviane Cardey. « Préface ». BULAG No. 40, 2022. PUFC, ISBN 978-2-84867-948-8

Sylviane Cardey. « Semantic Formal Representation Using Indicants ». BULAG No. 40, 2022. PUFC, ISBN 978-2-84867-948-8

Abdoulaye Guisse, Iana Atanassova. « Noyau Informatique Criptex pour le Traitement de Données Personelles dans les Textes ». BULAG No. 40, 2022. PUFC, ISBN 978-2-84867-948-8