|
L’anonymisation/désidentification de données textuelles : pourquoi et comment| title | L’anonymisation/désidentification de données textuelles : pourquoi et comment |
|---|
| start_date | 2025/10/03 |
|---|
| schedule | 14h-15h |
|---|
| online | no |
|---|
| location_info | A118 |
|---|
| summary | Durant cette présentation, je vais faire un tour d’horizon des recherches à l’intersection du TAL et de la protection de la vie privée. La grande majorité des textes contiennent en effet, sous une forme ou une autre, des *données personnelles*, c’est-à-dire des données se rapportant à une personne physique identifiée ou identifiable. L’identité des personnes mentionnées ou évoquées dans un texte est typiquement révélée au travers de différents « indices », qui peuvent être directs (comme un nom ou un numéro de téléphone portable) ou indirects (comme le lieu de travail, l’âge, la nationalité ou l’appartenance à un club sportif).
Diverses méthodes peuvent heureusement être utilisées pour masquer automatiquement ces indices (souvent regroupés sous l’appellation de « personally identifiable information » ou PII) dans un texte. Ces méthodes de masquage peuvent reposer sur des systèmes classiques de reconnaissance des entités nommées ou sur l’utilisation de LLMs. Ce masquage des PII est notamment crucial pour des données personnelles au contenu particulièrement sensible comme des décisions de justice ou des rapports cliniques. Mais ces méthodes permettent-elles réellement de rendre un texte « anonyme » au sens du RGPD ? Et comment peut-on mesurer si un texte a été suffisamment désidentifié ? Dans un article que nous avons récemment publié (Lien) , nous avons notamment montré comment il est possible « d’attaquer » un texte désidentifié en tentant activement de réidentifier la personne dont l’identité devait être cachée à partir de connaissances contextuelles auxquelles un adversaire (fictif) peut avoir accès. |
|---|
| responsibles | Vanzeveren, Gao |
|---|
Workflow history| from state (1) | to state | comment | date |
| submitted | published | | 2025/09/29 08:42 UTC |
| |
|