230 liens privés
Récemment, un nouveau paradigme de construction de modèles de langage à usage général (par exemple, Bert de Google et GPT-2 d'OpenAI) dans le traitement du langage naturel (TLN) pour l'extraction de caractéristiques textuelles, une procédure standard dans les systèmes de TLN qui convertit les textes en vecteurs (c.-à-d., embeddings) pour la modélisation en aval, est apparu et commence à trouver son application dans diverses tâches de TLN en aval et dans des systèmes du monde réel (par exemple, le moteur de recherche de Google [6]). Pour obtenir des intégrations de texte à usage général, ces modèles de langage ont des architectures très complexes avec des millions de paramètres apprenables et sont généralement pré-entraînés sur des milliards de phrases avant d'être utilisés. Comme il est largement reconnu, une telle pratique améliore effectivement les performances de pointe de nombreuses tâches NLP en aval. Cependant, cette utilité accrue n'est pas gratuite. Nous constatons que les incorporations de texte provenant de modèles de langage à usage général capturent de nombreuses informations sensibles dans le texte brut. Une fois que l'adversaire y a accédé, les incorporations peuvent faire l'objet d'une ingénierie inverse pour divulguer des informations sensibles sur les victimes afin de les harceler davantage. Bien qu'un tel risque d'atteinte à la vie privée puisse constituer une menace réelle pour l'utilisation future de ces outils NLP prometteurs, il n'existe pas à ce jour d'attaques publiées ni d'évaluations systématiques pour les modèles de langage courants au niveau industriel. Pour combler cette lacune, nous présentons la première étude systématique sur les risques d'atteinte à la vie privée de 8 modèles de langage de pointe avec 4 études de cas diverses. En construisant deux nouvelles classes d'attaques, notre étude démontre que les risques de confidentialité susmentionnés existent bel et bien et peuvent imposer des menaces pratiques à l'application de modèles de langage à usage général sur des données sensibles couvrant l'identité, le génome, les soins de santé et la localisation. Par exemple, nous montrons que l'adversaire, qui n'a pratiquement aucune connaissance préalable, peut atteindre une précision d'environ 75 % lorsqu'il déduit le site précis de la maladie à partir de l'intégration de Bert dans les descriptions médicales des patients. Comme contre-mesures possibles, nous proposons 4 défenses différentes (via l'arrondi, la confidentialité différentielle, l'entraînement de l'adversaire et la projection de sous-espace) pour obscurcir les incorporations non protégées à des fins d'atténuation. Grâce à des évaluations approfondies, nous fournissons également une analyse préliminaire sur le compromis utilité/confidentialité apporté par chaque défense, ce qui, nous l'espérons, pourra encourager les recherches futures sur l'atténuation.