193 liens privés
La question du fonctionnement de l’esprit est au cœur des sciences cognitives. Ces dernières visent à comprendre et à expliquer les processus complexes sous-tendant la perception, la prise de décision et l’apprentissage, trois domaines fondamentaux de la cognition. La théorie du cerveau bayésien, une approche computationnelle issue des principes du traitement prédictif (PP, Predictive Processing), propose une formulation mécanistique et mathématique de ces processus cognitifs. Cette théorie suppose que le cerveau encode des croyances (états probabilistes) pour générer des prédictions à propos des entrées sensorielles, puis utilise les erreurs de prédictions pour mettre à jour ses croyances. Dans cet article, nous présentons une introduction aux principes fondamentaux de la théorie du cerveau bayésien. Nous montrons comment cette théorie innovante hybride des concepts hérités de la philosophie de l’esprit et les données expérimentales issues des neurosciences, et comment elle traduit des processus cognitifs complexes comme la perception, l’action, l’émotion, et la croyance, ou encore la symptomatologie psychiatrique.
Il est devenu courant de publier des modèles de langage de grande taille (milliards de paramètres).
qui ont été entraînés sur des ensembles de données privés.
Cet article démontre que dans de telles situations, un adversaire peut effectuer une attaque d'extraction de données d'entraînement par exemples de formation individuels en interrogeant le modèle de langage.
Nous faisons la démonstration de notre attaque sur GPT-2, un modèle de langue formé à partir de fragments de l'Internet public.
Ces exemples extraits comprennent des informations personnelles (publiques) identifiables (noms, numéros de téléphone et adresses électroniques)), des conversations IRC, des codes et des UUID 128 bits. C' est ainsi que nous avons pu extraire des centaines de séquences textuelles verbatim des données d'entraînement du modèle.
identifiables (noms, numéros de téléphone et adresses électroniques) ), des conversations IRC, des codes et des UUID 128 bits. Notre attaque est possible même si chacune des séquences ci-dessus
sont incluses dans un seul document des données d'entraînement.
Nous évaluons de manière exhaustive notre attaque d'extraction afin de comprendre les facteurs qui contribuent à la réussite de l'attaque.
comprendre les facteurs qui contribuent à son succès. Inquiétant, nous constatons que les grands modèles sont plus vulnérables que les petits modèles.
petits modèles. Nous concluons en tirant des leçons et en discutant des protections possibles pour la formation de grands modèles linguistiques.
Nous concluons en tirant des leçons et en discutant des sauvegardes possibles pour la formation de grands modèles de langage.
Memorized Leaked Podesta Emails from WikiLeaks.
We identify several memorized URLs that originated from
the leaked Podesta Emails available on WikiLeaks13. There
is only one training document that contains these memorized
URLs. Due to the nature of email, the text of one message is
often included in subsequent replies to this email. As a result,
a URL that is used (intentionally) only once can be included
in the dataset tens of times due to the replies.
https://en.wikipedia.org/wiki/Podesta_emails
Memorized Donald Trump Quotes and Tweets. The
GPT-2 training dataset was collected when the 2016 US Pres-
idential election was often in the news. As a result, we find
several instances of memorized quotes from Donald Trump,
both in the form of official remarks made as President (found
in the official government records), as well as statements made
on Twitter.
Memorized Number Sequences. We identify many ex-
amples where GPT-2 emits common number sequences.
Nearly ten examples contain the integers counting
up from some specific value. We also find exam-
ples of GPT-2 counting the squares 1, 2, 4, 8, 16,
25, 36, Fibonacci numbers 1, 1, 2, 3, 5, 8, 13, 21,
34, 55, 89, 144, 233, 377, 610, 987, or digits of π,
3.14159265358979323846264. None of these examples
should be unexpected, but the quantity of memorized number
sequences was surprising to us.
Aucun de ces exemples ne devrait être inattendu, mais la quantité de séquences de nombres mémorisées de nombres mémorisés nous a surpris..