244 liens privés
Détecteur IA, ChatGPT et GPT-4 de confiance par ZeroGPT
ZeroGPT, le Chat GPT, GPT4 & Détecteur de Contenu IA le plus Avancé et Fiable
Le journal lyonnais Le Progrès nous fait déjà part d’un premier cas connu d’utilisation de l’IA chez les étudiants. Un enseignant en handicapologie de Lyon a en effet constaté que 50% de ses étudiants avaient utilisé ChatGPT dans le cadre d’un devoir.
Le professeur s’est rendu compte de la supercherie en constatant qu’une bonne partie des copies rendues étaient très similaires. Si les mots différaient, leurs structures démonstratives et leurs exemples sont restés constamment les mêmes. C’est en se renseignant auprès de ses élèves que l’un d’eux a fini par avouer l’utilisation de ChatGPT dans la rédaction.
Les étudiants n’ont pas reçu de blâme pour cet usage, puisque l’utilisation de ChatGPT et des intelligences artificielles du même acabit n’a pas (encore) été banni par l’école. Le niveau des copies elles-mêmes naviguant entre 10 et 12,5, le professeur a décidé d’attribuer la même note de 11,75 à tous ces travaux. Il semble qu’en se renseignant auprès de ses collègues, il ait fait le constat que ce cas était loin d’être isolé. Les copies sont désormais en possession de la direction.
Le cas de cette université de Lyon est loin d’être isolé. Aux États-Unis, les écoles de New York ont décidé de bannir l’usage de ChatGPT dès l’avènement de la technologie, poussant OpenAI à réagir. L’entreprise a mis en avant la création d’un « signal secret et imperceptible » au sein des textes générés par l’IA afin de pouvoir déterminer à l’avenir les cas de tricherie. Elle promet que ce signal pourra être retrouvé même si une seule petite partie du texte a été créée par l’IA.
Le célèbre site de réponses aux questions des développeurs Stack Overflow a bloqué les réponses générées par ChatGPT indique The Verge. Les modérateurs ont expliqué que cette décision était temporaire et qu’ils allaient organiser une discussion avec la communauté du site pour prendre une décision définitive.
Leur point de vue est que ChatGPT permet de publier rapidement beaucoup de réponses pouvant sembler correctes au premier coup d’œil, mais souvent fausses. C’est d’ailleurs tout le problème de ce chat bot qui arrive facilement à imiter une discussion sur n’importe quel sujet avec des réponses plausibles, mais n’est pas capable d’évaluer si elles sont correctes.
Dans cet article, nous approfondissons nos recherches précédentes sur le potentiel d'abus des modèles génératifs de langage en évaluant GPT-3. En expérimentant avec des invites représentatives de différents types de récits extrémistes, de structures d'interaction sociale et d'idéologies radicales, nous constatons que GPT-3 démontre une amélioration significative par rapport à son prédécesseur, GPT-2, dans la génération de textes extrémistes. Nous montrons également la force de GPT-3 dans la génération de textes qui émulent avec précision le contenu interactif, informationnel et influent qui pourrait être utilisé pour radicaliser les individus vers des idéologies et des comportements violents d'extrême droite. Bien que les mesures préventives d'OpenAI soient solides, la possibilité d'une technologie copiée non réglementée représente un risque important pour la radicalisation et le recrutement en ligne à grande échelle ; ainsi, en l'absence de mesures de protection, une militarisation réussie et efficace nécessitant peu d'expérimentation est probable. Les acteurs de l'IA, la communauté des décideurs et les gouvernements devraient commencer à investir dès que possible dans l'élaboration de normes sociales, de politiques publiques et d'initiatives éducatives afin de prévenir un afflux de désinformation et de propagande générées par des machines. Les mesures d'atténuation nécessiteront des politiques et des partenariats efficaces entre l'industrie, le gouvernement et la société civile.
Il est devenu courant de publier des modèles de langage de grande taille (milliards de paramètres).
qui ont été entraînés sur des ensembles de données privés.
Cet article démontre que dans de telles situations, un adversaire peut effectuer une attaque d'extraction de données d'entraînement par exemples de formation individuels en interrogeant le modèle de langage.
Nous faisons la démonstration de notre attaque sur GPT-2, un modèle de langue formé à partir de fragments de l'Internet public.
Ces exemples extraits comprennent des informations personnelles (publiques) identifiables (noms, numéros de téléphone et adresses électroniques)), des conversations IRC, des codes et des UUID 128 bits. C' est ainsi que nous avons pu extraire des centaines de séquences textuelles verbatim des données d'entraînement du modèle.
identifiables (noms, numéros de téléphone et adresses électroniques) ), des conversations IRC, des codes et des UUID 128 bits. Notre attaque est possible même si chacune des séquences ci-dessus
sont incluses dans un seul document des données d'entraînement.
Nous évaluons de manière exhaustive notre attaque d'extraction afin de comprendre les facteurs qui contribuent à la réussite de l'attaque.
comprendre les facteurs qui contribuent à son succès. Inquiétant, nous constatons que les grands modèles sont plus vulnérables que les petits modèles.
petits modèles. Nous concluons en tirant des leçons et en discutant des protections possibles pour la formation de grands modèles linguistiques.
Nous concluons en tirant des leçons et en discutant des sauvegardes possibles pour la formation de grands modèles de langage.
Memorized Leaked Podesta Emails from WikiLeaks.
We identify several memorized URLs that originated from
the leaked Podesta Emails available on WikiLeaks13. There
is only one training document that contains these memorized
URLs. Due to the nature of email, the text of one message is
often included in subsequent replies to this email. As a result,
a URL that is used (intentionally) only once can be included
in the dataset tens of times due to the replies.
https://en.wikipedia.org/wiki/Podesta_emails
Memorized Donald Trump Quotes and Tweets. The
GPT-2 training dataset was collected when the 2016 US Pres-
idential election was often in the news. As a result, we find
several instances of memorized quotes from Donald Trump,
both in the form of official remarks made as President (found
in the official government records), as well as statements made
on Twitter.
Memorized Number Sequences. We identify many ex-
amples where GPT-2 emits common number sequences.
Nearly ten examples contain the integers counting
up from some specific value. We also find exam-
ples of GPT-2 counting the squares 1, 2, 4, 8, 16,
25, 36, Fibonacci numbers 1, 1, 2, 3, 5, 8, 13, 21,
34, 55, 89, 144, 233, 377, 610, 987, or digits of π,
3.14159265358979323846264. None of these examples
should be unexpected, but the quantity of memorized number
sequences was surprising to us.
Aucun de ces exemples ne devrait être inattendu, mais la quantité de séquences de nombres mémorisées de nombres mémorisés nous a surpris..