230 liens privés
Bienvenue à tous ! Dans ce billet, nous allons examiner caractère par caractère le code source du vaccin ARNm SARS-CoV-2 de BioNTech/Pfizer.
Mise à jour : après que plus de 1,7 million de personnes ont visité cette page, j'ai décidé d'écrire un livre sur un thème similaire. Pour devenir un lecteur bêta, rendez-vous sur cette page consacrée à la technologie de la vie. Je vous remercie.
Je tiens à remercier les nombreuses personnes qui ont passé du temps à vérifier la lisibilité et l'exactitude de cet article. Toutes les erreurs restent les miennes, mais j'aimerais qu'on me les signale rapidement à l'adresse bert@hubertnet.nl ou @bert_hu_bert.
Le vaccin est un liquide que l'on s'injecte dans le bras. Comment parler de code source ?
C'est une bonne question, alors commençons par une petite partie du code source du vaccin BioNTech/Pfizer, également connu sous le nom de BNT162b2, également connu sous le nom de Tozinameran, également connu sous le nom de Comirnaty.
Les 500 premiers caractères de l'ARNm BNT162b2.
Source : Organisation mondiale de la santé : Organisation mondiale de la santé
Les 500 premiers caractères de l'ARNm BNT162b2.
Source : Organisation mondiale de la santé : Organisation mondiale de la santé
Le vaccin à ARNm BNT162b2 est constitué d'un code numérique. Il comporte 4 284 caractères, ce qui correspond à une série de tweets. Au tout début du processus de production du vaccin, quelqu'un a téléchargé ce code sur une imprimante à ADN (oui), qui a ensuite converti les octets sur le disque en véritables molécules d'ADN.
Une machine à ADN Kilobaser Express
De cette machine sortent de minuscules quantités d'ADN qui, après de nombreuses transformations biologiques et chimiques, se retrouvent sous forme d'ARN (nous y reviendrons) dans le flacon de vaccin. Une dose de 30 microgrammes contient en fait 30 microgrammes d'ARN. En outre, un astucieux système d'emballage lipidique (gras) permet d'introduire l'ARNm dans nos cellules.
Mise à jour : Derek Lowe, du célèbre blog In the pipeline de Science, a rédigé un article complet intitulé "RNA Vaccines And Their Lipids" (Les vaccins ARN et leurs lipides) qui explique clairement les éléments lipidiques et d'administration des vaccins que je ne suis pas en mesure de décrire. Heureusement, Derek l'est !
Mise à jour 2 : Jonas Neubert et Cornelia Scheitz ont écrit cette page impressionnante qui contient de nombreux détails sur la manière dont les vaccins sont produits et distribués. A recommander !
L'ARN est la version volatile de la "mémoire de travail" de l'ADN. L'ADN est en quelque sorte la mémoire flash de la biologie. L'ADN est très durable, redondant en interne et très fiable. Mais tout comme les ordinateurs n'exécutent pas le code directement à partir d'une clé USB, avant qu'un événement ne se produise, le code est copié dans un système plus rapide, plus polyvalent mais beaucoup plus fragile.
Pour les ordinateurs, il s'agit de la mémoire vive, pour la biologie, c'est l'ARN. La ressemblance est frappante. Contrairement à la mémoire flash, la RAM se dégrade très rapidement, à moins d'être entretenue avec amour. La raison pour laquelle le vaccin ARNm de Pfizer/BioNTech doit être stocké dans le plus profond des congélateurs est la même : l'ARN est une fleur fragile.
Chaque caractère d'ARN pèse de l'ordre de 0,53-10-²¹ gramme, ce qui signifie qu'il y a environ 6-10¹⁶ caractères dans une seule dose de vaccin de 30 microgrammes. Exprimé en octets, cela représente environ 14 pétaoctets, bien qu'il faille préciser qu'il s'agit d'environ 13 000 milliards de répétitions des mêmes 4 284 caractères. Le contenu informatif réel du vaccin dépasse à peine un kilo-octet. Le SARS-CoV-2 lui-même pèse environ 7,5 kilo-octets.
Mise à jour : dans le message original, ces chiffres étaient erronés. Voici une feuille de calcul avec les calculs corrects.
Le contexte le plus bref
L'ADN est un code numérique. Contrairement aux ordinateurs, qui utilisent 0 et 1, la vie utilise A, C, G et U/T (les "nucléotides", "nucléosides" ou "bases").
Dans les ordinateurs, nous stockons les 0 et les 1 sous la forme de la présence ou de l'absence d'une charge, d'un courant, d'une transition magnétique, d'une tension, d'une modulation d'un signal ou d'un changement de réflectivité. En bref, le 0 et le 1 ne sont pas une sorte de concept abstrait - ils vivent sous la forme d'électrons et dans de nombreuses autres incarnations physiques.
Dans la nature, A, C, G et U/T sont des molécules, stockées sous forme de chaînes dans l'ADN (ou l'ARN).
Dans les ordinateurs, nous regroupons 8 bits en un octet, et l'octet est l'unité typique des données traitées.
La nature regroupe 3 nucléotides en un codon, et ce codon est l'unité typique de traitement. Un codon contient 6 bits d'information (2 bits par caractère d'ADN, 3 caractères = 6 bits. Cela signifie que 2⁶ = 64 valeurs de codon différentes).
Pour l'instant, c'est plutôt numérique. En cas de doute, consultez le document de l'OMS contenant le code numérique pour vous en convaincre.
Des lectures complémentaires sont disponibles ici - ce lien ("Qu'est-ce que la vie") peut aider à comprendre le reste de cette page. Ou, si vous aimez les vidéos, j'ai deux heures pour vous.
Que fait ce code ?
L'idée d'un vaccin est d'apprendre à notre système immunitaire à combattre un agent pathogène, sans que nous tombions malades. Historiquement, cela s'est fait par l'injection d'un virus affaibli ou incapacité (atténué), plus un "adjuvant" pour effrayer notre système immunitaire et le pousser à agir. Il s'agissait d'une technique résolument analogique impliquant des milliards d'œufs (ou d'insectes). Elle nécessitait également beaucoup de chance et de temps. Parfois, un virus différent (non apparenté) était également utilisé.
Un vaccin à ARNm permet d'atteindre le même objectif ("éduquer notre système immunitaire"), mais à la manière d'un laser. Et je l'entends dans les deux sens du terme : très étroit mais aussi très puissant.
Voici donc comment cela fonctionne. L'injection contient du matériel génétique volatil qui décrit la fameuse protéine "Spike" du SRAS-CoV-2. Par des moyens chimiques astucieux, le vaccin parvient à introduire ce matériel génétique dans certaines de nos cellules.
Celles-ci se mettent alors consciencieusement à produire des protéines Spike du SRAS-CoV-2 en quantités suffisamment importantes pour que notre système immunitaire entre en action. Confronté aux protéines Spike et aux signes révélateurs de la prise de contrôle des cellules, notre système immunitaire développe une réponse puissante contre de multiples aspects de la protéine Spike ET du processus de production.
C'est ce qui nous permet d'obtenir un vaccin efficace à 95 %.
Le code source !
Commençons par le tout début, un très bon point de départ. Le document de l'OMS contient cette image utile :
Il s'agit d'une sorte de table des matières. Nous commencerons par la "casquette", qui est en fait un petit chapeau.
De la même manière qu'on ne peut pas simplement placer des opcodes dans un fichier sur un ordinateur et l'exécuter, le système d'exploitation biologique a besoin d'en-têtes, d'éditeurs de liens et de conventions d'appel.
Le code du vaccin commence par les deux nucléotides suivants :
GA
Cela peut être comparé à tous les exécutables DOS et Windows commençant par MZ, ou aux scripts UNIX commençant par # ! Dans la vie comme dans les systèmes d'exploitation, ces deux caractères ne sont en aucun cas exécutés. Mais ils doivent être présents, car sinon rien ne se passe.
Le "cap" de l'ARNm a un certain nombre de fonctions. Tout d'abord, il indique que le code provient du noyau. Dans notre cas, ce n'est évidemment pas le cas, notre code provient d'une vaccination. Mais nous n'avons pas besoin de le dire à la cellule. Le capuchon donne à notre code une apparence légitime, ce qui le protège de la destruction.
Les deux nucléotides initiaux de l'AG sont également chimiquement légèrement différents du reste de l'ARN. En ce sens, l'AG est doté d'une signalisation hors bande.
La "région non traduite en cinq points" (five-prime untranslated region)
Un peu de jargon ici. Les molécules d'ARN ne peuvent être lues que dans un seul sens. La partie où la lecture commence est appelée 5' ou "cinq-prime", ce qui peut prêter à confusion. La lecture s'arrête à l'extrémité 3' ou trois-prime.
La vie est constituée de protéines (ou de choses fabriquées par des protéines). Ces protéines sont décrites dans l'ARN. La transformation de l'ARN en protéines s'appelle la traduction.
Ici, nous avons la région 5' non traduite ("UTR"), ce qui fait que cette partie ne se retrouve pas dans la protéine :
GAAΨAAACΨAGΨAΨΨCΨCΨGGΨCCACAGACΨCAGAGAGAACCCGCCACC
C'est ici que nous rencontrons notre première surprise. Les caractères normaux de l'ARN sont A, C, G et U. U est également connu sous le nom de "T" dans l'ADN. Mais ici, nous trouvons un Ψ, que se passe-t-il ?
C'est l'un des aspects les plus intelligents du vaccin. Notre corps dispose d'un puissant système antivirus ("l'original"). C'est pourquoi les cellules ne sont pas très enthousiastes à l'égard de l'ARN étranger et s'efforcent de le détruire avant qu'il ne fasse quoi que ce soit.
C'est en quelque sorte un problème pour notre vaccin, qui doit se faufiler dans notre système immunitaire. Après de nombreuses années d'expérimentation, on a découvert que si le U de l'ARN est remplacé par une molécule légèrement modifiée, notre système immunitaire s'en désintéresse. Pour de vrai.
Ainsi, dans le vaccin BioNTech/Pfizer, chaque U a été remplacé par le 1-méthyl-3'-pseudouridylyl, désigné par Ψ. Ce qui est vraiment astucieux, c'est que bien que ce Ψ de remplacement apaise (calme) notre système immunitaire, il est accepté comme un U normal par les parties concernées de la cellule.
Dans le domaine de la sécurité informatique, nous connaissons également cette astuce : il est parfois possible de transmettre une version légèrement corrompue d'un message qui déroute les pare-feu et les solutions de sécurité, mais qui est tout de même acceptée par les serveurs dorsaux - qui peuvent alors être piratés.
Nous récoltons aujourd'hui les fruits de la recherche scientifique fondamentale menée dans le passé. Les découvreurs de cette technique Ψ ont dû se battre pour que leurs travaux soient financés puis acceptés. Nous devrions tous leur être très reconnaissants, et je suis sûr que les prix Nobel arriveront en temps voulu.
De nombreuses personnes ont demandé si les virus pouvaient également utiliser la technique Ψ pour déjouer nos systèmes immunitaires. En bref, c'est extrêmement improbable. La vie ne dispose tout simplement pas de la machinerie nécessaire pour fabriquer des nucléotides 1-méthyl-3'-pseudouridylyl. Les virus dépendent de la machinerie de la vie pour se reproduire, et cette machinerie n'existe tout simplement pas. Les vaccins ARNm se dégradent rapidement dans le corps humain et il est impossible que l'ARN modifié par le Ψ se réplique avec le Ψ encore présent. Le document "No, Really, mRNA Vaccines Are Not Going To Affect Your DNA" (Non, vraiment, les vaccins ARNm ne vont pas affecter votre ADN) est également intéressant à lire.
Ok, revenons à l'UTR 5'. Que font ces 52 caractères ? Comme tout ce qui existe dans la nature, presque rien n'a de fonction précise.
Lorsque nos cellules doivent traduire l'ARN en protéines, elles le font à l'aide d'une machine appelée ribosome. Le ribosome est une sorte d'imprimante 3D pour les protéines. Il ingère un brin d'ARN et, sur la base de celui-ci, il émet une chaîne d'acides aminés, qui se plient ensuite pour former une protéine.
C'est ce que nous voyons se produire ci-dessus. Le ruban noir en bas est l'ARN. Le ruban qui apparaît en vert est la protéine en cours de formation. Les éléments qui entrent et sortent sont les acides aminés et les adaptateurs qui leur permettent de s'insérer dans l'ARN.
Ce ribosome doit s'asseoir physiquement sur le brin d'ARN pour pouvoir travailler. Une fois installé, il peut commencer à former des protéines sur la base de l'ARN qu'il ingère. On peut donc imaginer qu'il ne peut pas encore lire les parties sur lesquelles il se pose en premier. Ce n'est là qu'une des fonctions de l'UTR : la zone d'atterrissage du ribosome. L'UTR fournit un "lead-in".
En outre, l'UTR contient également des métadonnées : quand la traduction doit-elle avoir lieu ? Et dans quelle mesure ? Pour le vaccin, les chercheurs ont utilisé l'UTR le plus "immédiat" qu'ils aient pu trouver, extrait du gène de la globine alpha. Ce gène est connu pour produire de manière robuste un grand nombre de protéines. Au cours des années précédentes, les scientifiques avaient déjà trouvé des moyens d'optimiser encore davantage cet UTR (selon le document de l'OMS), de sorte qu'il ne s'agit pas tout à fait de l'UTR de la globine alpha. C'est mieux.
Le peptide signal de la glycoprotéine S
Comme nous l'avons vu, le but du vaccin est d'amener la cellule à produire de grandes quantités de la protéine Spike du SARS-CoV-2. Jusqu'à présent, nous avons surtout rencontré des métadonnées et des "conventions d'appel" dans le code source du vaccin. Mais nous entrons maintenant dans le territoire des protéines virales proprement dites.
Cependant, il nous reste encore une couche de métadonnées. Une fois que le ribosome (de la splendide animation ci-dessus) a fabriqué une protéine, celle-ci doit encore aller quelque part. Cette destination est codée dans le "peptide signal de la glycoprotéine S (séquence leader étendue)".
Cela signifie qu'au début de la protéine, il y a une sorte d'étiquette d'adresse - codée comme faisant partie de la protéine elle-même. Dans ce cas précis, le peptide signal indique que la protéine doit sortir de la cellule par le "réticulum endoplasmique". Même le jargon de Star Trek n'est pas aussi sophistiqué que cela !
Le "peptide signal" n'est pas très long, mais lorsque nous examinons le code, nous constatons des différences entre l'ARN viral et l'ARN du vaccin :
(À des fins de comparaison, j'ai remplacé le Ψ modifié par un U d'ARN normal.)
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Virus : UG UUU GUUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccin : AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUG
! ! ! ! ! ! ! ! ! ! ! ! ! !
Que se passe-t-il donc ? Ce n'est pas par hasard que j'ai classé l'ARN par groupes de 3 lettres. Trois caractères d'ARN constituent un codon. Et chaque codon code pour un acide aminé spécifique. Le peptide signal du vaccin se compose exactement des mêmes acides aminés que le virus lui-même.
Comment se fait-il alors que l'ARN soit différent ?
Il y a 4³=64 codons différents, puisqu'il y a 4 caractères d'ARN et qu'il y en a trois dans un codon. Pourtant, il n'y a que 20 acides aminés différents. Cela signifie que plusieurs codons codent pour le même acide aminé.
La vie utilise le tableau presque universel suivant pour établir la correspondance entre les codons de l'ARN et les acides aminés :
La table des codons de l'ARN (Wikipedia)
https://en.wikipedia.org/wiki/DNA_and_RNA_codon_tables
https://fr.wikipedia.org/wiki/Code_g%C3%A9n%C3%A9tique#Table_des_codons_d'ARN_messager
Dans ce tableau, nous pouvons voir que les modifications dans le vaccin (UUU -> UUC) sont toutes synonymes. Le code de l'ARN du vaccin est différent, mais il produit les mêmes acides aminés et la même protéine.
Si nous regardons de plus près, nous constatons que la majorité des modifications se produisent dans la troisième position du codon, notée par un "3" ci-dessus. Et si l'on consulte le tableau des codons universels, on constate que cette troisième position n'a souvent pas d'importance pour l'acide aminé qui est produit.
Les changements sont donc synonymes, mais alors pourquoi sont-ils là ? En y regardant de plus près, nous constatons que tous les changements, sauf un, conduisent à davantage de C et de G.
Pourquoi donc ? Comme indiqué plus haut, notre système immunitaire voit d'un très mauvais œil l'ARN "exogène", c'est-à-dire le code ARN provenant de l'extérieur de la cellule. Pour échapper à la détection, le "U" de l'ARN a déjà été remplacé par un "Ψ".
Or, il s'avère que l'ARN contenant une plus grande quantité de G et de C est également converti plus efficacement en protéines,
C'est ce qui a été fait dans l'ARN du vaccin en remplaçant de nombreux caractères par des G et des C lorsque cela était possible.
Je suis légèrement fasciné par la seule modification qui n'a pas entraîné l'ajout d'un C ou d'un G, à savoir la modification CCA -> CCU. Si quelqu'un en connaît la raison, qu'il me la communique ! Je suis conscient que certains codons sont plus fréquents que d'autres dans le génome humain, mais j'ai également lu que cela n'influençait pas beaucoup la vitesse de traduction. MISE À JOUR : un certain nombre de lecteurs ont fait remarquer que ce changement pourrait empêcher la formation d'une "épingle à cheveux" dans l'ARN. Vous pouvez faire l'essai vous-même sur le service RNAFold.
Ce merveilleux article de Chelsea Voss traite en profondeur de la forme et du contenu de l'ARN du SARS-CoV-2.
La protéine Spike proprement dite
Les 3 777 caractères suivants de l'ARN du vaccin sont également "optimisés par codon" pour ajouter de nombreux C et G. Pour des raisons d'espace, je ne vais pas énumérer tout le code ici, mais nous allons nous concentrer sur un élément exceptionnellement spécial. Dans un souci d'espace, je n'énumérerai pas ici tout le code, mais nous allons nous concentrer sur une partie exceptionnellement spéciale. Il s'agit de la partie qui fait fonctionner le système, celle qui nous aidera à retrouver une vie normale :
* *
L D K V E A E V Q I D R L I T G
Virus : CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccin : CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
L D P P E A E V Q I D R L I T G
! ! !! ! ! ! ! ! ! ! ! !
Nous voyons ici les changements synonymes habituels de l'ARN. Par exemple, dans le premier codon, nous voyons que CUU est transformé en CUG. Cela ajoute un "G" supplémentaire au vaccin, ce qui, nous le savons, contribue à améliorer la production de protéines. CUU et CUG codent tous deux pour l'acide aminé "L" ou leucine, de sorte que rien n'a changé dans la protéine.
Lorsque nous comparons l'ensemble de la protéine Spike dans le vaccin, tous les changements sont synonymes, à l'exception de deux, et c'est ce que nous voyons ici.
Les troisième et quatrième codons ci-dessus représentent des changements réels. Les acides aminés K et V y sont tous deux remplacés par "P" ou Proline. Pour 'K', cela a nécessité trois changements ('!!!') et pour 'V', cela n'en a nécessité que deux ('!!').
Il s'avère que ces deux modifications améliorent considérablement l'efficacité du vaccin.
Que se passe-t-il donc ici ? Si l'on observe une vraie particule de SRAS-CoV-2, on peut voir la protéine Spike sous la forme d'une série de pointes :
Particules du virus du SRAS (Wikipedia)
Particules du virus du SRAS (Wikipedia)
Les pointes sont montées sur le corps du virus ("la protéine de la nucléocapside"). Mais le fait est que notre vaccin ne génère que les pics lui-même, et que nous ne les montons sur aucune sorte de corps viral.
Il s'avère que, non modifiées, les protéines Spike indépendantes s'effondrent en une structure différente. Si elles étaient injectées sous forme de vaccin, notre corps développerait une immunité... mais uniquement contre la protéine Spike effondrée.
Et le vrai SARS-CoV-2 apparaît avec la protéine Spike. Le vaccin ne fonctionnerait pas très bien dans ce cas.
Que faire alors ? En 2017, il a été décrit comment la substitution d'une double proline au bon endroit permettait aux protéines S du SRAS-CoV-1 et du MERS d'adopter leur configuration "pré-fusion", même si elles ne font pas partie de l'ensemble du virus. Cela fonctionne parce que la proline est un acide aminé très rigide. Elle agit comme une sorte d'attelle, stabilisant la protéine dans l'état que nous devons montrer au système immunitaire.
Les personnes qui ont découvert cela devraient se féliciter sans cesse. Une insoutenable suffisance devrait émaner d'eux. Et ce serait bien mérité.
Mise à jour ! J'ai été contacté par le laboratoire McLellan, l'un des groupes à l'origine de la découverte de la proline. Ils me disent que les applaudissements sont discrets en raison de la pandémie en cours, mais qu'ils sont heureux d'avoir contribué à la mise au point des vaccins. Ils soulignent également l'importance de nombreux autres groupes, travailleurs et bénévoles.
La fin de la protéine, les prochaines étapes
Si nous parcourons le reste du code source, nous rencontrons quelques petites modifications à la fin de la protéine Spike :
V L K G V K L H Y T s
Virus : GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccin : GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA
V L K G V K L H Y T s s
! ! ! ! ! ! ! !
À la fin d'une protéine, on trouve un codon "stop", désigné ici par un "s" minuscule. C'est une façon polie de dire que la protéine doit s'arrêter ici. Le virus original utilise le codon stop UAA, le vaccin utilise deux codons stop UGA, peut-être juste pour faire bonne mesure.
La région 3' non traduite
Tout comme le ribosome avait besoin d'une introduction à l'extrémité 5', où nous avons trouvé la "région non traduite", à l'extrémité de la région codante d'une protéine, nous trouvons une construction similaire appelée "3' UTR".
Il y aurait beaucoup à dire sur l'UTR 3', mais je cite ici ce que dit Wikipedia : ''"La région 3'-non traduite joue un rôle crucial dans l'expression des gènes en influençant la localisation, la stabilité, l'exportation et l'efficacité de la traduction d'un ARNm ... malgré notre compréhension actuelle des UTR 3'-, ils restent encore des mystères relatifs".''
Ce que nous savons, c'est que certains 3'-UTR parviennent très bien à promouvoir l'expression des protéines. Selon le document de l'OMS, le 3'-UTR du vaccin BioNTech/Pfizer a été choisi parmi "l'ARNm de l'AES (amino-terminal enhancer of split) et l'ARN ribosomal 12S codé pour la mitochondrie afin de conférer une stabilité à l'ARN et une expression totale élevée de la protéine". Ce à quoi je réponds : "Bravo !
La fin de la AAAAAAAAAAAAAAAAAA
L'extrémité de l'ARNm est polyadénylée. C'est une façon élégante de dire qu'il se termine par un grand nombre de AAAAAAAAAAAAAAAAA. Il semble que même l'ARNm en ait assez de 2020.
L'ARNm peut être réutilisé de nombreuses fois, mais il perd alors une partie des A à la fin. Une fois les A épuisés, l'ARNm n'est plus fonctionnel et est éliminé. De cette manière, la queue "poly-A" est protégée de la dégradation.
Des études ont été menées pour déterminer le nombre optimal de A à l'extrémité des vaccins ARNm. J'ai lu dans la littérature ouverte que ce nombre atteignait environ 120.
Le vaccin BNT162b2 se termine par :
****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA
AAAAAAAAAA AAAAAAAA AAAAAAAA AAAAAAAAAA AAAAAAAA AAAAAAAA
Il s'agit de 30 A, puis d'un "linker" de 10 nucléotides (GCAUGACU), suivi de 70 A supplémentaires.
Il existe plusieurs théories sur la raison de la présence de ce linker. Certains me disent que cela a à voir avec la stabilité des plasmides d'ADN, ce qu'un expert m'a également confirmé :
"Le linker de 10 nucléotides dans la queue du poly(A) facilite l'assemblage des fragments d'ADN synthétique qui deviennent la matrice pour la transcription de l'ARNm. Il réduit également le glissement de l'ARN polymérase T7, de sorte que la longueur de l'ARNm transcrit est plus uniforme".
L'article "Segmented poly(A) tails significantly reduce recombination of plasmid DNA without affecting mRNA translation efficiency or half-life" (Queues poly(A) segmentées réduisent significativement la recombinaison de l'ADN plasmidique sans affecter l'efficacité de la traduction de l'ARNm ou sa demi-vie) contient également une description convaincante de la manière dont un lien peut améliorer l'efficacité.
Résumer
Nous connaissons maintenant le contenu exact de l'ARNm du vaccin BNT162b2 et, pour la plupart des éléments, nous comprenons pourquoi ils sont là :
- Le CAP pour s'assurer que l'ARN ressemble à un ARNm normal
- Une région 5' non traduite (UTR) optimisée et réussie.
- un peptide signal optimisé par codon pour envoyer la protéine Spike au bon endroit (acides aminés copiés à 100 % à partir du virus d'origine)
- Une version optimisée par codon du spike original, avec deux substitutions de "Proline" pour s'assurer que la protéine apparaît sous la bonne forme.
- Une région 3' non traduite connue et optimisée
- Une queue poly-A avec un "linker".
L'optimisation des codons ajoute beaucoup de G et de C à l'ARNm. Parallèlement, l'utilisation de Ψ (1-méthyl-3'-pseudouridylyl) au lieu de U permet d'échapper à notre système immunitaire, de sorte que l'ARNm reste dans les parages suffisamment longtemps pour que nous puissions réellement contribuer à la formation du système immunitaire.
Pourquoi dire plusieurs fois "on a amélioré" "on a + d'efficacité".... et en même temps dire "on pige pas 5'UTR et 3'UTR"... c'est très très prétentieux !!!
C'est les mêmes qui disaient il y a 15 ans que l'ADN non codant est de l'ADN poubelle.... juste par ce qu'on veut pas accepter qu'on a pas compris.
Etant ingénieur en télécom. Je reconnais ici beaucoup de similitudes avec les protocoles informatiques. Les AAAAA... A la fin c'est comme le TTL des paquets IP, à chaque routeur on diminue le nombre. Sans ce mécanisme on tourne l'infini et ce serait le meilleure moyen de créer des cellules cancereuses... des tumeurs qui se répliquent à l'infini... donc j'espère qu'il y a vraiment un savant calcul et pas une estimation au doigt mouillé.... mais rien ne le prouve.
Dire qu'on a fait mieux en modifiant les codons je trouve ça très très dangereux. Car si justement il y a 64 possibilités de code pour 21 protéine/acide aminé.. c'est qu'il y une raison. Tout le reste est tellement bien conçu que c'est pas au hasard. (c'est la même logique stupide que de parler d'ADN poubelle quand on comprends pas).
Or, en télécom,. On ne fait pas toujours passer le signal en "bande de base". Soit en direct. Mais on l'encode, on le module pour des raison électrique, pour des raisons de synchronisation d'horloge. On a des code comme le NRZ (Non Return to Zero) ou le code manchester. Bref... on a besoin de toutes ces possibilités redondantes offertes par les synonymes pour garantir qu'on puisse transmettre le signal dans de bonnes conditions et sur des plus grandes distances.
J'ai l'impression que les généticiens ne connaissent pas les pratiquent en télécom et devraient s'en inspirer.... Il est connu que partout dans la nature la proportion dorée est présente. On la retrouve naturellement dans l'ADN sous forme des dimension de la double spirale, mais aussi de la proportion des base ACGT. Après avoir imaginé ceci. J'ai vu une vidéo de Montagnier qui allait dans ce sens. Donc j'étais content d'avoir la confirmation d'un généticien.
Dans l'ARN il est fort probable que justement les synonymes sont utilisés. Pour équilibrer les bases sur des critères de correction d'erreur. Ça du sens en télécom.
D'ailleurs le "footer qui est hyper important mais dont on ne sais pas à quoi ça sert"..... pff... il suffit de regarder en télécom. C'est le CRC. Le code correcteur d'erreur. Piquer celui d'un autre va juste faire qu'on ne peut plus détecter et corriger les erreurs. Donc le paquet va être instable ou rejeté.
Donc c'est très intéressant. Mais là je vois encore plein de pratiques dignes de l'apprenti sorcier !! ça fait un peu peur.
Pour revoir le détail, retournons à l'article de base source de cette conférence...
https://renaudguerin.net/posts/explorons-le-code-source-du-vaccin-biontech-pfizer-sars-cov-2/
Bien qu'il soit largement reconnu que l'ARN est intrinsèquement structuré, l'interaction entre la structure secondaire locale et globale de l'ARNm (en particulier dans la région codante) et l'expression globale des protéines n'a pas été explorée en profondeur. Notre travail utilise deux approches pour démêler les rôles régulateurs de la séquence primaire et de la structure secondaire de l'ARNm : la substitution globale avec des nucléotides modifiés et la conception de séquence computationnelle. En adaptant des données cinétiques d'expression détaillées à des modèles mathématiques, nous montrons que la structure secondaire peut augmenter la demi-vie de l'ARNm indépendamment de l'utilisation des codons. Ces résultats ont des implications importantes à la fois pour la régulation translationnelle des ARNm endogènes et pour le domaine émergent de la thérapeutique des ARNm.
Résumé
Les ARN messagers (ARNm) codent des informations à la fois dans leur séquence primaire et dans leur structure d'ordre supérieur. Les contributions indépendantes de facteurs tels que l'utilisation des codons et la structure secondaire à la régulation de l'expression des protéines sont difficiles à établir car elles sont souvent fortement corrélées dans les séquences endogènes. Ici, nous avons utilisé deux approches, l'inclusion globale de nucléotides modifiés et la conception de séquences rationnelles de constructions délivrées de manière exogène, pour comprendre le rôle de la structure secondaire de l'ARNm indépendamment de l'utilisation des codons. De manière inattendue, les ARNm hautement exprimés contiennent une séquence codante (CDS) hautement structurée. Les nucléotides modifiés qui stabilisent la structure secondaire de l'ARNm permettent une expression élevée pour une grande variété de séquences primaires. En utilisant un ensemble d'ARNm eGFP dont l'utilisation des codons et la structure de la CDS ont été modifiées de manière indépendante, nous avons découvert que la structure de la CDS régule l'expression des protéines par le biais de changements dans la demi-vie fonctionnelle de l'ARNm (c'est-à-dire l'ARNm activement traduit). Ce travail met en évidence un rôle sous-estimé de la structure secondaire de l'ARNm dans la régulation de la stabilité de l'ARNm.
Les gènes des mammifères sont très hétérogènes en ce qui concerne la composition de leurs nucléotides, mais les conséquences fonctionnelles de cette hétérogénéité ne sont pas claires. Dans les études précédentes, de faibles corrélations positives ou négatives ont été trouvées entre la teneur en guanine et cytosine (GC) du site silencieux et l'expression des gènes de mammifères. Cependant, les études précédentes n'ont pas tenu compte des différences dans le contexte génomique des gènes, ce qui pourrait potentiellement obscurcir toute corrélation entre la teneur en GC et l'expression. Dans le présent travail, nous avons directement comparé l'expression de gènes riches en GC et de gènes pauvres en GC placés dans le contexte de promoteurs identiques et de séquences UTR. Nous avons effectué des transfections transitoires et stables de cellules de mammifères avec des versions riches en GC et pauvres en GC des gènes Hsp70, de la protéine fluorescente verte et de l'IL2. Les gènes riches en GC ont été exprimés de plusieurs fois à plus de 100 fois plus efficacement que leurs homologues pauvres en GC. Cet effet n'est pas dû à des taux de traduction différents de l'ARNm riche en GC et de l'ARNm pauvre en GC. Au contraire, l'expression efficace des gènes riches en GC résulte de l'augmentation de leurs niveaux d'ARNm en état d'équilibre. Les taux de dégradation de l'ARNm n'étaient pas corrélés avec la teneur en GC, ce qui suggère qu'une transcription ou un traitement de l'ARNm efficace est responsable de la forte expression des gènes riches en GC. Nous concluons que la teneur en GC à site silencieux est corrélée avec l'efficacité de l'expression des gènes dans les cellules de mammifères.
La pseudouridine (notée ψ) est un ribonucléoside dérivé de l'uridine. On la trouve dans certains ARN non-codants, comme les ARN de transfert ou les ARN ribosomiques. La pseudouridine n'est pas incorporée lors du processus de transcription, mais résulte d'une modification post-transcriptionnelle de certains résidus d'uridine. C'est la modification de base la plus fréquente dans l'ARN, elle est retrouvée chez l'ensemble des organismes vivants.
Contexte
L'infection par le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) et la maladie coronavirale 2019 (Covid-19) qui en résulte ont touché des dizaines de millions de personnes dans le cadre d'une pandémie mondiale. Des vaccins sûrs et efficaces sont nécessaires de toute urgence.
Méthodes
Dans le cadre d'un essai d'efficacité pivotant multinational en cours, contrôlé par placebo et en aveugle, nous avons assigné au hasard des personnes âgées de 16 ans ou plus dans un rapport de 1:1 à recevoir deux doses, à 21 jours d'intervalle, soit de placebo, soit du vaccin candidat BNT162b2 (30 μg par dose). Le BNT162b2 est un vaccin lipidique à base d'ARN modifié par des nucléosides et formulé sous forme de nanoparticules, qui code pour une protéine de pointe pleine longueur du SRAS-CoV-2 stabilisée par préfusion et ancrée dans la membrane. Les principaux critères d'évaluation étaient l'efficacité du vaccin contre le Covid-19 confirmé en laboratoire et l'innocuité.
Résultats
Au total, 43 548 participants ont été soumis à une randomisation, dont 43 448 ont reçu des injections : 21.720 avec du BNT162b2 et 21.728 avec un placebo. Il y a eu 8 cas de Covid-19 avec apparition au moins 7 jours après la deuxième dose parmi les participants assignés à recevoir le BNT162b2 et 162 cas parmi ceux assignés au placebo ; le BNT162b2 était efficace à 95% pour prévenir le Covid-19 (intervalle crédible à 95%, 90,3 à 97,6). Une efficacité similaire du vaccin (généralement de 90 à 100 %) a été observée dans les sous-groupes définis par l'âge, le sexe, la race, l'origine ethnique, l'indice de masse corporelle de base et la présence d'affections coexistantes. Parmi les 10 cas de Covid-19 grave avec apparition après la première dose, 9 sont survenus chez des receveurs de placebo et 1 chez un receveur de BNT162b2. Le profil de sécurité du BNT162b2 était caractérisé par une douleur de courte durée, légère à modérée, au point d'injection, de la fatigue et des maux de tête. L'incidence des effets indésirables graves était faible et similaire dans les groupes vaccin et placebo.
Conclusions
Un régime de deux doses de BNT162b2 a conféré une protection de 95% contre Covid-19 chez les personnes de 16 ans ou plus. La sécurité sur une période médiane de 2 mois était similaire à celle des autres vaccins viraux. (Financé par BioNTech et Pfizer ; numéro ClinicalTrials.gov, NCT04368728. s'ouvre dans un nouvel onglet).
Entre le 27 juillet 2020 et le 14 novembre 2020, un total de 44 820 personnes ont été dépistées et 43 548 personnes âgées de 16 ans ou plus ont été randomisées dans 152 sites dans le monde entier (États-Unis, 130 sites ; Argentine, 1 ; Brésil, 2 ; Afrique du Sud, 4 ; Allemagne, 6 ; et Turquie, 9) dans la partie phase 2/3 de l'essai. Au total, 43 448 participants ont reçu des injections : 21 720 ont reçu du BNT162b2 et 21 728 un placebo (figure 1). À la date limite de réception des données, le 9 octobre, un total de 37 706 participants disposaient d'une médiane d'au moins 2 mois de données de sécurité après la deuxième dose et ont contribué à l'ensemble principal de données de sécurité. Parmi ces 37 706 participants, 49% étaient des femmes, 83% étaient de race blanche, 9% étaient noirs ou afro-américains, 28% étaient hispaniques ou latinos, 35% étaient obèses (indice de masse corporelle [le poids en kilogrammes divisé par le carré de la taille en mètres] d'au moins 30,0), et 21% avaient au moins une maladie coexistante. L'âge médian était de 52 ans, et 42 % des participants avaient plus de 55 ans (tableau 1 et tableau S2).
L'excrétion prolongée de l'ARN du SRAS-CoV-2 et la récurrence des tests PCR positifs ont été largement signalées chez les patients après leur rétablissement, mais ces patients sont le plus souvent non infectieux1-14. Nous avons étudié ici la possibilité que les ARN du CoV-2 du SRAS puissent être retranscrits et intégrés dans le génome humain et que la transcription des séquences intégrées puisse expliquer les tests PCR positifs. À l'appui de cette hypothèse, nous avons trouvé des transcriptions chimériques constituées de séquences virales fusionnées à des séquences cellulaires dans des ensembles de données publiées de cellules cultivées infectées par le CoV-2 du SRAS et de cellules primaires de patients, ce qui correspond à la transcription de séquences virales intégrées dans le génome. Pour corroborer expérimentalement la possibilité de rétro-intégration virale, nous décrivons les preuves que les ARN du SRAS-CoV-2 peuvent être transcrits de manière inverse dans les cellules humaines par la transcriptase inverse (RT) des éléments LINE-1 ou par la RT du VIH-1, et que ces séquences d'ADN peuvent être intégrées dans le génome cellulaire et être ensuite transcrites. L'expression endogène de la LIGNE-1 humaine a été induite lors de l'infection par le SRAS-CoV-2 ou par l'exposition à des cytokines dans des cellules en culture, ce qui suggère un mécanisme moléculaire de rétro-intégration du SRAS-CoV-2 chez les patients. Cette nouvelle caractéristique de l'infection par le CoV-2 du SRAS pourrait expliquer pourquoi les patients peuvent continuer à produire de l'ARN viral après leur rétablissement et suggère un nouvel aspect de la réplication du virus à ARN.
Déclaration d'intérêts concurrents
Les auteurs n'ont déclaré aucun intérêt concurrent.