166 liens privés
Malgré son importance clinique considérable, l'ensemble des gènes du SRAS-CoV-2 n'est toujours pas résolu, ce qui entrave la dissection de la biologie du COVID-19. Ici, nous utilisons la génomique comparative pour fournir un ensemble de gènes codant pour des protéines de haute confiance, caractériser la contrainte évolutive au niveau des protéines et des nucléotides, et classer par ordre de priorité les mutations fonctionnelles de la pandémie COVID-19 en cours. Nous sélectionnons 44 génomes complets de Sarbecovirus à des distances évolutives idéalement adaptées à l'identification des éléments codants et non codants des protéines, nous créons des alignements de génomes entiers et nous quantifions les signatures évolutives du codage des protéines et la contrainte de chevauchement. Nous trouvons de fortes signatures de codage de protéines pour tous les gènes nommés et pour 3a, 6, 7a, 7b, 8, 9b, et aussi ORF3c, un nouveau gène à cadre alternatif. En revanche, l'ORF10 et les ORFs 9c, 3b et 3d qui se chevauchent ne présentent pas de signatures de codage protéique ou de preuves expérimentales convaincantes et ne sont pas codants pour les protéines. En outre, nous montrons qu'aucun autre gène codant pour une protéine ne reste à découvrir. Les pressions évolutives entre souches et au sein d'une même souche concordent largement au niveau des gènes, des acides aminés et des nucléotides, avec quelques exceptions notables, notamment des mutations moins nombreuses que prévu dans nsp3 et la sous-unité S1 de Spike, et des mutations plus nombreuses que prévu dans Nucleocapsid. Cette dernière présente également un groupe de variantes modifiant les acides aminés dans des résidus conservés par ailleurs dans un épitope prédit des cellules B, ce qui pourrait indiquer une sélection positive pour l'évitement immunitaire. Plusieurs mutations de la protéine Spike, dont la D614G, qui a été associée à une transmission accrue, perturbent des acides aminés autrement parfaitement conservés, et pourraient constituer de nouvelles adaptations aux hôtes humains. L'ensemble de gènes de haute confiance et les annotations de l'histoire de l'évolution qui en résultent fournissent des ressources et des informations précieuses sur la biologie, les mutations et l'évolution de COVID-19.