COVID-19, Jeux du Chaos
Divulgâchage : Dans une vie précédente, j’ai eu l’occasion de tracer des figures fractales à base d’ADN. C’était passionnant et je me suis demandé ce que ça donnerait avec le génome du COVID-19 qui nous empêche de sortir de chez nous. Et comme rien ne sert de faire les choses dans son coin, j’ai décidé d’en faire profiter tout le monde.
Il y a bien longtemps, au début des arsouyes, j’avais l’habitude de flâner dans la bibliothèque universitaire à la recherche de livres intéressants. Parmi les plus marquants, un sur l’IA en QBasic, un autre sur la croissance fractale de la matière (lien affilié), un traité de virologie médicale, ou encore ce livre sur la Théorie du Chaos.
Pour mon stage de master 2, je voulais quelque chose dans cette veine. Ça n’a pas été facile, mais je suis tombé sur deux chercheurs qui ont accepté de m’accompagner dans un truc un peu fou : faire des images fractales à base d’ADN…
Avec la pandémie de COVID-19, je me suis demandé ce qu’on obtiendrait comme image avec l’ADN du virus dont on parle partout.
Règles du Jeu
Les règles de ce jeux sont très simples :
- Matériel nécessaire : une feuille de papier, un crayon, un dé à faces et du temps, beaucoup de temps. Un taille crayon ou des crayons de remplacements peuvent être utiles aussi.
- Débuter la partie : placez points n’importe où sur votre feuille de papier et numérotez-les. Ces points serviront de points de contrôles . Placez ensuite un nouveau point sur cette feuille, le jeu consistera à le déplacer à chaque étape.
- Déroulement de la partie : à chaque étape, lancez le dé et tracez un nouveau point au milieu entre le dernier point que vous avez tracé et le point de contrôle correspondant au dé.
- But et fin de la partie : vous gagnez lorsqu’une figure fractale apparaît. Perdez si vous arrêtez avant.
Si vous ne pensez pas avoir la patience nécessaire, vous pouvez aussi apprendre la programmation et laisse votre logiciel tracer les images pour vous. Ça sera plus rapide.
Découvrir des structures cachées
En fait, pour perdre, la seule solution est de placer 4 points et d’utiliser un dé bien équilibré à 4 faces. Dans ce cas, vous remplirez votre quadrilatère de manière homogène (vous pouvez essayer).
Et c’est justement là qu’est tout l’intérêt car vous pouvez alors chercher des variantes des règles pour lesquels une fractale apparaît.
Vous pouvez établir des règles sur les points qui peuvent ou non être choisi lors d’une étape en fonction des résultats précédents. Par exemple, interdire de tirer successivement le même nombre (si c’est le cas, on relance le dé).
Vous pouvez aussi utiliser un dé pipé qui favorise certains résultats au détriment des autres. Ici encore, une structure va apparaître.
Avec de l’ADN ?
Chouette coïncidence, l’ADN utilise 4 bases (l’Adénine, la Cytosine, la Guanine et la Thymine) qui se répètent pour former une molécule plutôt longue, un brin. Un deuxième brin, complémentaire du premier, s’y attache et les deux s’entortillent pour plus de stabilité de l’ensemble mais il n’ajoute pas d’information supplémentaire.
Du coup, on a eu l’idée d’utiliser des séquences d’ADN comme générateur aléatoire. On place les points de contrôle au sommet d’un carré (dans le sens horaire, en commençant en bas à gauche : A, C, G, T) et on suit les instructions de la séquence pour le choix des points de contrôle. Si l’ADN est aléatoire, on devrait remplir le carré.
« On », c’est H. Joel Jeffrey. Chaos game representation of gene structure. 1990. (archive)
Lorsque les génomes sont grands (i.e. Homo Sapiens), on trace tellement de points qu’on rempli effectivement la feuille. Pour éviter de devoir zoomer (on ne saurait d’ailleurs pas où d’emblée), on affiche en fait la densité des points avec des nuances de gris (ou d’autres couleurs suivant la mode).
Et là, surprise ! Un motif apparaît à chaque fois. Plus ou moins différent suivant la parenté des espèces, faisant dire à certain que cette figure serait, en quelque sorte, la signature de l’espèce et qu’on pourrait l’utiliser pour quantifier la différence entre elles.
Avec ce type d’image, on peut rapidement voir la différence entre une mouche (Drosophila melanogaster ci dessus) et un humain (Homo sapiens ci dessous). Une analyse visuelle des individus des deux espèces nous aurait mené au même constat, mais c’est carrément plus passionnant avec cette méthode non ?
En fait, ces images nous montrent visuellement certaines caractéristiques sur les fréquences d’apparition des suites de bases par rapport à d’autres suites. Pour le génome d’Homo Sapiens, on peut en remarquer facilement trois :
- Le trou clair en haut à droite qui se répète partout qui montre que
la suite
CG
est relativement peu présente, - Les diagonales marquées (ainsi que toutes les plus petites
diagonales) qui montrent que les mots privilégient des suites contenant
uniquement des
A
etG
ou uniquement desC
etT
, - Un léger dégradé foncé en bas et clair en haut, qui montre que les
bases
A
etT
sont globalement plus utilisées queC
etT
.
En fait, on retrouve ces caractéristiques visuelles chez tous les mammifères. Par exemple, les vaches (Bos Taurus, ci après) partagent ces mêmes caractéristiques.
SARS CoV 2
Le virus du COVID-19 ne contient pas d’ADN, mais de l’ARN. Pour cet article, ça ne change pas grand chose, la Thymine est simplement remplacée par un autre acide aminé, l’Uracile. Elles sont donc toujours 4 et on peut continuer à tracer nos figures. En fait, c’est tellement pareil que dans les séquences des bases de données, on utilise parfois la même lettre pour les deux…
Je pensais trouver facilement le génome du virus vu que l’Institut Pasteur dit l’avoir séquencé, Le problème, c’est qu’ils ont décidé de diffuser leurs résultats via GISAID, plateforme d’échange entre chercheur qui nécessite une inscriptions et dont les CGU interdisent la diffusion des données en dehors du réseau… Paye ta diffusion du savoir 😢.
Pour obtenir les génomes, je me suis tourné, comme à l’époque, vers le NCBI et sa base GenBank qui ne me demande pas de donnée personnelle et me laisse utiliser les données comme je veux. L’avantage, c’est aussi qu’ils ne se restreignent pas au virus mais à toutes les séquences d’ADN/ARN.
Pour le coup, on peut alors télécharger les données pour le SARS CoV 2 (ou même pour le SARS CoV, son parent proche).
Si vous voulez faire vos scripts, je vous conseille de télécharger au format FASTA. Il contient l’essentiel, sans les annotations qui ne vous serviront à rien pour faire les dessins.
Visuellement, on peut remarquer le trou en haut à droite ainsi qu’un léger effet de dégradé de bas en haut, deux caractéristiques des mammifères qui montrent que ce virus est plutôt de notre genre (des fois qu’on en doute encore).
Et maintenant ?
Faire bouger un point, c’est à la portée de n’importe quel langage.
J’avais hésité à utiliser python
(et son module
pygame
) ou encore C++
(avec Qt
)
puis je me suis dit que ce serait plus ergonomique si je vous insérait
la chose directement dans cette page.
C’est donc en Javascript
(avec un canvas
)
que je vous propose de tracer vos propres images. Tous les calculs se
feront par votre navigateur ce qui évite les transferts de fichiers
volumineux.
Pour trouver les fichiers FASTA, comme je vous l’ai dit plus haut, je vous conseille la base publique Genome du NCBI. Il vous suffira d’entrer le nom de l’espèce que vous cherchez dans le formulaire en haut de page (en latin ou en anglais). Une fois sur la page de l’espèce voulue, vous obtenez un tableau avec les chromosomes, si vous ne savez pas ou cliquer, préférez les liens de la colonne RefSeq. Pour rappel, voici les génomes que j’ai utilisé pour cet article :
- La mouche : Drosophila melanogaster, en particulier son chromosome X,
- L’humain : Homo sapiens, en particulier son chromosome 1
- La vache : Bos Taurus, en particulier son chromosome 1
- Deux virus : SARS CoV 2 et SARS CoV.
Sur la page de la séquence, trouvez ensuite le lien « Send to: » (en haut à droite), choisissez Complete Record puis File et enfin le format FASTA et cliquez sur Create File. Si vous choisissez Coding Sequence, vous obtiendrez un extrait ne contenant que les parties codantes de l’ADN, autour de 10% du total pour le chromosome 1 chez l’humain.
Ce formulaire vous permet donc de faire les calculs et de construire la représentation par jeu du chaos du fichier que vous voulez. Certains pouvant être long (i.e. le Chromosome 1 de l’homme fait près de 250 Mo) j’ai ajouté une barre de progression et utilisé un worker pour faire les calculs sans figer votre navigateur.
Et Après ?
Si cet article vous a plus, les articles suivants pourraient vous intéresser aussi.
- COVID-19, les arsouyes en quarantaine
-
13 Mars 2020 Une fois qu’on se penche sur les données scientifiques autour de la pandémie du COVID-19, on ne peut que constater son inéluctabilité et l’importance de prendre des mesures rapidement pour freiner sa propagation et sauver des vies.
- COVID-19, Probabilités et Inférence Bayésienne
-
3 avril 2020 À force de voir des statistiques et des interprétations farfelues sur le COVID-19, je me suis dit que des explications sur les probabilités serait intéressant pour mieux comprendre le sens de ces chiffres et vous parler d’Inférence Bayésienne vous permettrait d’en sortir des conclusions plus intéressantes.
- Représentation par jeu du chaos de séquences d’ADN
-
20 Juin 2006 Le jeu du chaos est une technique permettant de dessiner facilement des images fractales. Cette technique a été adaptée aux séquences d’ADN et permet de représenter des génomes par des images, révélant des structures fractales différentes suivant les génomes. Une question fondamentale est de savoir d’où viennent ces structures fractales, et de les caractériser.