Santé

Logiciel et méthodologie

Dossier - Recherche et analyse des promoteurs des gènes de la Réponse Systémique Acquise
DossierClassé sous :génétique , réponse systémique acquise , bactéries

-

Détermination d'un consensus d'activation La résistance systémique acquise (RSA ou SAR) définit les systèmes mis en place par une plante après l'infection par un pathogène, qui lui permettent de se protéger contre une future infec-tion similaire. Ces systèmes sont induits après le développement d'une réponse hypersensible ré-sultant de l'accumulation d'acide salicylique au niveau du point de contact avec le pathogène.

  
DossiersRecherche et analyse des promoteurs des gènes de la Réponse Systémique Acquise
 

2.1 Détermination des codes de séquençage des gènes RSA :

Le séquençage du génome d'A. thaliana permet de localiser un gène intégralement et par consé-quent le promoteur associé. Cette localisation peut se faire par l'intermédiaire de l'utilitaire Se-quence retrieval du site Internet Regulatory Sequence Analysis tools (Van Helden et al., 2000) mais ce dernier nécessite pour cela le code établi lors du séquençage et non celui indiqué dans la biblio-graphie. Ce problème fut résolu par la suite grâce à l'ajout au programme d'un système de synony-mes qui permet d'introduire plus de 15 000 gènes sous leur nom abrégé.

Cette transposition peut se faire par un alignement de séquence par Blast via Internet ou un utilitaire en local comme alignX associé au génome complet d'A. thaliana contenu sur cédérom. Contraire-ment à un alignement local, celui sur Internet donne au moins deux séquences homologues à 100%, le gène de la bibliographie et celui du génome complet (tableau 1).

Tableau 1. Code de séquençage des gènes SAR

2.2 Regulatory Sequence Analysis tools

Avant de lancer l'étude sur l'ensemble des plantes, l'utilisation des gènes SAR d'A. thaliana permet de comparer les différents logiciels de recherche et comparaison de promoteur eucaryotique exis-tants aptes à résoudre le problème de cette étude.

Le programme RSA tools recherche les régions promotrices puis renvoie le résultat vers l'un des quatre utilitaires différents qui analyse l'ensemble afin de déterminer l'existence ou non de consen-sus (Van Helden et al., 2000) :
oligo-analysis : analyse par mots en tenant compte des probabilités d'apparition
dyad-analysis : analyse par mots de 3 bases répétées mais séparées
consensus : analyse matricielle
gibbs : analyse matricielle

Figure 2. Schéma de fonctionnement de RSA tools (http://ucmb.ulb.ac.be/bioinformatics/rsatools)

Le dyad-analysis n'est pas adapté pour le moment à A. thaliana et par conséquent ne peut être aussi fiable que oligo-analysis qui lui a été programmé pour l'ensemble des génomes complets connus et compatibles avec des séquences de n'importe quel organisme.

Le programme oligo-analysis analyse l'échantillon indiqué en comparant les différents oligonu-cléotides présents par rapport à leur fréquence dans le génome non codant de l'organisme considéré, la fréquence théorique. Cette analyse se traduit par le comptage du nombre d'occurrence de l'oligonucléotide considéré, comparé à celle attendue calculée depuis la probabilité d'occurrence. Ce nombre d'occurrence comprend le nombre de fois où l'oligomère et complémentaire fut obser-vés dans l'échantillon. L'oligomère et son complémentaire forment ensemble l'identifiant. De cette comparaison se calcule depuis la fréquence théorique la valeur de signification par rapport à un échantillon de séquence aléatoire. Le résultat obtenu peut être considéré comme fiable si et seu-lement si est elle nettement supérieur à zéro. L'alignement de ces différents identifiants aboutit à une synthèse, la séquence consensus.

L'analyse matricielle consensus donne toujours un résultat que l'on peut considérer comme réel si et seulement si sa signification est nettement supérieure à 0. Cette analyse utilise une méthode repo-sant uniquement sur les mathématiques. Le fait de se détacher de l'organisme permet de définir une séquence consensus indépendante, réduisant la portée des oligonucléotides similaires. Après 1000 cycle, ce programme élabore les matrices dont la fréquence (f) est positive et la probabilité d'erreur (p) faible.
L'autre analyse matricielle de cette suite, Gibbs, nécessite plusieurs passages car il donne rarement le même résultat, cependant si une séquence apparaît à chaque passage, il est probable qu'elle forme un consensus réel (van Helden et al., 2000).
Le programme DNA-pattern search a pour principe de rechercher des motifs exacts dans des sé-quences choisies. Ces motifs sont apportés par l'utilisateur lors de l'initialisation de l'analyse.

2.3 Motif Sampler :

L'analyse matricielle par chaîne de Markov est la base de Motif Sampler. Cette analyse mathé-matique calcule les scores entre 2 mononucléotides, de ce fait plus une séquence a d'occurrence plus le score attribué sera élevé. L'association de ce score avec le logarithme de la probabilité d'association détermine la séquence consensus mathématiquement la plus probable (Thijs et al., 2001).