au sommaire


    Logiciel et méthodologie

    Logiciel et méthodologie

    2.1 Détermination des codes de séquençage des gènes RSA :

    Le séquençageséquençage du génomegénome d'A. thaliana permet de localiser un gènegène intégralement et par consé-quent le promoteur associé. Cette localisation peut se faire par l'intermédiaire de l'utilitaireutilitaire Se-quence retrieval du site InternetInternet Regulatory Sequence Analysis tools (Van Helden et al., 2000) mais ce dernier nécessite pour cela le code établi lors du séquençage et non celui indiqué dans la biblio-graphie. Ce problème fut résolu par la suite grâce à l'ajout au programme d'un système de synony-mes qui permet d'introduire plus de 15 000 gènes sous leur nom abrégé.

    Cette transposition peut se faire par un alignement de séquence par Blast via Internet ou un utilitaire en local comme alignX associé au génome complet d'A. thaliana contenu sur cédérom. Contraire-ment à un alignement local, celui sur Internet donne au moins deux séquences homologues à 100%, le gène de la bibliographie et celui du génome complet (tableau 1).

    Tableau 1. Code de séquençage des gènes SAR

    Tableau 1. Code de séquençage des gènes SAR

    2.2 Regulatory Sequence Analysis tools

    Avant de lancer l'étude sur l'ensemble des plantes, l'utilisation des gènes SAR d'A. thaliana permet de comparer les différents logicielslogiciels de recherche et comparaison de promoteur eucaryotique exis-tants aptes à résoudre le problème de cette étude.

    Le programme RSARSA tools recherche les régions promotrices puis renvoie le résultat vers l'un des quatre utilitaires différents qui analyse l'ensemble afin de déterminer l'existence ou non de consen-sus (Van Helden et al., 2000) :
    - oligo-analysis : analyse par mots en tenant compte des probabilités d'apparition
    - dyad-analysis : analyse par mots de 3 bases répétées mais séparées
    - consensus : analyse matricielle
    - gibbs : analyse matricielle

    Figure 2. Schéma de fonctionnement de RSA tools (http://ucmb.ulb.ac.be/bioinformatics/rsatools)<br />

    Figure 2. Schéma de fonctionnement de RSA tools (http://ucmb.ulb.ac.be/bioinformatics/rsatools)

    Le dyad-analysis n'est pas adapté pour le moment à A. thaliana et par conséquent ne peut être aussi fiable que oligo-analysis qui lui a été programmé pour l'ensemble des génomes complets connus et compatibles avec des séquences de n'importe quel organisme.

    Le programme oligo-analysis analyse l'échantillon indiqué en comparant les différents oligonu-cléotides présents par rapport à leur fréquence dans le génome non codant de l'organisme considéré, la fréquence théorique. Cette analyse se traduit par le comptage du nombre d'occurrence de l'oligonucléotideoligonucléotide considéré, comparé à celle attendue calculée depuis la probabilité d'occurrence. Ce nombre d'occurrence comprend le nombre de fois où l'oligomère et complémentaire fut obser-vés dans l'échantillon. L'oligomère et son complémentaire forment ensemble l'identifiant. De cette comparaison se calcule depuis la fréquence théorique la valeur de signification par rapport à un échantillon de séquence aléatoire. Le résultat obtenu peut être considéré comme fiable si et seu-lement si est elle nettement supérieur à zéro. L'alignement de ces différents identifiants aboutit à une synthèse, la séquence consensus.

    L'analyse matricielle consensus donne toujours un résultat que l'on peut considérer comme réel si et seulement si sa signification est nettement supérieure à 0. Cette analyse utilise une méthode repo-sant uniquement sur les mathématiques. Le fait de se détacher de l'organisme permet de définir une séquence consensus indépendante, réduisant la portée des oligonucléotides similaires. Après 1000 cycle, ce programme élabore les matrices dont la fréquence (f) est positive et la probabilité d'erreur (p) faible.
    L'autre analyse matricielle de cette suite, Gibbs, nécessite plusieurs passages car il donne rarement le même résultat, cependant si une séquence apparaît à chaque passage, il est probable qu'elle forme un consensus réel (van Helden et al., 2000).
    Le programme DNADNA-pattern search a pour principe de rechercher des motifs exacts dans des sé-quences choisies. Ces motifs sont apportés par l'utilisateur lors de l'initialisation de l'analyse.

    2.3 Motif Sampler :

    L'analyse matricielle par chaîne de Markov est la base de Motif Sampler. Cette analyse mathé-matique calcule les scores entre 2 mononucléotides, de ce fait plus une séquence a d'occurrence plus le score attribué sera élevé. L'association de ce score avec le logarithme de la probabilité d'association détermine la séquence consensus mathématiquement la plus probable (Thijs et al., 2001).