Génomique: études structurales et fonctionnelles de la génomique

Génomique: études structurelles et fonctionnelles de la génomique!

Le terme génome a été introduit par H. Winkler (1920) pour désigner l'ensemble complet des gènes chromosomiques et extra-chromosomiques présents dans un organisme, y compris un virus.

Le terme génomique inventé par TH Roderick (1987) signifie cartographie et séquençage pour analyser la structure et l'organisation des génomes. Mais actuellement, la génomique comprend le séquençage des génomes, la détermination de l’ensemble complet de protéines codées par un organisme et le fonctionnement des gènes et des voies métaboliques dans un organisme.

L’étude de la génomique est divisée en deux domaines:

1. La génomique structurelle traite de la détermination de la séquence complète des génomes ou de l'ensemble complet des protéines produites par un organisme. Les différentes étapes impliquées sont: (i) la construction de cartes génétiques et physiques à haute résolution, (ii) le séquençage du génome et (iii) la détermination de l'ensemble complet de protéines dans un organisme. Cela inclut également la détermination des structures tridimensionnelles des protéines concernées.

2. La génomique fonctionnelle étudie le fonctionnement des gènes et des voies métaboliques, c'est-à-dire les schémas d'expression des gènes chez les organismes.

Séquençage des génomes:

Le séquençage des génomes est un processus hautement sophistiqué et techniquement exigeant. En une fois, un fragment de 500 à 600 pb peut être séquencé. En revanche, les génomes sont extrêmement volumineux, par exemple 4, 2 x 10 6 pour E. coli et 3, 2 x 10 9 pb pour l'homme. Par conséquent, la séquence de genoxne doit être obtenue en un nombre extrêmement grand de petits morceaux, ces morceaux étant ensuite assemblés en une séquence pour le génome.

Les morceaux utilisés pour le séquençage sont générés en divisant l'ADN génomique en fragments en des points aléatoires. En conséquence, la localisation du fragment dans le génome doit être déterminée expérimentalement. Tous les fragments obtenus à partir d'ADN génomique d'un organisme sont clonés dans un vecteur approprié, ce qui génère une bibliothèque génomique de l'organisme. Les deux approches du séquençage des génomes sont les suivantes: (a) séquençage clone par clone et (b) séquençage par pistolet.

(a) séquençage de clone par clone:

Dans cette méthode, les fragments sont d'abord alignés dans des contigs, également appelés séquençage dirigé de contigs BAC. Un contig consiste en une série de clones contenant des fragments d'ADN superposés qui convertissent une région spécifique d'un chromosome, voire le chromosome entier. Ils sont généralement construits à l'aide de BAC (chromosome artificiel bactérien) et de clones de cosmides.

L’approche générale dans la création de contigs consiste à identifier les clones ayant des segments d’ADN adjacents du chromosome, par exemple, marche chromosomique, saut de chromosome, etc. Ainsi, les membres d’un contig doivent contenir la même région chevauchante pour permettre la détermination précise de leur emplacement. -en le contingent. Le but ultime des procédures de cartographie physique est d'obtenir un contig complet pour chaque chromosome du génome.

Les fragments d'ADN clonés d'un contig peuvent être corrélés à des emplacements le long d'un chromosome obtenus par liaison ou cartographie cytogénétique. Ceci peut être réalisé en identifiant les membres du contig qui contiennent des inserts ayant de tels gènes déjà cartographiés par des méthodes de liaison ou cytologiques. Cela permettrait l'alignement des autres membres du contig le long du chromosome. En variante, le RFLP (polymorphisme de longueur des fragments de restriction) et d'autres marqueurs d'ADN peuvent être utilisés pour corréler les emplacements d'une carte de liaison avec les membres d'un contig.

b) Séquençage des armes à feu:

Dans cette approche, les clones sélectionnés de manière aléatoire sont séquencés jusqu'à l'analyse de tous les clones de la bibliothèque génomique. Le logiciel Assembler organise les informations de séquence nucléotidique ainsi obtenues en une séquence génomique. Cette stratégie fonctionne très bien avec les génomes procaryotes qui ont peu d’ADN répétitif. Mais les génomes eucaryotes ont beaucoup de séquences répétées qui créent une confusion dans l'alignement des séquences. Ces problèmes sont résolus en utilisant d’énormes capacités de calcul, des logiciels spécialisés et en évitant les régions riches en ADN répétitif (par exemple, les régions centromériques et télomériques).

Compilation de séquences de génomes:

Les projets de séquençage du génome ont nécessité le développement de technologies à haut débit qui génèrent des données à un rythme très rapide. Cela a nécessité l'utilisation d'ordinateurs pour gérer ce flot d'informations et a donné naissance à une nouvelle discipline appelée bioinformatique. La bioinformatique traite du stockage, de l'analyse, de l'interprétation et de l'utilisation des informations relatives aux systèmes biologiques (activités telles que la compilation de séquences génomiques, l'identification de gènes, l'attribution de fonctions aux gènes identifiés, la préparation de bases de données, etc.).

Afin de s'assurer que la séquence nucléotidique d'un génome est complète et sans erreur, le génome est séquencé plus d'une fois. Une fois que le génome d'un organisme est séquencé, compilé et corrigé (correction des erreurs), l'étape suivante de la génomique, à savoir l'annotation, commence.

Prévision et comptage de gènes:

Une fois la séquence du génome obtenue et sa précision vérifiée, la tâche suivante consiste à rechercher tous les gènes codant pour des protéines. C'est la première étape de l'annotation. L'annotation est un processus qui identifie les gènes, leurs séquences régulatrices et leur (s) fonction (s). Il identifie également les gènes non codant pour les protéines, notamment ceux codant pour l'ARN-r, l'ARN-t et les petits ARN nucléaires. En outre, les éléments génétiques mobiles et les familles de séquences répétitives sont identifiés et caractérisés.

La localisation des gènes codant pour les protéines se fait en inspectant la séquence, en utilisant un logiciel informatique ou à l'œil nu. Les gènes codant pour les protéines sont identifiés par des cadres de lecture ouverts (ORF). Un ORF a une série de codons qui spécifient une séquence d’acides aminés, elle commence par un codon d’initiation (généralement ATG) et se termine par un codon de terminaison (TAA) TAG ou TGA). Les ORF sont généralement identifiés par un ordinateur et constituent une méthode efficace pour les génomes bactériens.

Les gènes des génomes eucaryotes (y compris le génome humain) présentent plusieurs caractéristiques qui rendent la recherche directe moins utile. Premièrement, la plupart des gènes eucaryotes ont un motif d'exons (régions codantes) alterné avec des introns (régions non codantes). En conséquence, ces gènes ne sont pas organisés en ORF continus. Deuxièmement, les gènes chez l'homme et d'autres eucaryotes sont souvent largement espacés, ce qui augmente les chances de trouver de faux gènes. Mais les nouvelles versions du logiciel de numérisation ORF pour les génomes eucaryotes rendent la numérisation plus efficace.

Une fois la séquence génomique analysée et les gènes prédits, chaque gène est examiné un par un pour identifier la fonction du produit du gène codé et est classé en groupes fonctionnels. Cette analyse implique plusieurs programmes. Par exemple, on peut rechercher dans des bases de données telles que la banque de gènes, des gènes similaires isolés d’autres organismes. Les ORF prévus peuvent être comparés à ceux de gènes bactériens connus et bien caractérisés. Enfin, on peut rechercher de telles séquences de nucléotides pour des motifs de fonction qui codent pour des domaines protéiques impliqués avec des fonctions spécifiques.

Ainsi, l'objectif de l'analyse génomique est de déterminer les fonctions de tous les gènes et de comprendre comment ces gènes interagissent dans le développement et la fonction de l'organisme.

Génomique fonctionnelle:

Il peut être défini comme la détermination de la fonction de tous les produits géniques codés par le génome d'un organisme. Il comprend les paramètres suivants: (1) quand et où des gènes particuliers sont exprimés (profil d’expression), (ii) les fonctions de gènes spécifiques en mutant sélectivement les gènes souhaités, et (iii) les interactions qui ont lieu entre protéines et entre protéines et d'autres molécules. La génomique fonctionnelle tente d'examiner tous les gènes présents dans le génome en une fois. Par conséquent, les techniques utilisées en génomique fonctionnelle permettent une analyse à haut débit permettant une accumulation de données très rapide.

(i) Profilage d'expression:

Le profil d'expression est la détermination des types de cellules / tissus dans lesquels un gène est exprimé ainsi que lors de l'expression du gène. La génomique fonctionnelle a pour objectif d'étudier le schéma d'expression de tous les gènes présents dans le génome en même temps; c'est ce qu'on appelle le profil d'expression global. Cela peut être fait soit au niveau de l'ARN ou au niveau de la protéine. Au niveau de l'ARN, on pourrait utiliser un échantillonnage à séquence directe ou des matrices d'ADN.

Au niveau des protéines, on peut utiliser une électrophorèse bidimensionnelle, suivie d'une spectrométrie de masse ou de matrices de protéines. Le profil d'expression global fournit des informations sur des phénomènes biologiques complexes, notamment la différenciation, la réponse au stress, l'apparition d'une maladie, etc. Il fournit également une nouvelle façon de définir les phénotypes cellulaires.

ii) Détermination de la fonction des gènes:

Un aspect important de la génomique fonctionnelle consiste à déterminer la fonction de gènes / séquences anonymes spécifiques. Un moyen efficace consiste à cloner le gène, à le muter in vitro, à réintroduire le gène muté dans l'organisme hôte et à analyser son effet. Le génome sous des bibliothèques de mutants a été développé dans plusieurs organismes modèles comme les bactéries, les levures, les plantes et les mammifères. Ceci est parfois appelé génomique mutationnelle. Une telle bibliothèque peut être générée de l’une des trois manières suivantes:

(a) Mutation systématique de chaque gène, un à la fois, générant une banque de souches mutantes spécifiques.

(b) Dans l'approche aléatoire, les gènes sont mutés indifféremment, des mutations individuelles sont ensuite caractérisées et cataloguées.

(c) Dans cette approche, un groupe de techniques est utilisé pour empêcher l'expression de groupes spécifiques de gènes.

(iii) Interactions protéiniques:

La fonction des gènes reflète le comportement des protéines codées par celles-ci. Ce comportement peut être vu comme une série d'interactions entre diverses protéines, et entre des protéines et d'autres molécules. Les interactions protéiques sont étudiées à l'aide de techniques à haut débit. Un certain nombre de méthodes de cartographie d'interaction de protéines basées sur des bibliothèques permettent de cribler des centaines ou des milliers de protéines à la fois. Ces interactions peuvent être testées in vitro ou in vivo. Les données sur les interactions protéiques provenant de diverses sources sont assimilées dans des bases de données.