Mutualisation des compétences et des équipements français
pour l’analyse génomique et la bio-informatique

Accueil > Domaines d’expertises > Séquençage de novo

Séquençage de novo

Le séquençage de novo consiste à obtenir la séquence d’un organisme pour lequel il n’existe pas une séquence de référence dans les bases de données. Il s’agit donc de l’assemblage de données de séquences d’un génome inconnu. Les outils bioinformatiques actuellement disponibles pour l’assemblage de novo utilisent par exemple le chevauchement des séquences pour la construction d’un nombre limité de contigs de taille la plus large possible. Ce processus est facilité par la production de lectures longues mais aussi de lectures « paired end » et « mate pair ». Les banques dites « paired end » permettent le séquençage de deux extrémités de fragments courts, de taille inférieure à 1kb alors que le séquençage de banques dites « mate pair » produit des lectures par paires des extrémités de fragments d’une taille de plusieurs kilobases.

Les longues lectures ( 750 pb) produites grâce à la technologie Roche 454 pourraient en théorie permettre d’obtenir un taux de couverture suffisant, mais leur coût rend difficile leur emploi, surtout pour les grands génomes eucaryotes. Les lectures courtes en « paired end », obtenues principalement par technologie Illumina, ne suffisent pas à elles seules pour accomplir un projet de novo puisque leur longueur ne permet pas de couvrir des longues régions répétées. En revanche, le séquençage en « mate pair » est très bénéfique pour le de novo, puisque cette approche permet de réduire les zones non couvertes dans le génome et relier les contigs l’un à l’autre pour créer des scaffolds.

La production de banques en « paired end » ou en « mate pair » diffère au niveau de leur préparation.

La préparation de banques pour le séquençage Illumina en « paired end » consiste à fragmenter l’ADN génomique mécaniquement (Covaris, Bioruptor) ou enzymatiquement (tagmentase, technologie Nextera) à des tailles inferieures à 0,8 kb.

JPEG - 24.9 ko
Des adaptateurs sont ensuite ajoutés pour permettre le séquençage à partir des deux extrémités du fragment.

La technologie Nextera utilisant une transposase modifiée, la tagmentase, fragmente l’ADN et ajoute simultanément les adaptateurs de séquençage Illumina (Figure 1). Une étape de sélection de taille de fragments sur gel d’agarose peut permettre de produire une banque avec une taille d’insert précise, ce qui peut être nécessaire pour l’assemblage de certaines régions génomiques.

La préparation de banques en « mate pair » est conçue de façon à permettre le séquençage « en paire » de deux extrémités d’un fragment d’une taille d’origine de plusieurs kilobases. La Figure 2 montre la préparation d’une banque mate pair pour le séquençage Illumina. Depuis début 2013, cette préparation est faite sur la base de la technologie Nextera. L’enzyme tagmentase fragmente l’ADN à des tailles comprises entre 2 et 15 kb et lie un adaptateur de circularisation. On peut sélectionner la taille des fragments par leur migration sur gel d’agarose. L’ADN est ensuite circularisé de façon à rapprocher les extrémités. Au point de jonction, une biotine est ajoutée et les constructions circularisées sont cassées mécaniquement en fragments de 200 à 700pb. Les fragments contenant les extrémités sont ensuite récupérés grâce à une sélection sur billes streptavidine magnétiques qui permet de sélectionner les fragments contenant la biotine. Les fragments ainsi sélectionnés sont ensuite soumis à une construction de banque classique.

JPEG - 29.1 ko

Les plateformes Genoscope, Pasteur, Toulouse et Montpellier mettent à disposition de la communauté scientifique leur savoir faire et compétences pour la prise en charge de projets de séquençage de novo, soumis via le portail France Génomique. Généralement, pour les génomes de grande taille, il est préférable de combiner des banques en « paired end » et en « mate pair ». Pour les génomes microbiens, la réalisation d’une carte optique en complément du séquençage pourra être envisagée afin d’améliorer la qualité de l’assemblage du génome.





















Glossaire
Assemblage : ensemble de séquences approximant le mieux possible la séquence d’un génome
Contig : séquence sans gaps obtenue par chevauchement des séquences courtes générées par le séquenceur
Scaffold : séquence avec gaps constituée par plusieurs contigs ordonnés

JPEG - 22.4 ko


Toutes les versions de cet article : [English] [français]