Mutualisation des compétences et des équipements français
pour l’analyse génomique et la bio-informatique

Accueil > Domaines d’expertises > Séquençage de novo

Séquençage de novo

Le séquençage de novo consiste à obtenir la séquence d’un organisme pour lequel il n’existe pas une séquence de référence dans les bases de données. Il s’agit donc de l’assemblage de données de séquences d’un génome inconnu. Les outils bioinformatiques actuellement disponibles pour l’assemblage de novo utilisent le chevauchement des séquences pour la construction d’un nombre limité de contigs de taille la plus large possible. Ce processus est facilité par la production d’un mélange de lectures courtes et de lectures longues.

Le séquençage « en paire » (paired end) de deux extrémités de fragments courts, de taille inférieure à 1kb, ne suffit pas à lui seul pour accomplir un projet de novo puisque leur longueur ne permet pas de couvrir, par exemple, des longues régions répétées.

L’intégration de données obtenues à partir de banques dites « Mate Pair  » de fragments de plusieurs kilobases permet de réduire les zones non couvertes dans le génome et relier les contigs l’un à l’autre pour créer des « scaffolds ».

Le séquençage à longues lectures (>20kb) proposé par la technologie PacBio (RSII, Sequel) permet, en théorie, d’obtenir un taux de couverture suffisant pour un assemblage de novo, mais son coût élevé rend difficile son emploi pour les grands génomes eucaryotes. L’association avec un séquençage pairé améliore la qualité l’assemblage.

La technologie des lectures longues synthétiques est basée sur un système d’indexage moléculaire de longs fragments (jusqu’à 100kb) permettant de reliées physiquement entre elles des séquences courtes issues de ces grands fragments. Cette stratégie est proposée par la technologie 10X Genomics (GemCode et Chromium) pour facilité l’assemblage.

Pour les génomes microbiens en particulier, la réalisation d’une carte optique en complément du séquençage en paire pourra être envisagée pour un assemblage précis du génome

Les plateformes à contacter pour la prise en charge de projets de séquençage de novo  :
Génoscope, Institut Pasteur, GeT, MGX, Gentyane.

Glossaire
Assemblage : ensemble de séquences approximant le mieux possible la séquence d’un génome
Contig : séquence sans gaps obtenue par chevauchement des séquences courtes générées par le séquenceur
Scaffold : séquence avec gaps constituée par plusieurs contigs ordonnés

JPEG - 22.4 ko