Un réseau de plateformes spécialisées et complémentaires

L’infrastructure France Génomique rassemble la majorité des plateformes de séquençage  et/ou de bio-informatique  en France :

  • les plateformes nationales du Génoscope et du CNRGH à Évry, dont les capacités de séquençage, génotypage et bio-informatique permettent la réalisation de projets à très grande échelle,
  • les plateformes de séquençage « régionales » ayant chacune leurs expertises et technologies spécifiques ainsi que les outils de bio-informatique ad hoc,
  • les plateformes de bio-informatique, associées ou non à une plateforme de séquençage, sont dédiées au traitement aux analyses primaires et/ou secondaires des données de séquençage. Elles peuvent être également spécialisées dans le développement d'outils innovants de traitement des données. La plupart des plateformes de bio-informatique de France Génomique sont par ailleurs partenaires de l'IFB (Institut Français de Bio-Informatique),
  • les plateformes associées à France Génomique,
  • le volume de données à stocker et à traiter augmentant de façon exponentiel, les partenaires de France Génomique peuvent s’appuyer sur le TGCC- Très Grand centre de Calcul- du CEA.

Survolez le nom de la plateforme sur la carte et cliquez pour accéder à la fiche plateforme.

  • Plateformes nationales de séquençage
  • Plateformes régionales de séquençage
  • Plateformes de bio-informatique
  • Plateformes associées
  • TGCC : Très Grand Centre de Calcul
Plateformes France Génomique
  • Plateformes nationales de séquençage
  • Plateformes régionales de séquençage
  • Plateformes de bio-informatique
  • Plateformes associées
  • TGCC : Très Grand Centre de Calcul

Un parc d'équipements très haut débit et de 3ème génération

FRANCE GENOMIQUE est équipée des technologies les plus performantes et innovantes dédiées au séquençage. Le parc évolue très rapidement avec le très haut débit (NovaSeq 6000) et les appareils de séquençage dit de 3ème génération (technologie molécule unique).

FRANCE GENOMIQUE est ainsi capable de répondre à l’ensemble des demandes de projets de séquençage.

Une infrastructure de calcul haute performance

Le Très Grand Centre de Calcul (TGCC) du CEA est une infrastructure dédiée au calcul haute performance, capable d’héberger des supercalculateurs d’échelle petaflopique et conçue sur la base d’une architecture orientée vers les données. Au sein du TGCC, le CCRT dispose d’une extension qui est dédiée aux utilisateurs du projet FRANCE GÉNOMIQUE.

Cette e-infrastructure de stockage et de traitement des données, mise en œuvre par les équipes CEA/DIF permet aux utilisateurs de FRANCE GÉNOMIQUE de bénéficier d’un espace de stockage moyen terme (échelle : projets scientifiques de plusieurs années) de plusieurs petaoctets, connecté à plusieurs milliers de cœurs de calcul scalaires par une interconnexion à haute performance. Les volumes de données à stocker et à traiter augmentant de façon exponentielle, elle est également conçue pour être évolutive, avec l’objectif de relever demain l’ensemble des défis de la génomique.

Equipements et capacités

La configuration dédiée à FRANCE GENOMIQUE est composée de :

  • 180 nœuds bi processeurs (Intel Sandy Bridge E5-2680, 2.7 GHz, 8 cœurs) avec 128 Go de mémoire par noeud, soit 2.880 cœurs (Bull),
  • 2 systèmes à très grande mémoire Bullx S6410 à 2 To de mémoire,
  • 9 lames hybrides, équipées de GPU nvidia Kepler.

L’hébergement des données est réalisé grâce à la configuration de stockage suivante :

  • un stockage moyen terme présentant un système de fichiers global de 5 Po, dont 2 Po sur disque (système de stockage hiérarchique Lustre + IBM HPSS),
  • un dispositif d’archivage des données initiales.

Expertise et support

Les équipes du CEA/DIF ont développé une expertise et une compétence reconnue de façon internationale aussi bien dans le domaine de la gestion des très grands volumes de données (contribution à des développements Open-source, pilotage de EOFS …) que dans la définition et le management de très grands centres de calculs. Des équipes d’assistance et de support aux utilisateurs sont disponibles pour les aider à tirer le meilleur parti des moyens du centre.

Une équipe de support applicatif dédiée est mise en œuvre par les plateformes nationales (CEA), pour le compte de FRANCE GÉNOMIQUE.

Quelques réalisations

Afin de caractériser un ensemble de 83 familles protéiques sans fonctions connues et regroupant quelques 60.000 séquences, les chercheurs de Genoscope ont mené une campagne de modélisation sur le supercalculateur Titane du CCRT. Cette phase, qui aurait nécessité 280.000 heures de calcul, a pu être exécutée en seulement 70 heures sur 4.000 processeurs. A partir des résultats, les chercheurs ont créé un catalogue de signatures structurales spécifiques pour chacune des familles étudiées. Ce catalogue va apporter aux biochimistes des informations précieuses pour découvrir de nouvelles activités enzymatiques.

Le Genoscope utilise les moyens de calculs du TGCC/CCRT depuis déjà plusieurs années, notamment via les appels à projets DARI. Dans ce cadre, le projet TARA OCÉANS a bénéficié de plus de 3,5 millions d’heures de calculs pour étudier la diversité des organismes marins. Pour ce faire, différents outils d’analyse de séquences ont été portés sur cette infrastructure : BLAST, BLAT, InterProScan & CDDsearch. Des codes spécifiques ont été conçus et déployés afin d’adapter ces outils aux contraintes techniques d’exploitation des machines du TGCC (parallélisation massive par les données, contrôle d’exécution, reprise sur erreur, jobs unitaires courts).

En savoir plus

Site web : www-hpc.cea.fr/, www-ccrt.cea.fr

Responsable de la plateforme : Pierre Leca

CEA DAM-île de France
Bruyères-le-Châtel
91297 Arpajon Cedex

Contact: e-infrastructure@france-genomique.org

Illumina propose du séquençage de haut débit et très haut débit.

Après amplification clonale de fragments d’ADN courts, le séquençage par synthèse (SBS) commence : chaque base émet un signal de fluorescence unique lorsqu’elle est ajoutée au brin en cours de synthèse. La détection du signal à chaque incorporation détermine la séquence d’ADN.

La large gamme d’appareils permet de répondre à tout un panel de besoins tant en terme d’applications ou de rendement.

MiniSeq

Run time
20 hours
Maximum Output
7.5 Gb
Maximum Reads per length
44-55 millions
Maximum Reads length
2X150 bp
Plateforme équipée
MGX

MiSeq

Run time
4-55 hours
Maximum Output
13.2-15 Gb
Maximum Reads per length
40-50 millions
Maximum Reads length
2X300 bp
Plateforme équipée
Institut Curie
Genotoul-Get
CNRGH

NextSeq

Run time
29 hours
Maximum Output
100-120 Gb
Maximum Reads per length
Up to 800 millions
Maximum Reads length
2X150 bp
Plateforme équipée
CNRGH
TGML
UCAGenomiX
IBENS

HiSeq 2500

Run time
< 1-3.5 days
Maximum Output
250-300 Gb
Maximum Reads per length
4 billion
Maximum Reads length
2X125 bp
Plateforme équipée
Institut Curie
CNRGH
MGX

HiSeq 3000

Run time
< 1-3.5 days
Maximum Output
1300-1500 Gb
Maximum Reads per length
5 billion
Maximum Reads length
2X150 bp
Plateforme équipée

Genotoul-Get

HiSeq 4000

Run time
< 1-3.5 days
Maximum Output
1300-1500 Gb
Maximum Reads per length
5 billion
Maximum Reads length
2X150 bp
Plateforme équipée
Genotoul-Get
GenomEast

HiSeqX

Run time
< 3 days
Maximum Output
1.6-1.8 Tb
Maximum Reads per length
5,3-6 billion
Maximum Reads length
2X150 bp
Plateforme équipée
CNRGH

NovaSeq

Run time
Maximum Output
4800-6000 Gb
Maximum Reads per length
32-40 billion
Maximum Reads length
2X250 bp
Plateforme équipée
Institut Curie
Genotoul-Get
CNRGH

Pacific Biosciences propose au travers du système Sequel un séquençage de longue lecture de molécules uniques, en temps réel, sans synthèse et sans amplification, appelé technique de séquençage SMRT pour Single Molecule Real Time sequencing.

Sequel

Chaque Smart Cell peut générer en 1 jour :

Run time
1 jour
Maximum Output
20 Gb
Longueurs de lectures moyennes
jusqu’à 30 kb
Lectures mono-moléculaires
jusqu’à 500 000
Plateforme équipée
Institut Curie
Institut pasteur
Gentyane

Oxford Nanopore Technologies propose une technologie de séquençage de l’ADN et de l’ARN en temps réel sans synthèse et sans amplification, la lecture s’effectuant au travers d’un nanopore soumis à un champ électrique.

Le courant ionique diffère selon la base A, T, G ou C qui obstrue le nanopore. L’identification de la séquence  se fait par la mesure de l’évolution du courant ionique traversant le nanopore.

MinIon

Maximum Output
10-30 Gb per flow cell
Maximum Reads length
kbs to hundred kbs
Plateforme équipée
Genotoul-Get
CNRGH
IBENS
MGX
Genoscope

GridIon

Maximum Output
30 Gb per flow cell
150 Gb for 5 flow cell
Maximum Reads length
kbs to hundred kbs
Plateforme équipée
Genotoul-Get

PromethIon

Maximum Output
158 Gb per flow cell
7.6 Tb for 48 flow cell
Maximum Reads length
kbs to hundred kbs
Plateforme équipée
Genotoul-Get
Genoscope

La société 10x Genomics a développé une machine permettant de résoudre en partie les écueils du séquençage par synthèse (SBS) à lectures courtes: le Chromium.

Ce système utilise une méthode de PCR en émulsion. La création de l’émulsion a pour rôle d’encapsuler dans une goutte de liquide réactionnel quelques molécules d’ADN de haut poids moléculaire dans le cas de séquençage de longue lecture synthétique, ou une cellule dans le cas de séquençage « cellule unique ».

Cette méthode permet de faire des assemblages de lectures courtes (Illumina) via un système de barcoding unique, rendant accessibles des informations à longue distance, ce qui facilite l’analyse du phasage et la caractérisation de structures chromosomiques. Il permet également d’étudier le transcriptome par RNAseq de plusieurs milliers de cellules uniques en parallèle.

Après préparation des librairies, le séquençage s’effectue sur machine Illumina.

Chromium

Plateforme équipée
CNRGH
UCAGenomiX
Institut Curie
Genotoul-Get
GenomEast
TGML
ENS
MGX

Nos expertises

Nos équipements

Soumettre un projet