Gene Cov, analyse QC de la couverture par exon!

Afin de valider facilement la qualité de couverture des régions d’intérêt, nous vous proposons Gene Cov, un module dynamique pour visualiser et d’explorer les régions peu ou mal couvertes.

SeqOne Newsletter 2019

Afin de faciliter l’interprétation des régions mal couvertes dans les données de capture, nous avons développé le module GeneCov.

L’information globale de couverture des gènes est présentée sous la forme de flags résumant :

  • le nombre de gènes bien couverts (covered), c’est à dire dont tous les exons répondent aux critères de qualité de couverture
  • le nombre de gènes présentant un défaut de couverture (warning ou failed) c’est à dire les gènes pour lesquels au moins un exon du gène présente un défaut de qualité de couverture.

Comment ça marche ?

Interface de GeneCov.

Un tableau général permet de visualiser l’ensemble des exons (UTR et CDS) pour chaque gène. Par défaut sont présentés uniquement les gènes avec un défaut de couverte (warning ou failed).

Dans ce tableau, les exons sont représentés en fonction de la qualité de leur couverture (taux et profondeur de couveture).

  • Un exon est annoté warning (avertissement) et affiché en orange si au moins une base présente une profondeur de séquençage inférieure au seuil de warning.
  • Un exon est annoté failed (échec) et affiché en rouge si au moins une base présente une profondeur de séquençage inférieure au seuil d’échec.
  • Si la couverture est au dessus de ces deux seuils, l’exon est annoté passed (validé).

Les seuils minimum et maximum utilisés correspondent aux recommandations de l’Inca (i.e. 30x/100x en génétique constitutionnelle et 300x/500x en génétique somatique).

Une vue détaillée de chaque gène permet d’afficher les métriques de couverture des exons: couverture moyenne, médiane, taux de couverture à 10x, 30x, 50x, 100X, 200x, 300X et 500X. Ces seuils ont été choisis suite à un sondage réalisé auprès des utilisateurs de Seqone.

Pour chaque exon, une fenêtre IGV vous permet de visualiser encore plus précisément la couverture et les reads associés.

La méthode de calcul

La couverture par position est calculée par l’outil Mosdepth et les métriques de couverture affichées par exon correspondent au taux de couverture remplissant le critère qualité correspondant (i.e. nombre de position de l’exon avec une profondeur de séquençage > au seuil considéré / nombre total de position de l’exon). Ce calcul est basé sur les coordonnées des exons Refseq avec un padding de +/-10pb.

Afin de limiter le nombre de faux positifs, lorsqu’un exon Refseq n’est que partiellement couvert par le manifeste utilisateur, cet exon n’est pas pris en compte pour l’annotation par flag et il est affiché en gris. Cependant, si le chevauchement entre les coordonnées refseq et le manifeste est supérieur à 80%, les métriques détaillées de l’exon seront tout de même proposées dans le tableau détaillé par exon.

Export de l’analyse

Le tableau de résultat GenCcov est téléchargeable dans l’onglet ‘Files’.

Conclusion

Le module GeneCov présente de nombreux avantages dont les principaux sont:

  • GeneCov permet de visualiser rapidement les exons mal couverts dans une analyse (pas de diagnostic)
  • GeneCov permet de vérifier, dans le cas d’une absence de variant, la bonne couverture de la région d’intérêt (diagnostic négatif)

Devant le succès de cet outil auprès des premiers utilisateurs, nous prévoyons de continuer à le développer. Les premiers points d’améliorations qui ont été soulevés sont les suivants:

  1. Une métrique de couverture par gène. Nous envisageons de rajouter une métrique générale de couverture pour l’ensemble du gène (moyenne de couverture et taux de couverture pour un seuil donné).
  2. GeneCov Amplicon. La version actuelle de GeneCov a été développée pour la capture. Nous prévoyons de développer une version qui permettra de rendre un résultat de couverture non pas à l’échelle de l’exon mais à l’echelle d’un amplicon. En attendant, nous proposons l’utilisation de la version capture pour les analyses d’amplicons.
  3. Integration dans le rapport clinique des résultats de l’analyse de couverture par gène.

N’hésitez pas à nous contacter pour nous faire part de votre expérience utilisateur et de vos remarques à support@seq.one

Importer vos BAM/VCF du séquenceur Ion Torrent sur SeqOne

SeqOne est désormais compatible avec les fichiers BAM et VCF produits par les séquenceurs utilisant la technologie Ion Torrent. Créez un nouveau projet avec la metadata “ion torrent”, importez vos données et bénéficiez de l’environnement SeqOne pour interpréter vos variants.

SeqOne Newsletter Juin 2019

Suite à de nombreuses sollicitations pour rendre SeqOne compatible avec la technologie ion torrent, nous vous proposons aujourd’hui un module d’importation des fichier BAM et VCF générés par le pipeline d’analyse des séquenceurs Ion Torrent (PGM, S5). Depuis cette MàJ, vous pouvez interpréter vos données Illumina et Ion Torrent sur SeqOne avec la même simplicité!

Il est important de préciser que ce nouveau module, à la différence des autres worksets de SeqOne, ne réalise pas d’étape secondaire de traitement des données (alignement et variant calling). Les variants sont directement extraits du VCF fourni puis annotés et injectés dans SeqOne. De plus, les métriques qualité liées à la couverture sont calculées à partir du fichier BAM.

Importez vos données dans SeqOne en quelques minutes!

Pour importer des données Ion Torrent il faut tout d’abord :

  1. Créer un nouveau projet en indiquant le séquenceur Ion Torrent et en déposant le manifest associé au panel séquencé.
  2. Une fois le projet créé, la modale d’ajout d’échantillon indique qu’il faut déposer les fichiers BAM et VCF dans la boite de téléchargement.
  3. Une fois les données chargées sur SeqOne, il est ensuite possible de lancer une analyse “PGM”, qui va permettre d’importer les variants depuis le VCF dans votre base de données et calculer les métriques qualité.

Quelques limitations …

Aujourd’hui le workset “PGM”, ne permet pas l’analyse conjointe de plusieurs échantillons comme c’est le cas de SomaDuo et GermlineFamilly. Dans une prochaine version du pipeline, nous vous proposerons de pouvoir conjointement analyser dans le Variant Viewer plusieurs échantillons.