Mobile element insertion (MEI) detection for NGS based clinical diagnostics

A growing number of scientific articles describe the pathogenic role of MEI’s, bringing a renewed focus on their importance in clinical diagnosis. Although NGS makes it possible to capture these types of variants, identifying them remains a challenge requiring complex bioinformatic pipelines. This document describes the characteristics of MEIs’ and challenges to be addressed in their identification. It then outlines a new approach that has been developed by SeqOne, to identify them in clinical routine environments.

MEIs detection can significantly improve clinical diagnostic 

Mobile element insertions are genomic variations that can exert significant influence on the genome and its biological function. They consist of endogenous DNA sequences that can copy and paste themselves in various genomic locations. In doing so they can disrupt important biological mechanisms leading to disease. As more links between MEI’s and pathologies are discovered, they are the subject of an increasing amount of studies. However, the difficulty in detecting them using existing bioinformatic solutions has limited their deployment in clinical routine environments. In consequence, it is likely that their influence and pathogenic associations are underestimated. SeqOne has developed a pipeline designed to detect MEIs and provide usable feedback on the impact of this type of genomic variant on the diagnosis.

MEIs mechanism and detection challenges specificity

Mobile element insertions are genomic structural variations produced through retrotransposition. They are defined as genetic elements that can move using a genetic “copy – paste” mechanism to different genomic locations disrupting genetic function as they do so. This process is controlled by a reverse transcription mechanism involving RNA intermediates (Figure 1). Several types of MEIs exist, including LINE-1 (or L1), SVA, and Alu. Approximately 500,000 Long INterspersed Element-1 (LINE-1 or L1) variants and 1.1 million Alu elements, comprising respectively 17% and 11% of a human genomic sequence [1] have been identified. SINE-VNTR- ALU (SVA) elements are rarer and constitute approximately 0.2% of the human genomic sequences [1].

Initially, MEIs were detected using CGH array, Southern blot, Sanger sequencing, or qPCR. These techniques all have limitations in detecting these types of structural variations [1]. For instance, Sanger sequencing is limited in its ability to detect larger insertions (L1 elements) [1]. Next-Generation Sequencing (NGS) opens new perspectives in detecting this type of variant. However, MEIs detection requires specific bioinformatic pipeline developments. Indeed, as structural variants, they are responsible for larger genomic rearrangements which cause read soft-clipping during the mapping. The other difficulty in identifying MEIs is that they involve the same genomic sequences inserted in different locations on the genome which lead to the mapping of reads in different locations and result in discordant read mapping across the genome [2]. Moreover, the presence of numerous copies in the genome can introduce mapping artifacts and lead to false-positives making it important to implement numerous filtering steps [2] (Figure 1).

Figure 1: Retrotransposition mechanism and NGS detection specificity

MEI impact on patient’s health 

By their ability to be actively copied and pasted in different genomic positions, mobile elements can be inserted into the genome, creating dysregulations that lead to genetic disorders. Up to now, more than 120 pathogenic variants caused by retrotransposon activity have been documented. Among them 76 were caused by Alu, 30 were caused by L1 and 13 by SVA [3]. They were involved in numerous diseases including hemophilia (A & B), breast cancer, cystic fibrosis, and Apert syndrome (Table 1). Hemophilia A (1/5000 male birth) and B (1/30000 birth) are rare X-linked disorders caused by mutations in FVIII and FIX genes [4]. In severe forms, internal deep bleeding can lead to long-term disability, especially on joints, including muscle atrophy, pseudo-tumors, impaired mobility, and chronic pain [4]. Cystic fibrosis is the most common genetic disorder among Caucasian children (prevalence of between 1/8000 and 1/10000 in Europe). It is characterized by the production of thick mucus that causes severe damages in the lung and digestive system that can have fatal issues. It has been found that impairments in CFTR genes are associated with this disease [5]. Apert syndrome is a rare genetic disease characterized by skeletal abnormalities and associated with impairment of the FGFR2 gene [6]. Recently, 37 unique, pathogenic RE insertions were identified in 10 cancer risk genes [1]. Moreover, in a recent study, Rebecca I. et al have analyzed 89 874 clinical exomes and have reported 14 MEIs classified as pathogenic or likely pathogenic according to ACMG [7]. In the same study, it is estimated that MEIs assessment and finding could increase diagnostic yield by 0.15% [7]. Overall it is estimated that MEIs are responsible for disease in 0.04% to 0.1% of individuals with suspicion of genetic disease [7]. All of these studies show that MEIs are involved in numerous heritable pathologies. The following table recapitulates some of them found in the literature (Table 1):

Table 1: Examples of genes in which can be found MEIs  

The SeqOne approach for detecting MEIs

SeqOne developed a new methodology for the detection of MEI’s, that is currently available in our germline pipeline. This pipeline is composed of three main steps containing several filtering and controlling sub-steps.  

  • STEP-I: MEI detection

The aim of this step is to detect all candidate breakpoints of possible MEI and the related sequence consensus. This step includes three substeps : 

  1. Retrieving of soft-clipped reads. The soft clipped sequence needs to have a minimum length of 5pb, a cut off above which we consider them of interest for the further steps. 
  2. Clustering by genomic position. Only soft clipped reads of sufficient quality are taken into account for this step. The quality is calculated based on the quality of each base of the read and the read length. For a cluster to be selected, it needs to be composed of at least 10 good quality soft clipped reads (default value). This step also includes a filter on the maximal number of neighbors breakpoints for a given cluster. This filter is important as the more soft-clipped reads occur near a position, the more background noise can be observed, increasing the difficulty in analyzing the region.
  3. Retrieving of the consensus sequences. The consensus sequences are selected on their length, the number of mismatches, and the read mean quality. Selecting regions that correspond to our quality in this way limits false positives. Moreover, regions with a high number of mismatches are more likely to be false positives. The quality of PolyA tail present in MEIs is not taken into account at this step since it has inherently low-quality scores and can lead to false negatives. At this point, consensus sequences are identified with the following information: chromosome containing the breakpoint, position of the breakpoint, side of the soft-clipped sequence, the allele of reference, coverage at the breakpoint, consensus sequence and quality score. 
  • STEP-II: MEI identification

The aim of this step is to align the retrieved consensus sequences (cs) to a database of transposable elements (Dfam) and return the breakpoints that have the best alignment so that cs are aligned with nhmmer. To select the best alignments the following filters were applied: evalue < 0.01 and alignment score > 30. 

  • STEP-III: MEI annotation 

In this step, several files are taken in order to do the MEI annotation: Dfam database file (.hmm), aligned cs file (.txt), refGene (.bed), refSeq canonical transcript (.tsv) and reference genome file (.fa). It returns a VCF file containing selected and annotated MEIs inside coding regions. It is finally merged with the VCF file containing other types of variants. 

The pipeline detects all previously described MEIs (L1, SVA, and Alu). 

The following diagram depicts the workflow developed by SeqOne: 

Figure 2: SeqOne workflow for the detection of MEI

Our workflow detected four Alu validated controls in gene panels validation data, presented in the following table :

Table 2: Alu validated controls detected with SeqOne pipeline

Conclusion

This document outlines the importance of detecting mobile element insertions (MEIs) and describes a new SeqOne functionality to identify them. This new approach accurately calls several types of MEIs events, LINE-1 (or L1), SVA, and Alu, and preliminary results demonstrate the accuracy assessment of four validated MEIs. A growing number of scientific studies show that MEIs are involved in diseases including hemophilia, breast cancer, and cystic fibrosis. However, due to the technical limitations and necessity of specific bioinformatics pipelines, the involvement of MEIs in pathology is currently underestimated. This new approach, included in our pipelines, enriches our existing detection capabilities to provide a more accurate view of pathogenic variants and improve clinicians’ diagnosis.

References and Credits

We thank the French medical laboratory Cerba for providing some of the control samples mentioned in this article, and for their contribution in improving the performances of AluMEI in the early stages of its development.

1. Qian Y, Mancini-DiNardo D, Judkins T, Cox HC, Brown K, Elias M, et al. Identification of pathogenic retrotransposon insertions in cancer predisposition genes. Cancer Genet. 2017;216–217:159–69.

2. Ewing AD. Transposable element detection from whole genome sequence data. Mob DNA. 2015;6:24.

3. Hancks DC, Kazazian HH. Roles for retrotransposon insertions in human disease. Mob DNA. 2016;7:9.

4. Castaman G, Matino D. Hemophilia A and B: molecular and clinical similarities and differences. Haematologica. 2019;104:1702–9.

5. Mall MA, Hartl D. CFTR: cystic fibrosis and beyond. Eur Respir J. 2014;44:1042–54.

6. Azoury SC, Reddy S, Shukla V, Deng C-X. Fibroblast Growth Factor Receptor 2 (FGFR2) Mutation Related Syndromic Craniosynostosis. Int J Biol Sci. 2017;13:1479–88.

7. Torene RI, Galens K, Liu S, Arvai K, Borroto C, Scuffins J, et al. Mobile element insertion detection in 89,874 clinical exomes. Genet Med Off J Am Coll Med Genet. 2020.

Analysez vos données d’RNA-seq ciblé

Nouveau pipeline pour l’analyse de données RNA-Seq ciblé (capture) avec recherche des gènes de fusion, mutations et analyse du splicing.

Newsletter Janvier 2020
Logo du workset
SomaRNA™

Contexte

Gènes hybrides formés de deux gènes précédemment indépendants, les gènes de fusion résultent de réarrangements chromosomiques tels que les translocations, les délétions ou encore les inversions.

Les transcrits résultants de ces réarrangements sont impliqués dans divers types de cancers [1], étant plus susceptibles de conduire à la production de protéines anormales. Ainsi, la plupart des gènes de fusion identifiés à ce jour sont associés à des cancers hématologiques, sarcomes mais aussi carcinomes [2]. Les identifier est donc un enjeu primordial dans l’identification de cibles thérapeutiques.

Par exemple, les fusions de gènes codant pour des tyrosines kinases représentent une classe importante d’oncogènes associés aux tumeurs hématologiques et solides. Ils sont produits par des translocations et d’autres réarrangements chromosomiques d’un sous-ensemble de gènes de tyrosines kinases.  Il a été montré que les inhibiteurs de tyrosine kinase étaient particulièrement efficaces dans le traitement de ces types de cancers [3].

Nouveautés

Nous avons créé SomaRNA, un outil dédié à l’analyse de données de RNA-seq issues d’approches ciblées de type capture, permettant entre autres d’identifier et visualiser les événements de fusions de gènes à l’échelle du transcrit, tout en détectant SNV et indels.

Ce dernier est disponible au lancement d’une analyse si le type de données du projet a été défini comme ARN à sa création.

Comment ça marche ?

La détection et la visualisation des fusions par SomaRNA repose sur la combinaison de deux outils :

  • STAR, un aligneur de données RNA-seq conçu pour l’alignement de séquences non contiguës directement sur le génome de référence [4] ,
  • Arriba, qui détecte les fusions de gènes à partir d’alignements chimériques [5].

A partir des alignements chimériques issues de STAR, Arriba applique un ensemble de filtres pour éliminer les artéfacts connus et les transcrits observés en contexte non-pathologique. Il associe à chaque événement de fusion potentiel un score de confiance, lequel dépend de multiples critères :

  • le nombre de séquences supportant la fusion,
  • l’équilibre entre les split reads et les paires de reads discordantes,
  • la distance entre les breakpoints, leur position (intragénique ou non),
  • le type d’événement.

Le résultat final est une liste de prédictions de fusions, que l’interface propose sous la forme de différents onglets :

Informations générales sur la fusion, telles que le nombre de spanning reads couvrant la fusion, sa nature (translocation, duplication, inversion or délétion) et son impact sur le cadre de lecture.

Informations relatives aux partenaires, avec les symboles des gènes impliqués dans l’événement de fusion et, pour chacun, les exons impliqués à l’échelle du transcrit ainsi que les coordonnées génomiques du point de fusion.

Représentations graphiques de la fusion, aussi bien à l’échelle du gène et de l’exon, que de la protéine. 

Un premier onglet présente la structure de la fusion et les partenaires impliqués, la couverture des exons couverts par le manifeste de l’analyse étant représentée sous la forme d’un diagramme sur fond jaune :

Les domaines protéiques conservés à l’issue de la fusion  sont mis en évidence dans une seconde vue, pour permettre l’identification de cibles thérapeutiques potentielles :

Autres fonctionnalités

SomaRNA contient une étape de détection des variants à l’issue de l’alignement de STAR, via le variant caller Freebayes.

A l’instar des worksets SomaVar et GermlineVar, ces variants sont ensuite annotés et rendus disponibles dans un onglet Variants.

A venir 

Cette première itération du workset ARN sera bientôt complémentée par des modules dédiés à l’expression ainsi qu’à la détection des sites d’épissage alternatifs.

Durant la phase beta de cette fonctionnalité, n’hésitez-pas à nous faire part de vos retours par mail à l’adresse support@seq.one.

Biblioraphie

[1] Yoshihara, K., Wang, Q., Torres-Garcia, W., Zheng, S., Vegesna, R., Kim, H., and Verhaak, R.G.W. (2015). The landscape and therapeutic relevance of cancer-associated transcript fusions. Oncogene 34, 4845–4854.

[2] Mitelman, F., Johansson, B., and Mertens, F. (2007). The impact of translocations and gene fusions on cancer causation. Nat. Rev. Cancer 7, 233–245.

[3] Medves, S., and Demoulin, J.-B. (2012). Tyrosine kinase gene fusions in cancer: translating mechanisms into targeted therapies. J. Cell. Mol. Med. 16, 237–248.

[4] Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29:15–21

[5] https://github.com/suhrig/arriba

Améliorations bionformatiques du pipeline SomaVar amplicon

A travers une meilleure gestion des séquences chevauchantes et des amorces d’amplification, nous avons amélioré le calcul des fréquences alléliques lors de l’analyse de données amplicons avec SomaVar.

Newsletter Janvier 2020

Nous avons retravaillé le pipeline SomaVar amplicon afin d’améliorer ses performances sur le calcul de la fréquence allélique des variants (VAF). Ces modifications n’affectent pas la capacité de détection du pipeline (variant calling), mais permettent de corriger le calcul de la VAF dans les régions :

  • de chevauchement entre les séquences paired-end,
  • couvertes par des séquences correpondant en partie aux amorces de PCR d’un ou plusieurs amplicons.

Nouveautés

Gestion des séquences chevauchantes : chaque amplicon correspondant à un seul produit de PCR, les portions chevauchantes entre les R1 & R2 à l’issue de séquençage paired-end correspondent à la même information. Afin de corriger l’augmentation artificielle de la couverture locale qui résulte de ces situations de chevauchement, notre pipeline inclut désormais une étape de sélection d’une des séquences sur la base de sa qualité.

Gestion des amorces d’amplification : un bon design implique souvent que les amplicons se chevauchent et, potentiellement, que cette région de chevauchement couvre une des amorces d’amplification si celle-ci n’a pas été éliminée des séquences. Celle-ci peut donc résulter en un faux positif, si une mutation est présente dans la séquence des amorces, ou diluer la fréquence d’un variant.

Nous proposons désormais une étape facultative de soft-clipping sur une longueur fixe de 20 paires de bases à chaque extrémité des séquences, éliminant ainsi ces portions de séquences des étapes bioinformatiques ultérieures (alignement, variant calling).

Retrocompatibilité

Une étape de soft-clipping de 20 paires de bases était prévue par défaut dans la version précédente du workset SomaVar. Cependant, pour tous les projets de panels amplicons déjà créés, l’effet n’est pas rétroactif et toute nouvelle analyse lancée le sera sans soft-clipping des amorces.

L’élimination des séquences des amorces étant prévue dans certains kits, notamment les kits Ampliseq (Illumina), cette étape de soft-clipping est devenue facultative et paramétrable à la création du projet.

Nouvel outil d’analyse des CNV en contexte somatique

Nouveau pipeline et nouvelle interface d’interprétation pour l’analyse des CNV dans les panels de capture somatique. Le pipeline à été testé et validé avec des échantillons FFPE !

Newsletter Janvier 2020
Logo du workset SomaCNVCapture™

Un workset dédié à l’analyse de CNV à partir de données de panels de gènes en contexte somatique fait son entrée sur SeqOne. Si la bioinformatique sous-jacente est similaire au pipeline CNVCapture déjà disponible pour l’analyse de variants constitutionnels, ce nouvel outil présente quelques spécificités qui vont être détaillées dans les paragraphes suivants.

Nouveautés

Des paramètres adaptés au contexte somatique. A l’instar du workset CNVPanel, la procédure de sélection des contrôles au sein de la cohorte s’appuie sur la combinaison de scores de corrélation, suivie de l’élimination des outliers.

Cependant, en raison de la complexité des échantillons tumoraux, les seuils utilisés pour définir ces échantillons contrôles au sein de la cohorte sont plus permissifs, autorisant un score de corrélation plus faible (à 80%) et un degré de variation inter-individuelle plus élevé (maximum 30 %).

Une nouvelle visualisation à l’échelle du gène. La résolution des CNV est ici donnée à l’échelle du gène, représenté sous la forme d’un bloc dans lequel :

  • La couleur est donnée en fonction du statut du gène (gain ou délétion).
  • Le Z-score ayant été utilisé pour déterminer ce statut y est reporté ainsi que le nombre moyen de copies ou le génotype observé, selon que le variant est un gain ou une perte de copie(s).
  • Le pourcentage de régions du gène affectées par la variation, ou chunk ratio, est visible sous la forme d’un pourcentage (voir ci-dessous).
Détail du bloc représentatif d’un gène

Comment ça fonctionne ?

Le statut du gène (amplification, délétion ou normal) est là-encore défini par le biais de la région, ou chunk, présentant le Z-score le plus élevé en valeur absolue. C’est ce Z-score qui déterminera le Z-score associé au gène.

Une nouvelle statistique calcule le nombre de chunks à l’échelle du gène partageant le même statut que le gène dans son ensemble, et le seuil de ce ratio peut être modulé par l’utilisateur au moyen d’un filtre à partir de l’interface.

Interface de visualisation des CNV et filtres associés

Utilisation

Le workset SomaCNVCapture est disponible lors du lancement d’une nouvelle analyse, à partir d’un projet de capture de panel de gènes.

Il nécessite l’analyse conjointe d’un minimum de 8 échantillons.

Cette fonctionnalité n’est pour l’instant pas disponible pour les données amplicons.

Durant la phase beta de cette fonctionnalité, n’hésitez-pas à nous faire part de vos retours à l’adresse support@seq.one.

Annotation des variants multinucléotidiques (MNV)

SeqOne identifie les variants multi-nucléotidiques (MNV), une classe de mutations se traduisant par une succession de substitutions au sein d’un même haplotype. Jusqu’ici décomposés en multiples variants d’un seul nucleotide, ces variants seront désormais correctement annotés lors qu’ils affectent un même codon.
Cette implémentation concerne aussi bien les pipelines GermlineVar que SomaVar.

Newsletter Janvier 2020

Contexte

Les variants multi-nucléotidiques, ou MNV (pour multinucleotide variants) se définissent comme une succession de SNV (single nucleotide variant) au sein d’un même haplotype, et sont une classe de variation génétique biologiquement importante, bien que leur impact fonctionnel et leur mutagénèse soit encore largement inexplorés. 

Cela est en partie dû au fait que la plupart des pipelines d’analyses bioinformatiques utilisées pour déterminer l’impact fonctionnel des variations génétiques décomposent ces variants multiples et les annotent en tant que SNV distincts [1].

Cependant, lorsque deux variants constituant un MNV affectent le même codon, ce qui est fréquemment le cas, les interpréter indépendemment peut conduire à une prédiction erronée de leur impact au niveau de la protéine codée, et un mauvais diagnostic [2].

Exemple d’un MNV dont l’effet prédit diffère de celui des SNV qui le composent.

Nouveautés

SeqOne tire désormais partie du nombre grandissant de MNV identifiés et annotés dans les bases de données, en particulier celle de l’Exome Aggregation Consortium (ExAc). On y dénombre à ce jour plus de 5000 MNV, dont certains sont situés dans des gènes associés à des maladies [3].

Comment ça marche ?

L’étape clé dans la détection et l’annotation de ces variants est la normalisation qui survient à l’issue de l’étape de variant calling. Au cours de celle-ci, chaque variant est normalement réduit à sa représentation la plus simple dans le fichier VCF, afin d’obtenir une liste de mutations à injecter dans des bases de données externes d’annotation.

Désormais, les MNV potentiels sont identifés sur la base de leur position génomique dès l’étape de normalisation. Le choix de l’annotation pour ces variants dépend de leur effet prédit sur la protéine.

MNV codants. Lorsque plusieurs variants affectent le même codon (MNV codant), SeqOne compare les prédiction d’effet du variant multiple et de chaque variant individuel suite à l’étape d’annotation des variants. Si cet effet diffère, le MNV est reporté dans le tableau de variants, sinon le choix de la forme (simple, mutiple) conservée dépend de l’occurence du variant dans la base de données ClinVar.

MNV non-codants. C’est la version décomposée de ces variants et leurs annotations respectives qui sont proposées dans l’interface SeqOne.

L’information du potentiel MNV auquel ces variants appartiennent est tout de même conservée dans le fchier VCF annoté généré par notre pipeline, lequel peut être téléchagé depuis les résultats de l’analyse.

Bibliographie

[1] Sandmann, S., de Graaf, A.O., Karimi, M., van der Reijden, B.A., Hellström-Lindberg, E., Jansen, J.H., and Dugas, M. (2017). Evaluating Variant Calling Tools for Non-Matched Next-Generation Sequencing Data. Scientific Reports 7, 1–12.

[2] Wang, Q., Pierce-Hoffman, E., Cummings, B.B., Karczewski, K.J., Alföldi, J., Francioli, L.C., Gauthier, L.D., Hill, A.J., O’Donnell-Luria, A.H., Genome Aggregation Database (gnomAD) Production Team, G.A.D. (gnomAD) C., et al. (2019). Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes. BioRxiv 573378.

[3] Lek, M., Karczewski, K.J., Minikel, E.V., Samocha, K.E., Banks, E., Fennell, T., O’Donnell-Luria, A.H., Ware, J.S., Hill, A.J., Cummings, B.B., et al. (2016). Analysis of protein-coding genetic variation in 60,706 humans. Nature 536, 285–291.

Panel in silico: de la gestion des manifestes et transcrits

Filtrez sur le panel in-silico ainsi que la liste de transcrits de votre choix avant même de visualiser vos variants et votre analyse de couverture.

Newsletter Janvier 2020

Nouveautés

Le mode de gestion des manifestes et des transcrits utilisés pour filtrer vos données a été revu et amélioré. Ce filtre s’applique aussi bien à votre tableau de variants qu’au module de visualisation de la couverture Gene coverage, vous permettant désormais de limiter l’affichage des résultats à vos seules régions génomiques et listes de transcrits d’intérêt.

Comment ça marche ?

A partir du rapport qualité de chaque analyse, un menu déroulant vous permet de sélectionner un panel in silico et/ou une liste de transcrits de référence parmi les fichiers importés sur votre entité, et ce avant même d’accéder au tableau de variants ou à l’onglet Gene coverage.

Interface de sélection d’un panel in silico et d’une liste de transcrits

Rappel : vous pouvez importer vos manifestes et listes de transcrits sous forme de fichier tabulaires depuis vos paramètres utilisateurs.

Utilisation

Ce système vous permet de restreindre la recherche de variants à différents groupes de gènes ou de transcrits en fonction de votre question biologique : recherche de facteurs de risque, de variants diagnostiques, ou de variants de pharmacogénomique.

En plus de vous faire gagner en précision et en rapidité, l’application de ces filtres en amont de l’interprétation permet de limiter les risques de conflit éthique et moral lié aux découvertes fortuites dans le cadre du diagnostic.

A French start-up harnesses the power of the latest generation genomic sequencers to dramatically increase COVID 19 testing capacity

SeqOne High Volume Covid 19

SeqOne Genomics, a start-up specialized in genomic analysis software, is partnering with leading medical testing labs to develop an approach that delivers up to 100 times more COVID 19 tests per machine thanks to NGS sequencers.

Montpellier: May 1st, 2020: Epidemiological experts agree that the key to successfully managing the COVID 19 pandemic is a robust national testing capability that can dispense hundreds of thousands of tests per day.  Yet governments have struggled to ramp their testing capabilities to meet this vital objective. The cause of the testing shortfall is that the most reliable tests involve identifying the genetic signature of the virus using a mature qPCR technology that can only process a small number of tests per machine.  Clearly, satisfying the need for high volume national COVID-19 testing will require innovative new approaches that can scale to deliver substantially more tests than existing qPCR technology.  

SeqOne Genomics, a French start-up specialized in genomic analysis software, is developing a new approach to testing that could achieve this objective.  The approach takes advantage of the power of the latest generation of high throughput NGS sequencers to deliver tens of thousands of tests at a time.  To harness the power of these new machines, the company has developed software that incorporates concepts seen in academic publications in areas including multiplexing and extraction-free sequencing to allow large numbers of patient samples to be pooled together for analysis while keeping track of each individual’s results.  “Using NGS sequencers made sense both because of their power and availability,” said Nicolas Philippe, CEO of SeqOne Genomics. “We focused on developing a software solution that made it possible to use them to deliver high volumes of tests in a clinical environment” 

The concept has been successfully tested in the lab showing accuracy comparable to qPCR tests.  The approach offers the added benefit of providing information on an infected person’s viral load which can help optimize treatment strategies and better understand the disease from an epidemiological perspective.  Supported by the French government, SeqOne is now working with some of France’s largest medical testing labs and computing infrastructure providers to implement the concept nationwide.   

With implementation in France underway, SeqOne is now turning its sights on other countries and markets that might benefit from a cost-effective way to increase their testing capabilities.

About SeqOne: SeqOne develops state-of-the-art genomics analysis tools for clinical applications in the fields of cancer and rare disease. Its flagship product, SeqOne | Platform is a cloud-based end-to-end solution that dramatically reduces the turnaround time and cost required to deliver accurate genetic analyses for use in mainstream medicine.  In the short time since it has launched its platform secured a wide user base in a diver range of healthcare establishments including hospitals and private sector testing labs. It has won numerous awards including the prestigious iLab award and the ARC cancer foundation’s Hélène Stark prize. SeqOne is supported by the SATT AxLR and the Montpellier BIC incubator. 

Tests du Covid-19 : une startup française s’allie avec les leaders industriels pour contribuer à l’augmentation massive de la capacité nationale de dépistage

Un dépistage massif et précis est l’une des armes incontournables dans la lutte contre le Covid-19. Tous les experts s’accordent en effet sur l’urgence et l’absolue nécessité d’augmenter notre capacité à dépister  afin de gérer efficacement le déconfinement et d’enrayer la propagation du virus.

L’enjeu : dépasser les 100 000 tests par jour

Le gouvernement français s’est fixé l’objectif ambitieux de réaliser 100 000 tests par jour d’ici la mi-mai (contre quelques milliers au début de la crise) afin d’enclencher et d’accompagner le processus de déconfinement de la population. Les tests les plus fiables utilisent la technologie qPCR qui permet d’identifier la présence du virus mais qui ne permet de tester qu’un faible nombre de patients par machine. L’utilisation de technologies plus puissantes et disruptives pourra contribuer à cette augmentation massive et rapide des capacités.

 Associer big-data et séquençage NGS pour accroitre les capacités de dépistage

La société SeqOne, startup française DeepTech, s’est entièrement mobilisée sur ce front et propose une nouvelle solution qui exploite les capacités de la dernière génération d’appareils d’analyse génomique à très haut débit. Cette nouvelle génération de séquençage (Next-Generation Sequencing ou NGS) alliée à une technique innovante de multiplexage permet désormais  d’accroitre significativement les capacités de dépistage en simultané et par machine.  La qualité des tests sera elle aussi améliorée grâce à la mesure de la charge virale. Elle  pourrait permettre ainsi un suivi épidémiologique national, enjeu majeur pour la gestion de la crise à court terme, du déconfinement et des phases qui suivront à plus long terme.

Une collaboration startup, industrie et recherche académique pour  valider cette solution et mettre en place les conditions de son déploiement au niveau national

La recherche dans son ensemble se mobilise pleinement depuis l’apparition du virus. La coopération entre la recherche publique et privée doit permettre d’élaborer des solutions afin d’accompagner le déconfinement et d’enrayer durablement l’épidémie.  

La solution a passé avec succès la phase de validation technique, tant en quantité (efficacité du multiplexage) qu’en qualité (détection précise de charge virale).  SeqOne travaille désormais à industrialiser ces tests afin de les rendre disponibles au niveau national en partenariat avec les principaux laboratoires de test médicaux et des pouvoirs publics et avec le soutien de la SATT AxLR.  Compte tenu de l’enjeu et du volume de données engendrées, la société a noué un partenariat avec OVHcloud garantissant la souveraineté des données grâce à sa solution HDS (Hébergement de Données de Santé). 

Cette avancée illustre la capacité d’innovation nationale et nous donne l’espoir d’une nouvelle solution qui pourrait être opérationnelle rapidement.

A propos de SeqOne :  SeqOne, société de bio-informatique basée à Montpellier, développe des outils d’analyse génomique de pointe pour des applications cliniques dans les domaines du cancer et des maladies rares. Son produit phare, SeqOne | Platform, est une solution de bout en bout basée sur le Cloud qui réduit considérablement les délais et les coûts nécessaires pour fournir des analyses génétiques précises destinées à la médecine traditionnelle.  En peu de temps depuis le lancement de sa plate-forme, elle a sécurisé une large base d’utilisateurs dans un large éventail d’établissements de soins de santé, y compris des hôpitaux et des laboratoires de tests du secteur privé. Elle a remporté de nombreux prix, dont le prestigieux prix iLab et le prix Hélène Stark de l’ARC Cancer Foundation. SeqOne est soutenu par la SATT AxLR, l’incubateur BIC de Montpellier Méditerranée Métropole, l’Université de Montpellier, l’INSERM, la région Occitanie, ainsi que les banques Caisse d’Épargne et Banque Populaire.