Informations

Que signifient HG et NA dans les étiquettes d'échantillons RNAseq du projet Geuvadis ?

Que signifient HG et NA dans les étiquettes d'échantillons RNAseq du projet Geuvadis ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je regarde les données RNASeq du site Web de Geuvadis, par exemple. le fichier GD660.GeneQuantRPKM.txt.gz.

Les échantillons sont étiquetés par ex. HG00105.1.M_120209_7 ou NA20812.2.M_111216_6

Que signifient HG et NA ? S'agit-il d'origines ethniques ?

Si non, comment puis-je rechercher la cartographie ethnique des échantillons ?

Merci!


Si vous googleHG00105, parmi les premiers hits est geo accession GSM649517 avec le titreHG00105/NA12878.

Canal 1 :

Caractéristiques sexe : Lignée cellulaire masculine : lignée cellulaire lymphoblaste HG00105 ethnie : Britannique d'Angleterre et d'Écosse, Royaume-Uni (1000 Codes génomes : GBR)

Canal2 :

sexe : femelle lignée cellulaire : lignée cellulaire lymphoblaste NA12878 ethnie : nord-ouest européen américain de l'Utah (code HapMap : CEU)

Donc non, ils ne codent pas pour l'origine ethnique mais font partie de l'identifiant unique de l'échantillon.


Association génétique de traits moléculaires : une aide pour identifier les variantes causales dans les maladies complexes

Au cours des 15 dernières années, des progrès majeurs ont été réalisés dans la compréhension des bases génétiques de la régulation de l'expression des gènes. Ces nouvelles connaissances ont révolutionné notre approche pour résoudre la variation génétique sous-jacente aux maladies complexes. Les niveaux de transcrits géniques ont été les premiers phénotypes d'expression qui ont été étudiés. Ils sont héréditaires et donc se prêtent à des études d'association à l'échelle du génome. Les variantes génétiques qui les modulent sont appelées loci de traits quantitatifs d'expression. Leur étude a été étendue à d'autres loci de traits quantitatifs moléculaires (molQTL) qui régulent l'expression des gènes à différents niveaux, de l'état de la chromatine aux réponses cellulaires. Dans l'ensemble, ces études ont généré une mine d'informations de base sur les modèles d'expression génique à l'échelle du génome et leur variation interindividuelle. Plus important encore, les molQTL sont devenus un atout inestimable dans l'étude génétique des maladies complexes. Bien que l'identification des variantes causant la maladie sur la base de leur chevauchement avec les molQTL nécessite de la prudence, les molQTL peuvent aider à hiérarchiser le(s) gène(s) candidat(s) pertinent(s) dans les régions associées à la maladie et apporter une interprétation fonctionnelle des variantes associées, par conséquent, combler le fossé entre les génotypes et les phénotypes cliniques.


SYNOPSIS

  • Dans scVI, les ensembles de données de différents laboratoires et technologies sont intégrés dans un espace latent commun.
  • Dans scANVI, les annotations de type de cellule sont transférées entre les jeux de données et à travers différents scénarios.
  • Les incertitudes de l'expression différentielle des gènes dans plusieurs échantillons sont quantifiées.
  • Les performances de scVI et scANVI dans l'intégration des données et l'annotation de l'état des cellules sont supérieures à celles d'autres méthodes apparentées.

Introduction

L'incidence du cancer du sein est influencée par de multiples facteurs, notamment l'âge, la génétique et les antécédents de reproduction. Une compréhension de la biologie des tissus normaux et de son hétérogénéité inhérente est une étape importante vers la dissection des mécanismes qui conduisent à l'oncogenèse. Le tissu mammaire normal comprend un système canalaire épithélial complexe intégré dans une matrice stromale composée de fibroblastes, d'adipocytes, de cellules endothéliales et immunitaires. Dans le sein humain, la ramification induite par la puberté se traduit par un système canalaire ramifié complexe dans lequel les conduits se terminent par un groupe d'acini appelé unité lobulaire du conduit terminal (TDLU) (Fu et al, 2020). Les changements dynamiques qui se produisent dans l'épithélium mammaire pendant la puberté, la grossesse et l'allaitement sont entraînés par l'action concertée d'hormones systémiques et de facteurs de croissance, parmi lesquels les hormones ovariennes œstrogène et progestérone jouent un rôle clé (Brisken & O'Malley, 2010). Au cours de la vie d'une femme, une exposition prolongée aux hormones stéroïdes ovariennes est un facteur de risque bien établi de cancer du sein, avec une corrélation claire entre le nombre de cycles menstruels et le risque de cancer du sein (Clemons & Goss, 2001 Hankinson et al, 2004). En effet, l'ablation ovarienne précoce protège contre le cancer du sein (Parker et al, 2009a).

Le cancer du sein comprend un ensemble diversifié de maladies caractérisées par une hétérogénéité qui influence la réponse au traitement et les résultats pour les patients. Cette hétérogénéité ne peut être définie avec précision par les paramètres classiques d'histopathologie, de grade tumoral et d'atteinte ganglionnaire. Le profilage d'expression s'est avéré essentiel pour définir les sous-types intrinsèques de cancer du sein : luminal A et luminal B, triple négatif (souvent utilisé de manière interchangeable avec basal-like), surexprimant HER2 et faible en claudine (Pérou et al, 2000 Sorlie et al, 2001). Ceux-ci reflètent probablement des « cellules d'origine » distinctes, des blocages de différenciation uniques et des répertoires différents de mutations. Des efforts plus récents de séquençage du génome ont défini des gènes « moteurs » récurrents et des changements de nombre de copies parmi les différents sous-types de tumeurs du sein (Cancer Genome Atlas, 2012 Alexandrov et al, 2013 Nik Zainal et al, 2016). L'avènement des technologies unicellulaires a permis une compréhension de l'hétérogénéité cellulaire à un niveau sans précédent. Ceci est particulièrement pertinent pour les tumeurs, qui existent en tant qu'écosystèmes composés de cellules malignes entrecoupées de cellules stromales et immunitaires. Les données émergentes de la génomique monocellulaire indiquent une hétérogénéité tumorale significative, tandis que le profil transcriptomique monocellulaire des tumeurs du sein indique diverses populations de cellules immunitaires (Chung et al, 2017 Aziz et al, 2018 Karaayvaz et al, 2018 Kim et al, 2018 Savas et al, 2018 Qian et al, 2020). De plus, l'évaluation récente des protéomes d'un grand nombre de tumeurs pour jusqu'à 70 protéines (Wagner et al, 2019 ) a permis de mieux comprendre les compartiments immunitaires des tumeurs et les interférences cellulaires potentielles. Cependant, la diversité cellulaire parmi les différents sous-types de cancer du sein n'a pas été évaluée systématiquement. Dans le contexte d'un tissu mammaire normal, le profilage unicellulaire des cellules épithéliales a confirmé la présence de trois populations épithéliales primaires et des trajectoires cellulaires prédites (Nguyen et al, 2018 ) mais le milieu normal du réseau canalaire attend une enquête plus approfondie.

Ici, nous avons cherché à sonder davantage l'hétérogénéité cellulaire dans le tissu mammaire normal et néoplasique (et les LN impliqués) grâce à l'analyse du transcriptome unicellulaire. Nous avons posé les questions suivantes : Quelle est la complexité du microenvironnement canalaire mammaire normal et est-ce que BRCA1 le statut de mutation influence-t-il la diversité moléculaire? Quel est le degré d'hétérogénéité au sein du compartiment des cellules cancéreuses et de son microenvironnement à travers les sous-types de tumeurs ? Quelle est la relation entre les tumeurs mammaires primitives et les cellules malignes qui ensemencent les ganglions lymphatiques ? Le profilage unicellulaire a été réalisé sur des échantillons de tissus normaux ou prénéoplasiques. BRCA1 +/- tissu (28 échantillons) et tumeurs (34 échantillons) représentant les cancers du sein des récepteurs des œstrogènes (ER) + , HER2 + et triple négatif (TNBC), y compris les tumeurs masculines et sept paires appariées de tumeurs ER + et lymphatique impliquée nœuds. Sans surprise, des changements importants dans le paysage immunitaire/stromal ont été trouvés entre les états prénéoplasique et néoplasique dans BRCA1 porteurs de mutations. Alors que tous les sous-types de tumeurs présentaient une hétérogénéité intra-tumorale, des changements distincts se sont produits dans le microenvironnement de différents sous-types de cancer. De plus, nous avons observé soit une migration clonale de cellules cancéreuses du sein ER + génomiquement distinctes dans les ganglions lymphatiques axillaires, soit une migration en masse de cellules tumorales. Ensemble, cette intégration à grande échelle d'échantillons de patients englobant les transcriptomes de > 340 000 cellules fournit un cadre pour déchiffrer la pertinence clinique de l'hétérogénéité dans les tissus normaux et les tumeurs du sein.


Défis émergents en immunothérapie anticancéreuse

Malgré les progrès considérables qui ont été réalisés dans le domaine de l'immunothérapie anticancéreuse, des défis importants demeurent.

L'immunothérapie du cancer nécessite une personnalisation

Au cours de la tumorigenèse, les cellules cancéreuses acquièrent différents nombres et types de mutations. De plus, à la suite du processus d'immuno-édition, des mutations qui stimulent une immunité antitumorale pourraient être perdues, tandis que des mutations moins immunogènes pourraient être sélectivement maintenues. Par conséquent, les néo-antigènes sont rarement partagés entre les patients [ 42], et donc les immunothérapies anticancéreuses à base de néo-antigènes nécessitent une personnalisation.

De plus, bien que certaines stratégies d'échappement immunitaire, telles que la régulation positive de l'expression de PD-L1, soient plus couramment utilisées que d'autres [43], cette observation peut ne pas justifier l'utilisation d'une approche d'immunothérapie unique pour traiter tous les patients atteints de cancer. En effet, pour obtenir de meilleurs résultats thérapeutiques, il pourrait être nécessaire de bien comprendre comment une tumeur individuelle donnée a réussi à échapper à l'immunité antitumorale. À l'appui de cette hypothèse est le fait que seul un petit pourcentage de patients peut bénéficier de blocages des points de contrôle immunitaires [44]. En fait, le nivolumab ou l'ipilimumab induisent des réponses durables chez seulement 10 à 30 % des patients atteints de mélanome lorsque l'un ou l'autre de ces agents est utilisé seul [45, 46].

Le besoin de meilleurs biomarqueurs en immunothérapie anticancéreuse

Pour tenter d'augmenter la proportion de répondeurs aux immunothérapies, de nombreux efforts récents ont été consacrés à l'identification de biomarqueurs prédictifs. À ce jour, de nombreux biomarqueurs ont été évalués dans des études précliniques et cliniques. Ces biomarqueurs comprennent l'expression de PD-1/PD-L1, les cellules immunitaires infiltrant la tumeur, le nombre absolu de lymphocytes, la clonalité du TCR, la charge mutationnelle de la tumeur, les profils d'expression des gènes liés au système immunitaire, la fréquence/spécificité de l'épitope du CMH de classe I et l'état de réparation de l'inadéquation de la tumeur [ 47]. De plus, les biomarqueurs sériques ont récemment reçu beaucoup d'attention. Cette approche repose sur l'espoir qu'il serait possible d'identifier des molécules capables de prédire la réponse aux immunothérapies avec facilité et fiabilité [48]. Néanmoins, les études sur les biomarqueurs ont montré qu'il est assez difficile de prédire quels patients sont susceptibles de répondre à l'aide d'un seul biomarqueur. À titre d'exemple, les patients atteints de mélanome qui ont une expression élevée de PD-L1 présentent des taux de réponse plus élevés que les patients dont l'expression de PD-L1 est faible. Néanmoins, tous les patients présentant une expression élevée de PD-L1 ne répondent pas au traitement et, dans le même temps, les thérapies ciblées PD1/PD-L1 sont efficaces chez certains patients PD-L1 négatifs [49]. Plus frappant encore, l'expression de PD-L1 n'est pas significativement associée aux réponses au traitement anti-PD-1/PD-L1 dans certaines autres tumeurs malignes, telles que le RCC [ 50]. Collectivement, ces résultats illustrent qu'il reste encore beaucoup de travail à faire et qu'une analyse intégrative de plusieurs biomarqueurs pourrait être nécessaire pour améliorer la prédiction de la réponse thérapeutique. Dans cette optique, la stratification des tumeurs basée à la fois sur la présence/l'absence de lymphocytes T infiltrant la tumeur en plus de l'expression de PD-L1 a été suggérée comme une meilleure méthode prédictive pour concevoir et identifier des immunothérapies idéales, plutôt que d'évaluer ces deux facteurs individuellement [ 51].

La difficulté de choisir la bonne combinaison thérapeutique

La combinaison de l'immunothérapie ciblée PD1/PD-L1 et CTLA-4 est une percée majeure dans le traitement du cancer. Les combinaisons d'inhibiteurs de points de contrôle immunitaires ont amélioré la survie globale médiane des patients atteints de mélanome à un stade avancé de la maladie de <1 an [52] à 37,6 mois avec nivolumab, 19,9 mois avec ipilimumab et >3 ans avec nivolumab-plus-ipilimumab. Cette amélioration spectaculaire a été observée chez plus de la moitié des patients traités par nivolumab et nivolumab-plus-ipilimumab, et chez environ un tiers du groupe recevant l'ipilimumab [53]. De même, l'inhibition de l'enzyme indoleamine 2, 3-dioxygénase (IDO), un suppresseur de réponse des lymphocytes T, en conjonction avec d'autres inhibiteurs de points de contrôle immunitaire, a entraîné une augmentation significative des taux de réponse des patients et des taux de survie globale. Cette observation conduit au développement de plusieurs inhibiteurs de l'IDO qui ont été/sont actuellement testés dans des essais cliniques de Phase 1, 2 et 3 [ 54]. Bien que ces résultats soient encourageants, tous les patients traités n'ont pas eu de réponses complètes. De plus, ces chiffres sont moins dramatiques dans le cas d'autres tumeurs malignes [ 55]. Par conséquent, il reste nécessaire d'identifier les options de traitement combiné.

De plus, en plus de combiner différentes modalités d'immunothérapie, les traitements conventionnels du cancer peuvent agir en synergie avec les traitements basés sur l'immunité. Par exemple, certains traitements anticancéreux conventionnels déclenchent la mort immunogène des cellules cancéreuses. Cet effet entraîne la libération d'un plus grand nombre d'antigènes tumoraux et stimule ainsi l'immunité antitumorale de l'hôte [56]. Les preuves à l'appui proviennent de l'observation selon laquelle l'association d'ipilimumab avec une radiothérapie du cerveau entier ou une radiochirurgie stéréotaxique a augmenté la survie globale moyenne de 13 mois, par rapport à ceux recevant uniquement une radiothérapie, chez les patients présentant des métastases cérébrales de mélanome. Le risque de décès était également significativement réduit [ 57]. Cependant, il existe des milliers de combinaisons médicamenteuses possibles, ce qui rend difficile de savoir par où commencer pour solidifier la combinaison optimale de traitements.

Résistance à l'immunothérapie anticancéreuse

L'un des principaux obstacles à une réponse efficace à l'immunothérapie anticancéreuse est la résistance. Par exemple, les patients cancéreux subissant une transplantation, les personnes séropositives et les personnes âgées ont une résistance intrinsèque systémique préexistante aux traitements basés sur l'immunité [58]. De plus, de nombreuses personnes ont un système immunitaire intact mais peuvent manquer d'activité immunitaire antitumorale uniquement au site du cancer. En fait, des facteurs immunologiques, notamment la densité et la géographie des cellules T CD8 infiltrant la tumeur (immunoscore) [59–61] et des cellules T CD4:CD8, peuvent jouer un rôle important dans la résistance à l'immunothérapie [62]. De plus, au cours de la progression du cancer, les cellules tumorales acquièrent systématiquement des modifications de leurs profils génétiques, épigénétiques, transcriptionnels et métaboliques, ainsi que des altérations de leur signalisation oncogène [ 63]. De même, les cellules stromales modifient continuellement l'expression de leurs molécules de surface cellulaire, l'activité de leurs voies de signalisation intracellulaire et leur métabolisme cellulaire [64-68]. Comme on pouvait s'y attendre, certaines de ces modifications peuvent conférer une résistance immunitaire et ainsi atténuer l'efficacité des traitements anticancéreux [64]. Notamment, les immunothérapies peuvent également favoriser ces changements cellulaires [58]. En conséquence, pour surmonter la résistance émergente à l'immunothérapie, il serait nécessaire d'effectuer une analyse intégrative complète pour prendre en compte tous ces facteurs.


3. RÉSULTATS ET DISCUSSION

3.1 Résumé du génome

De multiples bibliothèques avec différentes tailles d'inserts ont été construites à partir d'ADN extrait des œufs de la population X12 purifiée. Au total, 95,22 Go de données de séquençage ont été générés, dont 13,65 Go (couverture 96,81X) ont été produits à partir des lectures Illumina, 28,48 Go (couverture 201,97X) à partir des lectures PacBio, 31,32 Go (couverture 222,13X) à partir de la lecture liée 10X Genomics bibliothèques et 21,77 Go (couverture 154,39X) de la bibliothèque Hi-C (tableau S1). Le génome assemblé est estimé à 141,01 Mb, avec des tailles d'échafaudage et de contig N50 de 16,27 Mb et 330,54 kb, respectivement (figure 2b). De plus, les résultats du séquençage (RCS_Liane) ont été comparés aux résultats du séquençage récemment publiés (RCS_Masonbrink) de 2019 (Masonbrink et al., 2019 ) et les génomes du nématode phytoparasite M. hapla (Opperman et al., 2008 ) et le nématode libre C. elegans (Les C. elegans consortium de séquençage, 1998 ) (tableau 1). La taille du génome de RCS_Liane est de 141,01 Mo, ce qui est presque identique à celui de SCN_Masonbrink, à 123 Mo. Notamment, RCS_Masonbrink n'a pas assemblé le génome de H. glycines à l'échelle des chromosomes, bien que SCN_Lian fait. La valeur BUSCO de SCN_Lian est de 53,4 % contre 72 % pour RCS_Masonbrink, mais la valeur BUSCO de RCS_Masonbrink est ~54% lorsqu'il est analysé à l'aide de la base de données des nématodes et des données génomiques fournies par Masonbrink et al. Par conséquent, il y a peu de différence dans la qualité d'assemblage entre les génomes de SCN_Masonbrink et RCS_Liane. Le contenu du GC de RCS_Liane (36,89 %) est similaire à celui de C. elegans (35,4%), alors que M. hapla a une teneur en GC inhabituellement faible de 27,4 %. SCN_Masonbrink 29 769 gènes annotés, et SCN_Lian 11 882 gènes annotés.

141 Mo avec échafaudage et contig N50 taille de 16,27 Mo et 330,54 Ko. Le tableau indique également la taille et le nombre de N60, N70, N80 et N90 des contigs et des échafaudages. (c) Regroupement d'échafaudages à l'aide de données Hi-C dans des échafaudages à l'échelle du pseudochromosome. Répertoriés sont les 258 échafaudages de longueur totale

12 Mo utilisés pour le clustering. Le tableau contient également les numéros de cluster, le nombre de contigs et la longueur de référence des contigs [La figure en couleur peut être consultée sur wileyonlinelibrary.com]

H. glycines M. hapla C. elegans
SCN-Masonbrink SCN-Lian
Matériel de séquençage Population consanguine TN10 (Hg type 1.2.6.7) Population naturelle X12 (type Hg 1.2.3.4.5.6.7)
Taille du génome, Mo 123.85 141.01 54 100
Contigs, pb 738 889 3,452 N / A
Contig N50, Ko 304,130 330,544 N / A N / A
Échafaudages N / A 267 1,523 N / A
Échafaudages N50, pb N / A 16,265,615 83,645 17,494,000
Assemblé, pb N / A 141,354,287 53,578,246 100,267,623
Couverture de séquence, % N / A 98.33 99.2 100
Pourcentage achevé BUSCO, % 72 53.4 59 99.6
G+C, % N / A 36.89 27.4 35.4
Gènes annotés 29,769 11,882 14,420 20,060
Les nombres de répétitions représentaient le génome, % 34 51.10 17 16.5
SNP identifiés 1,619,134 247,046 N / A N / A
Chromosomes N / A 18 16 6
Assemblage au niveau des chromosomes N / A Oui N / A Oui

Les résultats du contrôle de la qualité des données sont présentés dans les tableaux S2 à S4 et les figures S1 et S2. Ce qui suit a été obtenu pour l'évaluation de la distribution des longueurs de polymérase : nombre de lecture de 2 080 111, avec une longueur de lecture moyenne de 13 703 et une longueur de lecture N50 de 23 355. La distribution de longueur de taille d'insert a montré ce qui suit : nombre de lectures de 2 080 111, avec une longueur de lecture moyenne de 9 875 et une longueur de lecture N50 de 14 429. L'évaluation de la distribution de la longueur des sous-lectures a révélé que le nombre de lectures était de 3 179 171, avec une longueur de lecture moyenne de 8 948 et une longueur de lecture N50 de 12 988. Selon le logiciel bwa, le taux de cartographie de toutes les lectures de petits fragments sur le génome était d'environ 90,72 %, et le taux de couverture était d'environ 98,33 % (tableau S5), les lectures montrent donc un bon accord avec le génome assemblé.Après avoir trié les coordonnées chromosomiques, supprimé les séquences répétées et effectué un polymorphisme nucléotidique unique (SNP) appelant les résultats de la comparaison BWA, 247 046 SNP ont été obtenus, avec 0,213 % d'hétérozygotie SNP et 0,0024 % d'homozygotie SNP sur la base de SAMtools (http://samtools.sourceforge. net/) (tableau S6) par conséquent, l'assemblage du génome a une précision élevée à base unique. De plus, le contenu GC et la profondeur moyenne du génome assemblé ont été calculés et cartographiés à l'aide de 10k Windows sans calcul répété. Les résultats ont montré que le contenu en GC est concentré dans une région englobant 40 % du génome, sans séparation apparente, ce qui a montré que le génome n'était pas contaminé par des sources étrangères (tableau S7 et figure S3).

Les résultats de l'analyse CEGMA ont démontré que l'assemblage était complet, avec un taux de cartographie de 86,29% (un total de 214 gènes) (tableau S8). Les résultats de l'évaluation BUSCO ont également indiqué que le résultat de l'assemblage était complet, avec 53,4% de gènes à copie unique complets assemblés de 978 gènes à copie unique homologues (tableau S9). Remarquablement, seulement 53,4% des gènes dans le H. glycines assemblage sont en exemplaire unique selon l'analyse BUSCO, avec 3,7% de dupliqués. A titre de comparaison, les résultats de BUSCO pour SCN_Masonbrink indiquent que 56% des gènes dans H. glycines sont en un seul exemplaire, dont 16% dupliqués (Masonbrink et al., 2019 ).

Les résultats de la prédiction des répétitions ont montré que le génome X12 contient 51,10 % de séquences répétées. Les statistiques de séquences répétitives et les résultats de classification sont présentés dans les tableaux S10 et S11 et la figure S4. Le génome de H. glycines est diploïde et se compose de séquences répétées avec une divergence nucléotidique plus élevée (19,21%) que les génomes de Méloidogyne espèces polyploïdes constituées de régions dupliquées à faible divergence nucléotidique (

8 %) (Abad et al., 2008 Blanc-Mathieu et al., 2017 Sato et al., 2018 Szitenberg et al., 2017 ).

La prédiction de la structure des gènes a été réalisée et 11 882 gènes codant pour les protéines ont été prédits, avec une moyenne de 1 233,92 pb de séquence codante (CDS) et 8,3 exons par gène (tableau S12 et figure S5). Les longueurs des transcrits des gènes, des CDS, des exons et des introns du SCN sont comparables à celles des génomes utilisés pour la prédiction basée sur l'homologie (tableau S13 et figure S6). De plus, des gènes d'ARN non codants ont été prédits dans le génome du SCN, y compris une longueur totale de 17 688 pb d'ARN ribosomique (rRNA), de 46 685 pb d'ARN de transfert (tRNA), de 39 375 pb de microARN (miARN) et de 21 549 pb de gènes snRNA ( Tableau S14). Sur la base de l'annotation fonctionnelle des gènes codant pour les protéines, 64,5 % (7 663), 76,5 % (9 093), 60 % (7 126), 70,7 % (8 405), 49,1 % (5 840) et 61,5 % (7 303) des gènes sont annotés dans Swiss-Prot, Nr, kegg , InterPro, GO et Pfam, respectivement. Les quatre étapes de la vie du SCN ont été isolées puis mélangées avant le séquençage pour l'annotation du génome. Au total, 9 383 gènes codant pour des protéines (79,0 %) avec des motifs fonctionnels et des termes fonctionnels conservés ont été annotés avec succès (tableau S15 et figure S7). Figure 3.

Il y a quelques différences concernant les résultats pour SCN_Lian et SCN_Masonbrink, comme le nombre de gènes annotés. Les raisons possibles sont les suivantes. Premièrement, il y avait des différences dans les technologies de séquençage utilisées. Pour SCN_Masonbrink, la technologie PacBio à lecture longue a été principalement utilisée, tandis que les technologies combinées Illumina à lecture courte et PacBio à lecture longue ont été utilisées pour SCN_Lian. Deuxièmement, il y avait des différences dans les matériaux séquencés. La population consanguine TN10 (Hg type 1.2.6.7) a été utilisée pour SCN_Masonbrink, mais la population naturelle X12 (type Hg 1.2.3.4.5.6.7), qui est la population SCN la plus virulente identifiée à ce jour, a été utilisée pour SCN_Lian. Les différences dans la pathogénicité de ces populations peuvent également être jugées à partir des proportions différentielles de gènes S (50,4 % et 45,3 % dans SCN_Lian et SCN_Masonbrink, respectivement) et les gènes D (2,3 % et 8,7 % dans SCN_Lian et SCN_Masonbrink, respectivement) dans les résultats de BUSCO (tableau 2). Troisièmement, différentes méthodes d'annotation ont été appliquées. Les annotations génétiques ont été effectuées à l'aide de Braker pour SCN_Masonbrink avec un assemblage non masqué, qui annotait 29 769 gènes dont 12 357 exprimaient des éléments répétitifs et montrait que la H. glycines le génome a un nombre important de répétitions, à 34% du génome. Pour éviter que le nombre de gènes soit trop élevé, ce qui peut être causé par des faux positifs provenant de répétitions lors de l'annotation de gènes, le masquage des répétitions avant l'annotation de la structure a été effectué pour SCN_Lian, comme cela a également été mené dans de nombreuses autres études (Xu et al., 2013 Zhang et al., 2019 ). Pour obtenir des séquences répétées plus complètes et précises, un alignement de séquences homologues et une prédiction ab initio ont été effectués. Au final, 11 882 gènes annotés et 51,10 % de séquences répétées non redondantes ont été obtenus.

Nom scientifique Version Taille du génome Numéro de gène génome BUSCO
Caenorhabditis_elegans ensemble.metazoa.v32 98M C : 98,6 % (S : 98,0 %, D 0,6 %), F : 0,8 %, M : 0,6 %, m:982
Caenorhabditis_brigsae ensemble.metazoa.v32 106M C:97,7% (S:97,0%, D0,7%), F:1,5%, M:0,8%, m:982
Ascaris_suum ensemble.metazoa.v32 265M C : 89,8 % (S : 88,0 %, D 1,8 %), F : 6,6 %, M : 3,6 %, m:982
Brugia_malayi wormbase.WBPS6 93M C : 96,6 % (S : 96,0 %, D 0,6 %), F : 2,4 %, M : 1,0 %, m:982
Onchocerca_volvulus ensemble.metazoa.v32 94M C : 97,6 % (S : 97,3 %, D0,3 %), F : 1,7 %, M : 0,7 %, m:982
Meloidogyne hapla 54M 14420 C : 59,9 % (S : 58,7 %, D 1,2 %), F : 9,4 %, M : 30,7 %, m:982
Meloidogyne incognita 184M 43718/45351 C : 61,8 % (S : 25,8 %, D36,0 %), F : 8,1 %, M : 30,1 %, m:982
Heterodera glycines (SCN-Lian) 135M 11882 C:52,7% (S:50,4%, D2,3%), F:9,6%, M:37,7%, m:982
H. glycines (SCN-Masonbrink) 129M 29769 C:54,0% (S:45,3%, D8,7%), F:10,4%, M:35,6%, m:982

3.2 Observation des chromosomes et échafaudage Hi-C

Le nombre de chromosomes de H. glycines pendant la méiose a été observée sous un microscope à fluorescence utilisant une excitation de 450 à 490 nm (2m = 18) (Figure 4). Les données Hi-C basées sur Illumina ont été reconfigurées dans l'assemblage PacBio, se regroupant en neuf pseudomolécules à l'aide du pipeline d'échafaudage Proximo Hi-C (Figure 2a). L'échafaudage Hi-C a pu ancrer et ordonner avec une grande confiance tous les 258 échafaudages en neuf pseudomolécules. Les tailles d'échafaudage allaient de 7,6 à 185 Mb avec un N50 de 16,3 Mb (Figure 2c). Le taux global d'échafaudage était de 91,2 % (tableau S16).

3.3 Analyse évolutive

Au total, 25 535 groupes de familles de gènes ont été construits. Les gènes utilisés pour le regroupement des familles de gènes dans chaque espèce sont présentés dans le tableau S17. Au total, 482 familles de gènes à copie unique sont communes aux 12 espèces. La distribution d'orthologues à copie unique, d'orthologues à copies multiples, de gènes uniques à H. glycines et d'autres orthologues dans différentes espèces est indiqué dans le tableau S18. Les séquences protéiques des 482 familles de gènes à copie unique ont été utilisées pour la reconstruction d'arbres phylogénétiques, et l'estimation du temps de divergence a été réalisée (Figure 5) avec le logiciel mcmctree. La synténie diminuait à mesure que la parenté phylogénétique diminuait, et nos résultats ont montré que le temps de divergence entre H. glycines et M. hapla est d'environ 143,6 millions d'années. Ainsi, la divergence de H. glycines a précédé celui du nématode modèle C. elegans. De plus, comme le parasitisme végétal est un mode de vie présent dans trois clades différents dans l'arbre de vie des nématodes, le parasitisme végétal est apparu au moins trois fois indépendamment au cours de l'évolution des nématodes (Danchin & Perfus-Barbeoch, 2009). Il a également été déduit que les parasites des plantes ont évolué à partir de nématodes se nourrissant de champignons, selon des résultats antérieurs qui ont montré une co-agrégation cohérente de parasites de plantes avec des espèces fongivores (Holterman et al., 2006).


RÉSULTATS

Le but de cette étude était d'examiner le paysage transcriptionnel des blastes CD34 + /CD38 - en les comparant aux blastes CD34 + /CD38 + et aux cellules CD34 + /CD38 - normales. Nous avons utilisé la cytométrie en flux pour trier les populations de blastes CD33 + /CD34 + /CD38 − et CD33 + /CD34 + /CD38 + des suspensions de cellules de moelle osseuse de deux patients atteints de LAM (AML1 (M0) et AML2 (M5)) et de quatre patients. avec de la moelle osseuse normale (N) (voir Matériels et Méthodes), puis nous avons effectué un séquençage d'ARNm monocellulaire sur 359 cellules triées. Après un filtrage rigoureux, nous avons généré 311 profils d'ARN-seq à cellule unique avec une moyenne de 7 × 10 6 lectures mappées de manière unique par cellule (figure 1A et B, voir les matériaux et méthodes). Comme prévu, le nombre de gènes détectés par cellule était comparable entre les conditions et variable entre les cellules [19, 20] (Figure 1). En moyenne, 1764 gènes transcrits ont été détectés par cellule (RPKM > 10). Conformément aux rapports précédents [19-21], nous avons observé une variabilité substantielle du transcriptome de cellule à cellule (Pearson 0,0007 < r < 1, moyenne 0,57) (figure 1C). L'ARN en vrac de chaque individu a été préparé pour des corrélations de transcriptome de la masse à une seule cellule. Comme décrit, les transcriptomes en vrac étaient fortement corrélés avec les transcriptomes unicellulaires (Pearson 0,38 < r < 0,89, moyenne 0,63) (figure 1C), soutenant ainsi l'hypothèse que les échantillons en vrac reflètent la moyenne des populations unicellulaires [20, 22 ].

(UNE) Boîtes à moustaches montrant le nombre de lectures mappées de manière unique et de gènes transcrits détectés dans 313 cellules individuelles de 4 patients sains (N1, N2, N3, N4) et 2 patients atteints de LAM (AML1, AML2). Les cellules blastiques CD38 - et CD38 + du patient AML2 ont été triées séparément (se référer aux Matériels et Méthodes). Voir aussi la figure S1. Le panneau de droite montre le nombre moyen cumulé de gènes transcrits détectés par cellule pour chaque échantillon et par catégorie RPKM. (B) Regroupement hiérarchique de 267 échantillons unicellulaires (voir Matériels et méthodes) basé sur la corrélation de Pearson. Les étiquettes des cellules sont colorées en fonction de l'origine de l'échantillon (même code couleur que le panneau de droite en (A)). Les cellules individuelles CD38 - et CD38 + ne sont pas incluses dans ce graphique. Le coefficient de corrélation est également coloré selon l'échelle allant de 1,0 (bleu) à - 1,0 (rouge). (C) Matrice de corrélation cellule à cellule et cellule à masse comprenant 7 échantillons à cellule unique (sc) de N3 et des échantillons en masse de N3 et N4. Les diagrammes de dispersion montrent une corrélation avec l'expression des gènes (RPKM > 0). Les nombres représentent les coefficients de corrélation de Pearson par paires.

Les cellules leucémiques individuelles CD34 + /CD38 − déclenchent des voies qui favorisent la souche et la progression du cancer

Nous avons d'abord comparé les profils de transcriptome de 24 cellules CD34 + /CD38 - et 24 cellules CD34 + /CD38 + du même patient atteint de LAM (LAM2), et une analyse des transcrits exprimés de manière différentielle a identifié 625 gènes qui présentaient des changements significatifs (p- valeur < 0,05) (se référer aux données supplémentaires, tableau S1). Comme prévu, la carte de regroupement hiérarchique des transcrits exprimés de manière différentielle a montré deux populations cellulaires distinctes (figure 2A). Une analyse des termes d'ontologie des gènes menée sur cet ensemble de transcrits exprimés de manière différentielle a révélé des termes significativement enrichis associés aux gènes principalement impliqués dans la voie des récepteurs de type NOD (par exemple, CXCL2, CXCL8, NLRP3, et TRAF6) (Figure 2B). Ce terme inclut également les chimiokines essentielles à la survie et à la prolifération des cellules cancéreuses, telles que le ligand 8 à motif CXC (CXCL8, IL-8) [23, 24]. Les cellules malignes CD34 + /CD38 − présentaient une activité réduite du cycle cellulaire et des gènes qui favorisent la prolifération cellulaire et le cycle cellulaire (CDK7, CDKN2A, HDAC1, MCM3, PCNA, et MYC) étaient régulés à la baisse par rapport aux blastes plus différenciés. Fait intéressant, les gènes de réplication de l'ADN (POLA2, RFC3, et RNASEH2A). Une analyse d'enrichissement de l'ensemble de gènes (GSEA) a été réalisée pour évaluer la présence de gènes régulateurs de cellules souches bien caractérisés dans notre ensemble de données (figure 2C). Nous avons testé des listes de gènes prédéfinies à partir de profils d'expression génique publiés des voies activées dans les LSC et les HSC (voir les données supplémentaires, tableau S4) [11, 12, 28, 29] et avons confirmé que les gènes associés aux tiges exprimés par notre CD33 + trié /CD34 + /CD38 − les cellules leucémiques étaient cohérentes avec les données publiées (FDR < 0.01). Plusieurs études ont impliqué la voie Wnt/β-caténine dans le développement des cellules souches leucémiques [30]. Une GSEA de cette voie spécifique a confirmé la surexpression de 49 des 148 gènes dans les blastes CD34 + /CD38 - (Figure 2C).

(UNE) Carte thermique et regroupement hiérarchique supervisé des gènes différentiellement exprimés entre les cellules CD38 - et CD38 + (se référer aux données supplémentaires, tableau S1 pour les détails de la liste des gènes). Les lignes représentent les gènes et les colonnes représentent les cellules individuelles des sous-populations CD38 - et CD38 +. Le codage couleur indique les valeurs RPKM transformées en log2. (B) Analyse à terme GO des transcrits exprimés différentiellement CD38 − et CD38 + (analyse DAVID d'enrichissement multiplié). Le diagramme à barres montre les termes significativement enrichis (valeur p & lt 0,05, test exact de Fisher) parmi les transcrits régulés à la baisse (bleu) et les transcrits régulés à la hausse (gris). Voir aussi la figure S1. (C) Parcelles d'enrichissement de la signature de la GSEA utilisant 5 listes de cibles génétiques différentes (voir les données supplémentaires, tableau S4 pour les détails de la liste des gènes). Les barres verticales noires sont des gènes classés en fonction de leur expression de changement de pli. Les valeurs indiquent le score d'enrichissement normalisé (NES), la valeur p ajustée du FDR et le nombre de gènes enrichis significatifs sur le total des gènes testés. (RÉ) Visualisation du réseau de gènes de gènes exprimés de manière différentielle entre des cellules individuelles leucémiques CD38 - et CD38 +. Les gènes et les voies liés à la tige sont mis en évidence. Voir également la figure S2.

La carte du réseau illustre la connectivité fonctionnelle entre les gènes exprimés de manière différentielle (figure 2D). Les cellules leucémiques CD34 + /CD38 − ont exprimé des gènes liés aux 4 voies de signalisation distinctes suivantes : TNFα/NF-κB, facteur de cellules souches médié par c-Kit (SCF), Rb/E2F, ERK/MAPK et AKT. Remarquablement, des gènes importants pour l'hématopoïèse et la leucémogenèse, tels que IMC1 (FC CD38-/CD38+ : 4,47, p-value : 0,00113, test statistique de Kolmogorov-Smirnov), HOX gènes (se référer aux données supplémentaires, Figure S2), et MYB ont déjà été rapportés comme étant dérégulés dans les cellules leucémiques [31, 32]. De plus, ces gènes ont été largement associés à la maintenance des cellules souches cancéreuses en général [31, 33-35] et soutiennent le « stemness » et le potentiel tumorigène des blastes triés CD33 + /CD34 + /CD38 -. De manière remarquable, les profils d'expression générés par l'ARN-seq unicellulaire sur un petit nombre de cellules permettent de distinguer transcriptionnellement les caractéristiques moléculaires des blastes CD33 + /CD34 + /CD38 - des blastes CD33 + /CD34 + /CD38 +.

CD34 + /CD38 − les profils de transcription monocellulaire distinguent les cellules leucémiques des cellules souches normales

Pour évaluer si notre cadre était adapté à la caractérisation des profils de transcriptome des blastes CD34 + /CD38 -, nous avons analysé 267 cellules individuelles CD33 + /CD34 + /CD38 - de quatre patients avec une moelle osseuse normale et deux patients avec une LAM. De façon intéressante, SOX4 figurait parmi les 200 gènes les plus exprimés (se référer aux données supplémentaires, Figure S3) dans les cellules CD34 + /CD38 − normales et dans les blastes CD34 + /CD38 − des deux échantillons de LAM, et sa présence était clairement associée à ” [36-39], renforçant ainsi la suggestion que toutes les cellules capturées pourraient posséder les caractéristiques des cellules souches putatives. Remarquablement, nous avons identifié 5 clusters transcriptionnellement différents sur la carte t-SNE (Figure 3, Figure S4) (se référer aux Matériaux et méthodes). Quinze cellules n'ont pas été attribuées et délibérément attribuées au groupe 1. Les 219 cellules CD34 + /CD38 - restantes ont été regroupées en quatre groupes. Les cellules AML1 et AML2 se sont regroupées distinctement dans les groupes 2 et 4, respectivement, alors que toutes les cellules non AML ont formé un groupe distinct et unique, le groupe 3 (Figure 3). Le groupe 5 se composait de 5 cellules aberrantes de patients normaux (figure 3). Le regroupement observé a indiqué que la variabilité interindividuelle avait moins d'impact sur les profils d'expression de l'ARNm que le phénotype de la maladie et que les grappes identifiées reflètent les états pathologiques. Pour identifier les gènes associés à l'état pathologique, la méthode D 3 E [40] a été utilisée pour identifier les transcrits différentiellement exprimés parmi les cellules AML1, AML2 et non AML CD34 + /CD38 - (Figure 4A). Nous avons trouvé 858 et 763 gènes qui étaient transcrits de manière différentielle dans les cellules AML1 et AML2 par rapport aux cellules non AML (valeur p < 0.05), respectivement, et compté 185 gènes qui étaient essentiellement liés à la régulation du cycle cellulaire et aux voies du cancer dans tous les types de cellules (figure 4B). Parmi les gènes régulés à la hausse ou à la baisse dans les cellules AML1 et AML2, les catégories d'ontologies géniques les plus enrichies étaient liées au cycle cellulaire, à la réplication de l'ADN, à la réparation de l'ADN, à la sénescence et à l'auto-renouvellement cellulaires, comme la voie JNK, FOXM1 et PLK1. réseaux et voie de signalisation TGF-bêta (figure 4B). Une GSEA réalisée avec des listes de gènes basées sur la littérature a confirmé que les blastes AML1 et AML2 présentaient un enrichissement significatif dans les ensembles de gènes de cellules souches publiés et les voies activées par la leucémie ainsi que dans une signature génique pronostique (voir les données supplémentaires, figure S5). Le chevauchement des groupes de gènes enrichis liés à la fonction dans les deux cellules AML a révélé des propriétés communes des LSC dans les voies de signalisation liées à la « tige » qui contrôlent la survie, la tumorigenèse et l'auto-renouvellement. Les patients atteints de LAM1 et de LAM2 appartenaient à différents sous-types de LAM. Les cellules leucémiques des patients atteints de LAM2 abritaient la mutation commune FLT3-ITD, qui correspond à une duplication interne en tandem (ITD) dans le gène de la tyrosine kinase 3 de type Fms (FLT3), qui code pour le récepteur du ligand de la cytokine FLT3 (FLT3L). Normalement, le récepteur FLT3 est exprimé à la surface des CSH et est nécessaire au développement des progéniteurs myéloïdes. La mutation FLT3-ITD entraîne une hypersensibilité du récepteur FLT3, qui favorise une prolifération cellulaire incontrôlée médiée par les voies activées par AKT, MEK et ERK [41, 42]. En effet, nous avons observé que les transcrits FLT3 sont surexprimés dans les cellules AML2 par rapport aux cellules non AML et AML1 (se référer aux données supplémentaires, Figure S6). Les voies dérégulées par cette surexpression, c'est-à-dire RAS, ERK, AKT, TGF-bêta et GPCR, sont illustrées dans la carte de mise en réseau (figure 5A).Une comparaison avec la carte du réseau cellulaire de l'échantillon AML1 a montré que ces perturbations étaient spécifiques des blastes AML2 CD34 + /CD38 (figure 5A).

Carte t-SNE avec des cellules colorées par identités de cluster (tracé de gauche) ou par individus (tracé de droite). Les cellules ont été classées en 5 groupes en fonction de leurs modèles d'expression en utilisant l'algorithme SEURAT avec les paramètres par défaut. Les cellules qui n'ont pas pu être attribuées ont été placées par défaut dans le cluster 1.

(UNE) Cartes thermiques des gènes différentiellement exprimés (analyse D 3 E) discriminant les cellules N des cellules AML. Les gènes sont affichés en rangées. Les valeurs RPKM transformées en Log2 sont indiquées dans la carte des couleurs (se référer aux données supplémentaires, Tableau S2 et S3). Le diagramme de Venn indique le nombre de gènes différentiellement exprimés entre les échantillons N et AML1 (858 gènes) et entre les échantillons N et AML2 (763 gènes). (B) Analyse à terme GO des gènes exprimés de manière différentielle entre les échantillons AML et N (outil GeneAnalytics, adj. p-value < 0.05). La couleur violette indique l'enrichissement significatif des voies d'ontologie des gènes dans AML1 (673 gènes), AML2 (578 gènes) et AML1 & 2 (185 gènes).

(UNE) Carte d'interaction des gènes différentiellement exprimés (analyse D 3 E) pour AML1 (gauche) et AML2 (droite). Les voies de signalisation pertinentes sont mises en évidence. Les gènes représentant les nœuds principaux sont colorés en rouge. * indique les voies connues pour être perturbées par la mutation FL3-ITD. (B) Représentation graphique des TFB enrichis en ensembles de gènes différentiellement exprimés pour AML1 (à gauche) et AML2 (à droite). Les cercles sont dimensionnés proportionnellement au nombre de gènes différentiellement exprimés enrichis pour les TFB marqués.

Dans l'ensemble, notre analyse du transcriptome unicellulaire menée sur des cellules CD33 + /CD34 + /CD38 − provenant de deux échantillons de LAM a fourni des informations précieuses sur la nature de la LAM. Les effets des mutations somatiques sur les cellules cancéreuses sont détectables et fournissent des informations précieuses sur les réseaux de gènes associés à la maladie et spécifiques au patient.

Le noyau de facteurs de transcription est co-activé dans les cellules leucémiques CD34 + /CD38 -

Pour étudier plus avant les réseaux de régulation des cellules leucémiques CD34 + /CD38 -, nous avons cherché à savoir si les gènes précédemment identifiés différemment exprimés dans les cellules AML1 et AML2 étaient co-régulés par un ensemble de facteurs de transcription. Par conséquent, nous avons évalué l'enrichissement des sites de liaison aux facteurs de transcription (TFB) associés à ces ensembles de gènes exprimés de manière différentielle (se référer aux matériels et méthodes). Sur les 763 gènes exprimés de manière significativement différentielle dans les cellules CD34 + /CD38 - AML2, neuf TFB (PAX4, CEBP, MEF2, POU3F2, E2F, TATA, NFY, FREAC3 (FOXC1) et HLF) étaient significativement enrichis (valeur p ajustée < 0,05), et des 858 gènes différentiellement exprimés dans les cellules CD34 + /CD38 - AML1, 62 TFB (les neuf TFB associés à l'ensemble de données AML2 ainsi que d'autres TBF pertinents, tels que OCT1, GATA1, EVI1 et MEF2 (Figure 5B )) étaient significativement enrichis (valeur p ajustée < 0,05). Fait intéressant, neuf TFB communs sont trouvés en commun entre les blastes CD34 + /CD38 - des deux échantillons de LAM. Ce résultat suggère une relation entre les cellules leucémiques CD33 + /CD34 + /CD38 - telle qu'un programme de transcription conjoint ou une identité cellulaire partagée.

Les profils de transcription des cellules leucémiques CD34 + /CD38 − peuvent identifier les gènes associés aux résultats de survie putatifs dans la cohorte AML-TCGA

Les rapports de patients atteints de LAM ont indiqué que les signatures d'expression génique des blastes leucémiques au moment du diagnostic ont une signification pronostique [11, 43]. Ainsi, nous avons émis l'hypothèse que ces signatures pourraient être détectées dans les profils de transcription leucémique CD33 + /CD34 + /CD38 − monocellulaire. Les données RNA-seq et les données de résultats cliniques de 163 personnes atteintes de LAM accessibles sur le site Web public de The Cancer Genome Atlas (TCGA) [44] ont été examinées, puis les associations entre 1675 gènes différentiellement exprimés de notre étude ont été évaluées par rapport aux résultats cliniques dans le Cohorte AML-TCGA. Plus précisément, nous avons classé les gènes en fonction des valeurs de p dérivées d'une régression de Cox univariée. Trente-six gènes de l'ensemble de gènes AML2 et 22 gènes de l'ensemble de gènes AML1 ont été identifiés comme significatifs pour la survie globale sur la base d'une comparaison des patients dans les 50 % supérieurs de l'expression génique par rapport à ceux des 50 % inférieurs de l'expression génique ( valeur p 0,05) (se référer aux données supplémentaires, tableau S5). Cinq gènes (MPO, ITGAX, RUFY3, FEM1C, et HSF2) étaient communs entre les ensembles de gènes AML1 et AML2. L'effet de l'expression relative de gènes sélectionnés sur la survie des patients atteints de LAM-TCGA est illustré dans les graphiques de Kaplan-Meier de la figure 6. Fait intéressant, l'expression globale de la myéloperoxydase (MPO) était plus élevée dans les cellules individuelles CD33 + /CD34 + /CD38 − normales par rapport aux cellules AML (FC N/AML2=24,77, p-value=3,92x10 −10 FC N/AML1=32, p-value=3,97x10 −9 ), alors que des niveaux élevés de MPO les transcrits étaient significativement associés à une survie améliorée dans les échantillons AML-TCGA (valeur p = 0,0042) (Figure 6). MPO est un marqueur de lignée myéloïde qui a été décrit comme un facteur pronostique potentiel de la LAM [45–48]. Cette analyse a identifié des gènes dont l'expression unicellulaire dans les cellules leucémiques était associée à la survie des patients AML-TCGA (se référer aux données complémentaires, Tableau S5). De plus, nous avons trouvé un enrichissement des signatures géniques pronostiques précédemment publiées [12, 49] dans des cellules leucémiques uniques CD34 + /CD38 − (se référer aux données supplémentaires, figure S5). Collectivement, ces résultats indiquent que le paysage transcriptionnel des cellules leucémiques CD33 + /CD34 + /CD38 - contient des informations putatives pertinentes sur les résultats de la maladie et que la stratégie transcriptomique monocellulaire présentée ici est potentiellement utile dans d'autres évaluations pronostiques.

(À gauche) Courbes de survie de Kaplan-Meier pour les patients AML-TCGA stratifiées en fonction des niveaux de transcription. Les patients ont été divisés en deux groupes : 50 % d'expression génique la plus faible et 50 % d'expression génique la plus élevée. Les valeurs p ont été calculées à l'aide d'une analyse de régression de Cox univariée. (À droite) Box-plots affichant la distribution des niveaux de transcrits (RPKM transformé en log2) dans des ensembles d'échantillons unicellulaires AML1, AML2 et N. Les groupes de cellules avec l'expression significative la plus élevée sont indiqués en rouge (valeur p < 0,05) (voir les données supplémentaires, tableau S5). HZ : rapport de risque.


Discussion

Figure 5. Sondage des lacunes de séquençage et des isomères nucléotidiques par MS/MS. (a) Séquençage automatisé d'un ARN modifié de 20 nt avec un 2′-O-méthylation en position C11 (R5 : AUAGCCCAGUCmAGUCUACGC). 2′-O-les modifications inhibent l'hydrolyse acide du squelette phosphate conduisant à des fragments d'échelle faibles ou manquants. La masse du fragment manquant dans l'échelle 3' inférieure correspond à A + C + méthyle (texte en gris). (b) Structure du dimère manquant déterminée par analyse MS/MS, avec les ions fragments caractéristiques marqués. (c) Spectre de fragmentation suivant une hydrolyse acide étendue (80 ° C, 75 % (v/v) d'acide formique, 2 h) pour augmenter l'abondance du dimère. Des données MS/MS ont été collectées pour le dimère modifié et des ions fragments ont été utilisés pour confirmer que la méthylation est sur la position 2' du ribose de la cytidine et que la séquence est CmA. Les étiquettes des fragments attribuables sont indiquées sur la structure du dimère dans le panneau (b).


Réduction dimensionnelle

Ici, nous représentons les profils de transcription de toutes les cellules de l'ensemble de données dans une projection 2D ou 3D, généralement en utilisant les méthodes t-SNE ou UMAP.

Graphique SNN

Le graphique SNN a été calculé précédemment dans la fonction FindNeighbors().

Calculer l'UMAP

Il calcule l'UMAP en utilisant les mêmes 15 PC que nous avons également utilisés pour le clustering.

Aperçu

Après calcul de l'UMAP, nous le traçons tout en colorant les cellules par le nombre de transcrits, d'échantillon, de cluster et de cycle cellulaire.

Échantillons

Pour comprendre à quel point les échantillons se chevauchent, nous traçons à nouveau l'UMAP et divisons les échantillons en différents panneaux. Évidemment, ils se chevauchent très bien.

Groupes

Au lieu de cela, pour les clusters, nous ajoutons simplement une étiquette au centre géométrique de chaque cluster.

Carte de Poincaré (travaux en cours)


Commentaires sur cet article Commentaires (0)

Tous mes commentaires ont été adressés par les auteurs. Certaines des améliorations suggérées ont été introduites, d'autres non, mais les auteurs ont expliqué qu'elles ne chevauchaient pas les objectifs de l'article.

Je suggère seulement de corriger un . continuer la lecture

Tous mes commentaires ont été adressés par les auteurs. Certaines des améliorations suggérées ont été introduites, d'autres non, mais les auteurs ont expliqué qu'elles ne chevauchaient pas les objectifs de l'article.

  • "Normalisation" au lieu de "Normalisation" apparaît une fois dans le chapitre "Transformation en valeurs FPKM et normalisation"
  • « ces ceux-là » - le mot répété dans la phrase commençant à partir de « la figure 2 montre que l'ensemble de gènes régulés à la baisse a plus de pouvoir discriminant… »
  • il n'y a pas de point à la fin de la dernière phrase du chapitre Résumé. De plus, je suggère de ne pas utiliser un terme « échantillons de NPM1c de type sauvage » formé comme un équivalent de « échantillons mutés de NPM1c », par ex. dans la description des figures 3 et 4, car « NPM1c » signifie « NPM1 cytoplasmique » qui est typique pour les échantillons avec le muté NPM1 gène. Le terme « échantillons de NPM1 de type sauvage » est plus approprié.

Intérêts concurrents : Aucun intérêt concurrent n'a été divulgué.

Expertise de l'examinateur : Génomique, transcriptomique, biologie de la leucémie aiguë myéloïde

Intérêts concurrents : Aucun intérêt concurrent n'a été divulgué.

Expertise de l'examinateur : Analyse du transcriptome, Régulation de l'expression génique

introduction
L'article présente un nouveau package, qui a été développé à partir d'un précédent ("singscore") élaboré par les mêmes auteurs. Le package « singscore » est une méthode de notation de l'ensemble de gènes à échantillon unique qui est utile pour l'analyse des transcriptomes d'échantillons collectés sur une longue période et non séquencés dans la même analyse, expérience, plate-forme ou laboratoire. Ici, les auteurs appliquent la méthode de classification des échantillons myéloïdes aigus (AML) TCGA en utilisant des « signatures géniques » transcriptionnelles identifiées par d'autres auteurs (Verhaak et Ross) comme typiques pour la mutation NPM1c, les fusions de gènes KMT2A (MLL) et PML-RARA fusions de gènes.

La LAM est une maladie hétérogène et multiclonale. L'image du transcriptome de la LAM est très complexe et peut résulter de différentes mutations, réarrangements génomiques et régulation aberrante de l'expression génique à différents niveaux (voir mon dernier article de synthèse 1). Parfois, les profils d'expression génique peuvent se chevaucher entre des échantillons présentant des lésions génétiques différentes. Les exemples sont des signatures discriminantes basées sur le gène HOX déterminées par Verhaak et Ross, non limitées à la LAM avec NPM1 muté, mais également spécifiques aux cas de LAM avec anomalies 11q23 et réarrangements du gène KMT2A (MLL). Les auteurs sont conscients de ce fait et le soulignent également dans l'article. D'un autre côté, les échantillons avec la même mutation peuvent présenter des profils d'expression variables en raison de caractéristiques supplémentaires qui affectent également le transcriptome. Par conséquent, l'interprétation des résultats doit être faite avec prudence. Pour moi, les auteurs interprètent les résultats un peu trop optimistes. La méthode présentée n'est pas suffisante pour déterminer la mutation d'intérêt, mais peut être utilisée comme une approche supplémentaire, un outil de dépistage ou (à l'avenir) un outil de médecine personnalisée qui pourrait classer les patients en fonction de profils transcriptomiques, associés à une réponse spécifique au traitement.

Paquet de test
J'ai utilisé le package dans R avec des données TCGA et je confirme que le code fonctionne, qu'il est rapide et génère les mêmes résultats et tracés que ceux présentés dans l'article. De plus, j'ai testé l'ensemble de la procédure sur mon propre jeu de données RNA-seq (pas encore publié mais utilisé pour l'analyse supplémentaire de l'expression des transcrits alternatifs NPM1, voir l'article 2). Mon jeu de données contient 28 échantillons AML, dont 8 avec une mutation NPM1 (vérifié avec trois approches indépendantes). Le chargement des données était plus délicat car je suis parti de la table csv avec les nombres et j'ai dû convertir l'objet DESeqDataSet en objet RangedSummarizedExperiment. La meilleure discrimination a été obtenue avec la signature Verhaak, mais uniquement avec les gènes régulés à la baisse. Tous les échantillons avec mutation NPM1 ont été clairement séparés des autres, cependant, 2 échantillons supplémentaires, sans mutation NPM1, ont été regroupés avec NPM1c. Il est possible qu'ils aient des réarrangements KMT2A (MLL), mais je ne peux pas le vérifier maintenant. En analysant les parcelles, les gènes régulés à la hausse et tous les gènes de la signature ne sont pas aussi efficaces, ne séparant que 2 ou 3 échantillons NPM1c du reste. Dans l'article, les auteurs admettent également que l'ensemble de gènes régulés à la baisse a plus de pouvoir discriminant, mais ils affirment que les gènes régulés à la hausse contribuent également à la discrimination.

Je n'ai pas d'échantillons avec la fusion PML-RARA dans mon ensemble de données et le statut du gène KMT2A (MLL) était inconnu chez mes patients, je n'ai donc pas pu comparer l'efficacité des signatures autres que NPM1c. L'APL avec PML-RARA est le sous-type d'AML le plus distinctif qui est facilement séparé des autres échantillons d'AML en fonction du profil du transcriptome, donc je m'attendrais à de bons résultats. Cet exemple montre que le package fonctionne bien pour les échantillons avec un profil d'expression génique très spécifique.

Interprétation des résultats
Compte tenu de l'interprétation du résultat, j'ai quelques doutes. Les singscores sont composés de deux composantes, un score d'enrichissement et une estimation de dispersion des rangs. On m'informe que « une expression élevée de gènes régulés à la hausse et une faible expression de gènes régulés à la baisse entraîneraient des scores plus élevés ». C'est logique. Je connais également les plages maximales ([−1, 1] pour les signatures impliquant des gènes régulés à la hausse et à la baisse). Cependant, quelle valeur est vraiment élevée ? Par exemple, 0,2 est suffisant (cela ressemble aux graphiques de l'article et à mes propres données également) ou je devrais peut-être m'attendre à beaucoup plus, par exemple. 0,7 ? De même, à quelle valeur de dispersion dois-je m'attendre ? Je suppose, le plus bas, mais lequel est assez bas ou quelle plage est optimale ? Ce qui est difficile à comprendre, c'est que « malgré l'augmentation de la gamme de scores, le pouvoir discriminant diminue modérément » (pour les gènes régulés à la hausse de la signature de Verhaak, par rapport aux gènes régulés à la baisse). Je vois le même paradoxe dans mes données – les scores sont plus élevés pour up-reg. gènes, qui sont beaucoup moins efficaces dans la discrimination entre les échantillons NPM1c+ et NPM1c-. Il semble que seuls les scores ne reflètent pas les tendances observées à partir des graphiques de score vs dispersion.

  • Instruction pour préparer et charger les données autres que celles déposées dans la base de données GDC.
  • Annotation des échantillons sur les parcelles avec des identifiants d'échantillons uniques (lorsqu'un échantillon est mal classé, un utilisateur ne sait pas lequel il est, il sera également utile de localiser un échantillon sur différentes parcelles, par exemple généré avec une signature de haut et de bas- gènes régulés) - il est écrit dans l'article que le package 'singscore' prend en charge différents types d'annotations ("Les annotations d'intérêt peuvent être superposées sur chaque tracé") mais je n'ai trouvé que des annotations de code couleur alors que j'aimerais avoir un code couleur pour type de mutation et des étiquettes de texte supplémentaires avec des ID d'échantillon sur le même tracé.
  • Une commande qui répertorie les échantillons saisis comme candidats forts pour avoir une mutation particulière, classés en fonction des métriques calculées.
  • Génération d'une ligne de seuil entre les échantillons avec et sans mutation.

Ce que j'attendrais le plus d'un package conçu pour identifier les mutations dans les transcriptomes, c'est une identification directe des mutations dans les données RNAseq. Les résultats du typage des mutations basé sur le profil d'expression génique seront fortement étayés lorsqu'une mutation particulière sera couverte par les lectures RNAseq. De ma propre expérience, je sais que c'est possible (pour la détection des mutations NPM1, voir 4 ). Pour les gènes avec un niveau d'expression élevé et moyen, la couverture peut être encore plus élevée que celle obtenue à partir des données au niveau du génome ou de l'exome. Et dans le cas où les données ADN ne seraient pas disponibles, ce serait vraiment fantastique. Parce qu'il exige un traitement des données complètement différent, il peut être envisagé pour les futures versions du package.

La justification du développement du nouvel outil logiciel est-elle clairement expliquée ?

La description de l'outil logiciel est-elle techniquement valable ?

Des détails suffisants sur le code, les méthodes et l'analyse (le cas échéant) sont-ils fournis pour permettre la réplication du développement du logiciel et son utilisation par d'autres ?

Les informations fournies sont-elles suffisantes pour permettre l'interprétation des ensembles de données de sortie attendus et des résultats générés à l'aide de l'outil ?

Les conclusions concernant l'outil et ses performances sont-elles suffisamment étayées par les résultats présentés dans l'article ?

1. Handschuh L : Non seulement les mutations comptent : image moléculaire de la leucémie myéloïde aiguë issue d'études sur le transcriptome. Journal d'oncologie. 2019 2019: 1-36 Éditeur Texte intégral
2. Handschuh L, Wojciechowski P, Kazmierczak M, Marcinkowska-Swojak M, et al. : Les transcrits alternatifs NPM1 sont régulés positivement dans la leucémie aiguë myéloïde et lymphoblastique et leur niveau d'expression affecte les résultats des patients. Journal de médecine translationnelle. 2018 16 (1). Texte intégral de l'éditeur
3. Alcalay M, Tiacci E, Bergomas R, Bigerna B, et al. : La leucémie myéloïde aiguë portant la nucléophosmine cytoplasmique (NPMc+ AML) présente un profil d'expression génique distinct caractérisé par une régulation à la hausse des gènes impliqués dans la maintenance des cellules souches.Du sang. 2005 106 (3) : 899-902 PubMed Résumé | Texte intégral de l'éditeur
4. Marcinkowska-Swojak M, Handschuh L, Wojciechowski P, Goralski M, et al. : Détection simultanée de mutations et variation du nombre de copies de NPM1 dans la leucémie myéloïde aiguë à l'aide d'une amplification de sonde dépendante de la ligature multiplex.Mutat Res. 2016 786: 14-26 PubMed Résumé | Texte intégral de l'éditeur

Intérêts concurrents : Aucun intérêt concurrent n'a été divulgué.

Expertise de l'examinateur : Génomique, transcriptomique, biologie de la leucémie aiguë myéloïde.

Nous remercions le réviseur pour le temps et les efforts consacrés à la révision de notre manuscrit et pour les commentaires utiles qu'il a fournis. Le cas échéant, nous avons modifié notre manuscrit pour . continuer la lecture Nous remercions le réviseur pour le temps et les efforts consacrés à la révision de notre manuscrit et pour les commentaires utiles qu'il a fournis. Le cas échéant, nous avons modifié notre manuscrit pour tenir compte des commentaires du réviseur.
Ci-dessous, nous incluons une réponse point par point aux commentaires du réviseur et, le cas échéant, nous énumérons les modifications correspondantes apportées au manuscrit.

introduction
LH: L'article présente un nouveau package, qui a été développé à partir d'un précédent ("singscore") élaboré par les mêmes auteurs. Le package « singscore » est une méthode de notation de l'ensemble de gènes à échantillon unique qui est utile pour l'analyse des transcriptomes d'échantillons collectés sur une longue période et non séquencés dans le même cycle, expérience, plate-forme ou laboratoire.Ici, les auteurs appliquent la méthode de classification des échantillons myéloïdes aigus (AML) TCGA en utilisant des « signatures géniques » transcriptionnelles identifiées par d'autres auteurs (Verhaak et Ross) comme typiques pour la mutation NPM1c, les fusions de gènes KMT2A (MLL) et PML-RARA fusions de gènes.

DDB: Nous notons que le but du manuscrit initial n'était peut-être pas clair, en partie parce qu'il est répertorié dans la section Article de l'outil logiciel F1000. Le but de cet article est de présenter un workflow démontrant l'utilisation de singscore, et il s'agit d'un workflow R/Bioconductor illustrant l'utilisation de singscore, et n'est donc pas conçu comme un nouveau package ou outil.
https://www.bioconductor.org/packages/release/workflows/
https://www.bioconductor.org/packages/release/workflows/html/SingscoreAMLMutations.html
Certains des commentaires de revue ci-dessous supposent que ce manuscrit présente un progiciel spécifique pour détecter les mutations NPM1, nous avons donc clarifié le manuscrit comme indiqué ci-dessous afin de rendre le but et l'intention plus clairs (notez que le titre du manuscrit a changé de « prédire les mutations » à « prédire l'état de la mutation » sur la base des commentaires de l'examinateur 1).
Ce travail est né d'une observation dans un autre projet selon laquelle la signature Verhaak notée avec singscore semblait être fortement corrélée avec le statut de mutation, et nous avons pensé que ce serait un exemple intéressant qui pourrait également aider les chercheurs à étudier les liens entre les lésions génétiques et les changements transcriptionnels correspondants, un domaine dans lequel l'examinateur a clairement une expertise.

LH: La LAM est une maladie hétérogène et multiclonale. L'image du transcriptome de la LAM est très complexe et peut résulter de différentes mutations, réarrangements génomiques et régulation aberrante de l'expression génique à différents niveaux (voir mon dernier article de synthèse 1). Parfois, les profils d'expression génique peuvent se chevaucher entre des échantillons présentant des lésions génétiques différentes. Les exemples sont des signatures discriminantes basées sur le gène HOX déterminées par Verhaak et Ross, non limitées à la LAM avec NPM1 muté, mais également spécifiques aux cas de LAM avec anomalies 11q23 et réarrangements du gène KMT2A (MLL). Les auteurs sont conscients de ce fait et le soulignent également dans l'article. D'un autre côté, les échantillons avec la même mutation peuvent présenter des profils d'expression variables en raison de caractéristiques supplémentaires qui affectent également le transcriptome.

LH: Par conséquent, l'interprétation des résultats doit être faite avec prudence. Pour moi, les auteurs interprètent les résultats un peu trop optimistes. La méthode présentée n'est pas suffisante pour déterminer la mutation d'intérêt, mais peut être utilisée comme une approche supplémentaire, un outil de dépistage ou (à l'avenir) un outil de médecine personnalisée qui pourrait classer les patients en fonction de profils transcriptomiques, associés à une réponse spécifique au traitement.

DDB: Nous sommes d'accord avec l'examinateur sur le fait que la notation de l'ensemble de gènes des données transcriptomiques ne devrait pas être la seule méthode utilisée pour identifier les échantillons de patients porteurs de lésions génétiques. Le flux de travail Bioconductor que nous présentons est destiné à fournir un exemple d'application de singscore pour étudier des ensembles de gènes basés sur la mutation/fusion, car nous pensons que singscore fournit une approche relativement flexible et intuitive pour étudier différents ensembles de gènes dans de grands ensembles de données. Nous pensons qu'une fonctionnalité particulièrement utile est la possibilité de combiner différentes signatures/ensembles de gènes (y compris les signatures de phénotype/cycle cellulaire, etc.)
Nous avons modifié la section « Description de la pertinence biologique » pour répondre aux commentaires de l'examinateur concernant la complexité des lésions génomiques de la LMA et les changements transcriptomiques correspondants. La revue mise en évidence est particulièrement pertinente pour ce travail et en conséquence nous mentionnons la complexité de la LBA et orientons le lecteur vers cette ressource en étendant le premier paragraphe (nouveau texte souligné):
.. Une étude plus récente qui s'est concentrée principalement sur les données génomiques a affiné davantage les sous-types de LAM cliniquement significatifs [Papaemmanuil (2016), NEJM], mettant en évidence un certain nombre de mutations concomitantes et mutuellement exclusives. Au fur et à mesure que l'identification des fusions/mutations de pilotes putatifs se poursuit, les travaux ont également été orientés vers la manière dont ces lésions interagissent les unes avec les autres et avec d'autres caractéristiques (par exemple, la prolifération cellulaire, les changements dus à la plasticité phénotypique ou la variation des régulateurs post-transcriptionnels tels que les microARN) pour conduire des changements transcriptionnels comme discuté dans une revue récente [Hanschuch (2019), J. Oncol.].

Nous avons également ajouté un paragraphe à la fin de cette section qui traite de certaines des limites de notre approche et fournit plus de contexte dans lequel elle pourrait être appliquée :
Alors que nous démontrons que singscore est capable de déduire le statut de mutation à partir du profil transcriptionnel des échantillons de LAM, nous notons qu'il est mieux utilisé pour compléter des données alternatives qui peuvent fournir une résolution plus définitive de ces lésions. Le traitement des données brutes d'ARN-seq identifiera directement la présence de produits de fusion de gènes ou de mutations dans les régions codant pour les protéines, bien que pour de nombreux grands ensembles de données, les données quantifiées d'abondance des transcrits soient beaucoup plus faciles à obtenir sans accords d'accès. La méthode peut également être appliquée aux ensembles de données de puces à ADN héritées où les données de séquençage du génome et de l'ARN ne sont pas disponibles. En tant que tel, singscore fournit une approche utile pour compléter les méthodes établies pour l'étude des lésions génétiques dans le cancer. En explorant les associations entre différentes signatures génomiques et phénotypiquement pertinentes, cela peut également aider à mieux caractériser les véritables mutations motrices qui exercent des effets cohérents sur le transcriptome des échantillons de LAM et d'autres cancers.

Paquet de test
LH: J'ai utilisé le package dans R avec des données TCGA et je confirme que le code fonctionne, il est rapide et génère les mêmes résultats et tracés que ceux présentés dans l'article. De plus, j'ai testé l'ensemble de la procédure sur mon propre jeu de données RNA-seq (pas encore publié mais utilisé pour l'analyse supplémentaire de l'expression des transcrits alternatifs NPM1, voir l'article 2). Mon jeu de données contient 28 échantillons AML, dont 8 avec une mutation NPM1 (vérifié avec trois approches indépendantes). Le chargement des données était plus délicat car je suis parti de la table csv avec les nombres et j'ai dû convertir l'objet DESeqDataSet en objet RangedSummarizedExperiment. La meilleure discrimination a été obtenue avec la signature Verhaak, mais uniquement avec les gènes régulés à la baisse. Tous les échantillons avec mutation NPM1 ont été clairement séparés des autres, cependant, 2 échantillons supplémentaires, sans mutation NPM1, ont été regroupés avec NPM1c. Il est possible qu'ils aient des réarrangements KMT2A (MLL), mais je ne peux pas le vérifier maintenant. En analysant les parcelles, les gènes régulés à la hausse et tous les gènes de la signature ne sont pas aussi efficaces, ne séparant que 2 ou 3 échantillons NPM1c du reste. Dans l'article, les auteurs admettent également que l'ensemble de gènes régulés à la baisse a plus de pouvoir discriminant, mais ils affirment que les gènes régulés à la hausse contribuent également à la discrimination.

LH: Je n'ai aucun échantillon avec la fusion PML-RARA dans mon ensemble de données et le statut du gène KMT2A (MLL) était inconnu chez mes patients, je ne pouvais donc pas comparer l'efficacité des signatures autres que NPM1c. L'APL avec PML-RARA est le sous-type d'AML le plus distinctif qui est facilement séparé des autres échantillons d'AML en fonction du profil du transcriptome, donc je m'attendrais à de bons résultats. Cet exemple montre que le package fonctionne bien pour les échantillons avec un profil d'expression génique très spécifique.

DDB: Nous remercions le réviseur pour les efforts et le temps exceptionnels investis pour tester notre flux de travail sur des données indépendantes - nous espérons que les résultats de cette analyse ont été instructifs pour identifier d'autres caractéristiques dans leurs données. Notre flux de travail comprend des conseils pour les utilisateurs qui souhaitent importer des données à partir d'autres sources telles que celles utilisées par le réviseur.

Interprétation des résultats
LH: Vu l'interprétation du résultat, j'ai quelques doutes. Les singscores sont composés de deux composantes, un score d'enrichissement et une estimation de dispersion des rangs. On m'informe que « une expression élevée de gènes régulés à la hausse et une faible expression de gènes régulés à la baisse entraîneraient des scores plus élevés ». C'est logique. Je connais également les plages maximales ([−1, 1] pour les signatures impliquant des gènes régulés à la hausse et à la baisse). Cependant, quelle valeur est vraiment élevée ? Par exemple, 0,2 est suffisant (cela ressemble aux graphiques de l'article et à mes propres données également) ou je devrais peut-être m'attendre à beaucoup plus, par exemple. 0,7 ? De même, à quelle valeur de dispersion dois-je m'attendre ? Je suppose, le plus bas, mais lequel est assez bas ou quelle plage est optimale ? Ce qui est difficile à comprendre, c'est que « malgré l'augmentation de la gamme de scores, le pouvoir discriminant diminue modérément » (pour les gènes régulés à la hausse de la signature de Verhaak, par rapport aux gènes régulés à la baisse). Je vois le même paradoxe dans mes données – les scores sont plus élevés pour up-reg. gènes, qui sont beaucoup moins efficaces dans la discrimination entre les échantillons NPM1c+ et NPM1c-. Il semble que seuls les scores ne reflètent pas les tendances observées à partir des graphiques de score vs dispersion.

DDB: L'interprétation des singscores est intentionnellement laissée à un problème spécifique car elle nécessite généralement des connaissances spécifiques au domaine du système biologique et des gènes de signature correspondants - idéalement, le biologiste computationnel ou les bioinformaticiens travaillant sur chaque projet peuvent fournir des conseils.
L'interprétation de base du score est le rang moyen normalisé des gènes dans la signature par rapport à tous les autres gènes de l'échantillon. Aux extrêmes, cette interprétation est relativement simple - près de 1, une valeur plus élevée indiquerait que les gènes de la signature sont exprimés à des niveaux plus élevés par rapport aux autres gènes. Pour les scores vers zéro, cependant, l'interprétation peut être beaucoup plus difficile - un score de zéro (sur la plage [-1,1]) pourrait indiquer que les gènes de signature sont étroitement regroupés autour de l'abondance moyenne à l'échelle de l'échantillon, ou cela pourrait indiquer une distribution presque uniforme hautement dispersée sur toute la plage d'abondance (avec une moyenne proche de la moyenne de tous les gènes). En explorant les singscores avec les estimations de dispersion, ces informations sont résumées, ce qui aide à estimer la variabilité de la taille de l'effet.
L'interprétation des scores dépend du contexte de l'expérience et du comportement typique de l'ensemble de gènes. Un score « élevé » est mieux déterminé par rapport aux autres échantillons. Ceci est réalisé soit en comparant les scores d'autres échantillons dans de grands ensembles de données tels que TCGA, ou mieux, à travers un ensemble d'échantillons d'une expérience donnée avec des conditions connues. D'autres méthodes normalisent les données avant de calculer les scores, et nous notons qu'un article récent a appliqué la normalisation du z-score aux résultats de singscore pour une comparaison avec ssGSEA [Cui et al (2019) Oncogene, DOI: 10.1038/s41388-019-1026-9 ].
Tous les scores des échantillons restent les mêmes et n'ont pas à être recalculés lors de l'ajout de nouveaux échantillons, et l'interprétation s'améliorera à mesure que de nouveaux échantillons seront ajoutés à l'étude. Par exemple, la modélisation du mélange gaussien pourrait être utilisée pour séparer les scores NPM1c en fonction de notre attente qu'il y ait deux groupes. Cela pourrait être commuté avec d'autres algorithmes de classification non supervisés tels que le clustering hiérarchique ou le clustering k-means. Nous avons ajouté un exemple d'analyse au manuscrit pour démontrer comment les scores peuvent être interprétés dans un cadre non supervisé, dans la section « Signatures transcriptionnelles pour prédire l'état de la mutation/Classification non supervisée des mutations ».
Il peut y avoir des cas où l'annotation d'échantillon n'est pas disponible. Dans de tels scénarios, nous ne sommes pas en mesure de construire des modèles de régression pour interpréter les scores. Un singscore plus élevé fournirait une preuve plus forte de la signature, mais l'ampleur est difficile à interpréter sans référence. Une approche pour faire face à cette situation consiste à comparer les scores à ceux d'autres ensembles de données où l'état des mutations est connu. Une autre approche consisterait à comparer les scores au sein de l'ensemble de données à l'aide de méthodes d'apprentissage non supervisées.
Ici, nous démontrons l'utilisation de trois méthodes de clustering (décomposition de mélange gaussien, clustering k-means et clustering hiérarchique) pour stratifier les échantillons, et comme nous l'avons fait précédemment [wang et al (2012) Journal of clinical bioinformatics] utiliser l'indice de Rand ajusté (ARI) pour comparer les classifications. Comme prévu, la classification supervisée (GLM) donne la meilleure prédiction. Ceci est suivi d'un regroupement basé sur le score en utilisant la décomposition en mélange gaussien. Tout autre algorithme de classification ainsi que les connaissances préalables pourraient être utilisés pour décomposer les scores en groupes. La caractéristique importante des singscores est qu'ils maintiennent le pouvoir discriminant des signatures génétiques et peuvent donc être couplés à des algorithmes supervisés, semi-supervisés ou non supervisés pour effectuer une stratification.

#Modèle de mélange gaussien
m1 = Mclust(scoredf$Score, G = 2, verbeux = FAUX)
#k-means clustering
m2 = kmeans(scoredf[, 5:6], centres = 2, nstart = 100)
#classification hiérarchique
m3 = hclust(dist(scoredf[, 5:6]))

mutation_inference = cbind(
'GLM' = prédiction,
'mclust' = m1$classification,
'k-means' = m2$cluster,
'hclust' = cutree(m3, k = 2)
)
appliquer (mutation_inference, 2, AdjustRandIndex, scoredf$NPM1c.Mut)
```
Améliorations possibles
LH: Bien que le package soit généralement utile et bien décrit, les améliorations suivantes le rendront plus convivial pour les utilisateurs de R moins avancés, par ex.

LH: Instruction de préparation et de chargement des données autres que celles déposées dans la base de données GDC.

DDB: Nous avons noté dans le texte que la matrice de classement peut être calculée à l'aide d'un objet SummarizedExperiment, d'un objet DGElist, d'un objet ExpressionSet, d'une matrice numérique ou d'un bloc de données numériques. En tant que telle, une matrice numérique avec des noms d'échantillons comme noms de colonnes et des gènes comme noms de lignes suffirait. La notation doit être effectuée sur des mesures corrigées du biais de longueur telles que RPKM/FPKM ou TPM et non sur des CPM ou des comptages bruts.
Signatures transcriptionnelles pour prédire l'état de mutation/Score des échantillons TCGA AML à l'aide de la signature Verhaak - extrait du texte : « La fonction `rankGenes` calculera les rangs à partir des données d'expression sous la forme d'une matrice numérique, d'un cadre de données numériques, d'un objet ExpressionSet, d'un objet DGElist ou un objet SummarizedExperiment"

LH: Annotation des échantillons sur les parcelles avec des identifiants d'échantillon uniques (lorsqu'un échantillon est mal classé, un utilisateur ne sait pas lequel il est, il sera également utile de localiser un échantillon sur différentes parcelles, par exemple généré avec une signature de haut en bas -gènes régulés) - il est écrit dans l'article que le package 'singscore' prend en charge différents types d'annotations ("Les annotations d'intérêt peuvent être superposées sur chaque tracé") mais je n'ai trouvé que des annotations de code couleur alors que j'aimerais avoir un code couleur pour le type de mutation et des étiquettes de texte supplémentaires avec des ID d'échantillon sur le même tracé.

DDB: des exemples d'étiquettes peuvent être ajoutés aux parcelles de paysage mais n'étaient pas pris en charge dans d'autres visualisations. Nous avons ajouté des fonctionnalités à la dernière version du package singscore (v1.5.1) pour permettre l'étiquetage des échantillons dans les parcelles score vs dispersion. Nous avons modifié le texte pour clarifier et modifié la figure 6 pour étiqueter les échantillons où l'incertitude de classification (NMP1c vs WT) est élevée pour démontrer cette caractéristique. Les modifications ci-dessous ont été apportées à la section : « Signatures transcriptionnelles pour prédire l'état de mutation/Diagnostics de la signature Verhaak ».
Les exemples d'annotations d'intérêt (par exemple, les annotations cliniques) peuvent être codés par couleur sur chaque parcelle. …

Figure 6 :
```
select_aml = !mutated_gene %in% 'Autre'

#label échantillons avec une incertitude de classification mclust NPM1c de > 0,3
label_samples = substr(rownames(verhaak_scores), 6, 12) #ID d'échantillon à partir des codes à barres
label_samples[m1$uncertainty < 0.3] = NA

#projeter les mutations sur le paysage
p1 = projectScoreLandscape(
p_mll_npm1c,
verhaak_scores,
rossmll_scores,
sous-échantillons = select_aml,
annot = muté_gène[select_aml],
sampleLabels = label_samples[select_aml]
)
p1 + thème(légende.box = 'vertical')
```
LH: une commande qui répertorie les échantillons saisis comme candidats forts pour avoir une mutation particulière, classés en fonction des métriques calculées.

DDB: Comme indiqué dans un commentaire précédent, nous recommandons que ces analyses soient spécifiques au problème. Généralement, un score plus élevé indiquerait un effet plus fort des gènes dans la signature par rapport aux échantillons WT, donc les échantillons avec des scores plus élevés seraient des candidats plus forts pour les mutations. Alternativement, le partitionnement créé à l'aide de la modélisation du mélange gaussien pourrait être utilisé comme guide pour la séparation et les échantillons avec un score beaucoup plus élevé que le seuil seraient les candidats les plus forts pour la mutation.

LH: Génération d'une ligne de seuil entre les échantillons avec et sans mutation.

DDB: Voir la discussion/recommandation ci-dessus.

LH: À l'avenir, il serait également bon d'inclure d'autres signatures, par ex. la signature de 369 gènes identifiés par Alcalay et al. en 2005 3 , discriminer les patients atteints de LAM avec NPMc+ des patients avec NPMc-, même dans les cas avec des anomalies chromosomiques rares.

LH: Ce que j'attends le plus d'un package conçu pour identifier les mutations dans les transcriptomes, c'est une identification directe des mutations dans les données RNAseq. Les résultats du typage des mutations basé sur le profil d'expression génique seront fortement étayés lorsqu'une mutation particulière sera couverte par les lectures RNAseq. De ma propre expérience, je sais que c'est possible (pour la détection des mutations NPM1, voir 4 ). Pour les gènes avec un niveau d'expression élevé et moyen, la couverture peut être encore plus élevée que celle obtenue à partir des données au niveau du génome ou de l'exome. Et dans le cas où les données ADN ne seraient pas disponibles, ce serait vraiment fantastique. Parce qu'il exige un traitement des données complètement différent, il peut être envisagé pour les futures versions du package.

DDB: Comme nous l'avons souligné au début de cette revue, il peut y avoir eu un malentendu autour de l'objectif de ce paquet/document de workflow. Nous convenons avec l'examinateur que la détection directe des mutations/fusions à partir des données RNA-seq est la meilleure approche, et nous le notons maintenant dans la section « Description de la pertinence biologique » comme indiqué ci-dessus. Les autres signatures génétiques mentionnées ci-dessus pourraient être incorporées dans un flux de travail, car singscore prend en charge l'analyse et la comparaison de plusieurs ensembles de gènes.

Nous remercions le réviseur pour le temps et les efforts consacrés à la révision de notre manuscrit et pour les commentaires utiles qu'il a fournis. Le cas échéant, nous avons modifié notre manuscrit pour tenir compte des commentaires du réviseur.
Ci-dessous, nous incluons une réponse point par point aux commentaires du réviseur et, le cas échéant, nous énumérons les modifications correspondantes apportées au manuscrit.

introduction
LH: L'article présente un nouveau package, qui a été développé à partir d'un précédent ("singscore") élaboré par les mêmes auteurs.Le package « singscore » est une méthode de notation de l'ensemble de gènes à échantillon unique qui est utile pour l'analyse des transcriptomes d'échantillons collectés sur une longue période et non séquencés dans le même cycle, expérience, plate-forme ou laboratoire. Ici, les auteurs appliquent la méthode de classification des échantillons myéloïdes aigus (AML) TCGA en utilisant des « signatures géniques » transcriptionnelles identifiées par d'autres auteurs (Verhaak et Ross) comme typiques pour la mutation NPM1c, les fusions de gènes KMT2A (MLL) et PML-RARA fusions de gènes.

DDB: Nous notons que le but du manuscrit initial n'était peut-être pas clair, en partie parce qu'il est répertorié dans la section Article de l'outil logiciel F1000. Le but de cet article est de présenter un workflow démontrant l'utilisation de singscore, et il s'agit d'un workflow R/Bioconductor illustrant l'utilisation de singscore, et n'est donc pas conçu comme un nouveau package ou outil.
https://www.bioconductor.org/packages/release/workflows/
https://www.bioconductor.org/packages/release/workflows/html/SingscoreAMLMutations.html
Certains des commentaires de revue ci-dessous supposent que ce manuscrit présente un progiciel spécifique pour détecter les mutations NPM1, nous avons donc clarifié le manuscrit comme indiqué ci-dessous afin de rendre le but et l'intention plus clairs (notez que le titre du manuscrit a changé de « prédire les mutations » à « prédire l'état de la mutation » sur la base des commentaires de l'examinateur 1).
Ce travail est né d'une observation dans un autre projet selon laquelle la signature Verhaak notée avec singscore semblait être fortement corrélée avec le statut de mutation, et nous avons pensé que ce serait un exemple intéressant qui pourrait également aider les chercheurs à étudier les liens entre les lésions génétiques et les changements transcriptionnels correspondants, un domaine dans lequel l'examinateur a clairement une expertise.

LH: La LAM est une maladie hétérogène et multiclonale. L'image du transcriptome de la LAM est très complexe et peut résulter de différentes mutations, réarrangements génomiques et régulation aberrante de l'expression génique à différents niveaux (voir mon dernier article de synthèse 1). Parfois, les profils d'expression génique peuvent se chevaucher entre des échantillons présentant des lésions génétiques différentes. Les exemples sont des signatures discriminantes basées sur le gène HOX déterminées par Verhaak et Ross, non limitées à la LAM avec NPM1 muté, mais également spécifiques aux cas de LAM avec anomalies 11q23 et réarrangements du gène KMT2A (MLL). Les auteurs sont conscients de ce fait et le soulignent également dans l'article. D'un autre côté, les échantillons avec la même mutation peuvent présenter des profils d'expression variables en raison de caractéristiques supplémentaires qui affectent également le transcriptome.

LH: Par conséquent, l'interprétation des résultats doit être faite avec prudence. Pour moi, les auteurs interprètent les résultats un peu trop optimistes. La méthode présentée n'est pas suffisante pour déterminer la mutation d'intérêt, mais peut être utilisée comme une approche supplémentaire, un outil de dépistage ou (à l'avenir) un outil de médecine personnalisée qui pourrait classer les patients en fonction de profils transcriptomiques, associés à une réponse spécifique au traitement.

DDB: Nous sommes d'accord avec l'examinateur sur le fait que la notation de l'ensemble de gènes des données transcriptomiques ne devrait pas être la seule méthode utilisée pour identifier les échantillons de patients porteurs de lésions génétiques. Le flux de travail Bioconductor que nous présentons est destiné à fournir un exemple d'application de singscore pour étudier des ensembles de gènes basés sur la mutation/fusion, car nous pensons que singscore fournit une approche relativement flexible et intuitive pour étudier différents ensembles de gènes dans de grands ensembles de données. Nous pensons qu'une fonctionnalité particulièrement utile est la possibilité de combiner différentes signatures/ensembles de gènes (y compris les signatures de phénotype/cycle cellulaire, etc.)
Nous avons modifié la section « Description de la pertinence biologique » pour répondre aux commentaires de l'examinateur concernant la complexité des lésions génomiques de la LMA et les changements transcriptomiques correspondants. La revue mise en évidence est particulièrement pertinente pour ce travail et en conséquence nous mentionnons la complexité de la LBA et orientons le lecteur vers cette ressource en étendant le premier paragraphe (nouveau texte souligné):
.. Une étude plus récente qui s'est concentrée principalement sur les données génomiques a affiné davantage les sous-types de LAM cliniquement significatifs [Papaemmanuil (2016), NEJM], mettant en évidence un certain nombre de mutations concomitantes et mutuellement exclusives. Au fur et à mesure que l'identification des fusions/mutations de pilotes putatifs se poursuit, les travaux ont également été orientés vers la manière dont ces lésions interagissent les unes avec les autres et avec d'autres caractéristiques (par exemple, la prolifération cellulaire, les changements dus à la plasticité phénotypique ou la variation des régulateurs post-transcriptionnels tels que les microARN) pour conduire des changements transcriptionnels comme discuté dans une revue récente [Hanschuch (2019), J. Oncol.].

Nous avons également ajouté un paragraphe à la fin de cette section qui traite de certaines des limites de notre approche et fournit plus de contexte dans lequel elle pourrait être appliquée :
Alors que nous démontrons que singscore est capable de déduire le statut de mutation à partir du profil transcriptionnel des échantillons de LAM, nous notons qu'il est mieux utilisé pour compléter des données alternatives qui peuvent fournir une résolution plus définitive de ces lésions. Le traitement des données brutes d'ARN-seq identifiera directement la présence de produits de fusion de gènes ou de mutations dans les régions codant pour les protéines, bien que pour de nombreux grands ensembles de données, les données quantifiées d'abondance des transcrits soient beaucoup plus faciles à obtenir sans accords d'accès. La méthode peut également être appliquée aux ensembles de données de puces à ADN héritées où les données de séquençage du génome et de l'ARN ne sont pas disponibles. En tant que tel, singscore fournit une approche utile pour compléter les méthodes établies pour l'étude des lésions génétiques dans le cancer. En explorant les associations entre différentes signatures génomiques et phénotypiquement pertinentes, cela peut également aider à mieux caractériser les véritables mutations motrices qui exercent des effets cohérents sur le transcriptome des échantillons de LAM et d'autres cancers.

Paquet de test
LH: J'ai utilisé le package dans R avec des données TCGA et je confirme que le code fonctionne, il est rapide et génère les mêmes résultats et tracés que ceux présentés dans l'article. De plus, j'ai testé l'ensemble de la procédure sur mon propre jeu de données RNA-seq (pas encore publié mais utilisé pour l'analyse supplémentaire de l'expression des transcrits alternatifs NPM1, voir l'article 2). Mon jeu de données contient 28 échantillons AML, dont 8 avec une mutation NPM1 (vérifié avec trois approches indépendantes). Le chargement des données était plus délicat car je suis parti de la table csv avec les nombres et j'ai dû convertir l'objet DESeqDataSet en objet RangedSummarizedExperiment. La meilleure discrimination a été obtenue avec la signature Verhaak, mais uniquement avec les gènes régulés à la baisse. Tous les échantillons avec mutation NPM1 ont été clairement séparés des autres, cependant, 2 échantillons supplémentaires, sans mutation NPM1, ont été regroupés avec NPM1c. Il est possible qu'ils aient des réarrangements KMT2A (MLL), mais je ne peux pas le vérifier maintenant. En analysant les parcelles, les gènes régulés à la hausse et tous les gènes de la signature ne sont pas aussi efficaces, ne séparant que 2 ou 3 échantillons NPM1c du reste. Dans l'article, les auteurs admettent également que l'ensemble de gènes régulés à la baisse a plus de pouvoir discriminant, mais ils affirment que les gènes régulés à la hausse contribuent également à la discrimination.

LH: Je n'ai aucun échantillon avec la fusion PML-RARA dans mon ensemble de données et le statut du gène KMT2A (MLL) était inconnu chez mes patients, je ne pouvais donc pas comparer l'efficacité des signatures autres que NPM1c. L'APL avec PML-RARA est le sous-type d'AML le plus distinctif qui est facilement séparé des autres échantillons d'AML en fonction du profil du transcriptome, donc je m'attendrais à de bons résultats. Cet exemple montre que le package fonctionne bien pour les échantillons avec un profil d'expression génique très spécifique.

DDB: Nous remercions le réviseur pour les efforts et le temps exceptionnels investis pour tester notre flux de travail sur des données indépendantes - nous espérons que les résultats de cette analyse ont été instructifs pour identifier d'autres caractéristiques dans leurs données. Notre flux de travail comprend des conseils pour les utilisateurs qui souhaitent importer des données à partir d'autres sources telles que celles utilisées par le réviseur.

Interprétation des résultats
LH: Vu l'interprétation du résultat, j'ai quelques doutes. Les singscores sont composés de deux composantes, un score d'enrichissement et une estimation de dispersion des rangs. On m'informe que « une expression élevée de gènes régulés à la hausse et une faible expression de gènes régulés à la baisse entraîneraient des scores plus élevés ». C'est logique. Je connais également les plages maximales ([−1, 1] pour les signatures impliquant des gènes régulés à la hausse et à la baisse). Cependant, quelle valeur est vraiment élevée ? Par exemple, 0,2 est suffisant (cela ressemble aux graphiques de l'article et à mes propres données également) ou je devrais peut-être m'attendre à beaucoup plus, par exemple. 0,7 ? De même, à quelle valeur de dispersion dois-je m'attendre ? Je suppose, le plus bas, mais lequel est assez bas ou quelle plage est optimale ? Ce qui est difficile à comprendre, c'est que « malgré l'augmentation de la gamme de scores, le pouvoir discriminant diminue modérément » (pour les gènes régulés à la hausse de la signature de Verhaak, par rapport aux gènes régulés à la baisse). Je vois le même paradoxe dans mes données – les scores sont plus élevés pour up-reg. gènes, qui sont beaucoup moins efficaces dans la discrimination entre les échantillons NPM1c+ et NPM1c-. Il semble que seuls les scores ne reflètent pas les tendances observées à partir des graphiques de score vs dispersion.

DDB: L'interprétation des singscores est intentionnellement laissée à un problème spécifique car elle nécessite généralement des connaissances spécifiques au domaine du système biologique et des gènes de signature correspondants - idéalement, le biologiste computationnel ou les bioinformaticiens travaillant sur chaque projet peuvent fournir des conseils.
L'interprétation de base du score est le rang moyen normalisé des gènes dans la signature par rapport à tous les autres gènes de l'échantillon. Aux extrêmes, cette interprétation est relativement simple - près de 1, une valeur plus élevée indiquerait que les gènes de la signature sont exprimés à des niveaux plus élevés par rapport aux autres gènes. Pour les scores vers zéro, cependant, l'interprétation peut être beaucoup plus difficile - un score de zéro (sur la plage [-1,1]) pourrait indiquer que les gènes de signature sont étroitement regroupés autour de l'abondance moyenne à l'échelle de l'échantillon, ou cela pourrait indiquer une distribution presque uniforme hautement dispersée sur toute la plage d'abondance (avec une moyenne proche de la moyenne de tous les gènes). En explorant les singscores avec les estimations de dispersion, ces informations sont résumées, ce qui aide à estimer la variabilité de la taille de l'effet.
L'interprétation des scores dépend du contexte de l'expérience et du comportement typique de l'ensemble de gènes. Un score « élevé » est mieux déterminé par rapport aux autres échantillons. Ceci est réalisé soit en comparant les scores d'autres échantillons dans de grands ensembles de données tels que TCGA, ou mieux, à travers un ensemble d'échantillons d'une expérience donnée avec des conditions connues. D'autres méthodes normalisent les données avant de calculer les scores, et nous notons qu'un article récent a appliqué la normalisation du z-score aux résultats de singscore pour une comparaison avec ssGSEA [Cui et al (2019) Oncogene, DOI: 10.1038/s41388-019-1026-9 ].
Tous les scores des échantillons restent les mêmes et n'ont pas à être recalculés lors de l'ajout de nouveaux échantillons, et l'interprétation s'améliorera à mesure que de nouveaux échantillons seront ajoutés à l'étude. Par exemple, la modélisation du mélange gaussien pourrait être utilisée pour séparer les scores NPM1c en fonction de notre attente qu'il y ait deux groupes. Cela pourrait être commuté avec d'autres algorithmes de classification non supervisés tels que le clustering hiérarchique ou le clustering k-means. Nous avons ajouté un exemple d'analyse au manuscrit pour démontrer comment les scores peuvent être interprétés dans un cadre non supervisé, dans la section « Signatures transcriptionnelles pour prédire l'état de la mutation/Classification non supervisée des mutations ».
Il peut y avoir des cas où l'annotation d'échantillon n'est pas disponible. Dans de tels scénarios, nous ne sommes pas en mesure de construire des modèles de régression pour interpréter les scores. Un singscore plus élevé fournirait une preuve plus forte de la signature, mais l'ampleur est difficile à interpréter sans référence. Une approche pour faire face à cette situation consiste à comparer les scores à ceux d'autres ensembles de données où l'état des mutations est connu. Une autre approche consisterait à comparer les scores au sein de l'ensemble de données à l'aide de méthodes d'apprentissage non supervisées.
Ici, nous démontrons l'utilisation de trois méthodes de clustering (décomposition de mélange gaussien, clustering k-means et clustering hiérarchique) pour stratifier les échantillons, et comme nous l'avons fait précédemment [wang et al (2012) Journal of clinical bioinformatics] utiliser l'indice de Rand ajusté (ARI) pour comparer les classifications. Comme prévu, la classification supervisée (GLM) donne la meilleure prédiction. Ceci est suivi d'un regroupement basé sur le score en utilisant la décomposition en mélange gaussien. Tout autre algorithme de classification ainsi que les connaissances préalables pourraient être utilisés pour décomposer les scores en groupes. La caractéristique importante des singscores est qu'ils maintiennent le pouvoir discriminant des signatures génétiques et peuvent donc être couplés à des algorithmes supervisés, semi-supervisés ou non supervisés pour effectuer une stratification.

#Modèle de mélange gaussien
m1 = Mclust(scoredf$Score, G = 2, verbeux = FAUX)
#k-means clustering
m2 = kmeans(scoredf[, 5:6], centres = 2, nstart = 100)
#classification hiérarchique
m3 = hclust(dist(scoredf[, 5:6]))

mutation_inference = cbind(
'GLM' = prédiction,
'mclust' = m1$classification,
'k-means' = m2$cluster,
'hclust' = cutree(m3, k = 2)
)
appliquer (mutation_inference, 2, AdjustRandIndex, scoredf$NPM1c.Mut)
```
Améliorations possibles
LH: Bien que le package soit généralement utile et bien décrit, les améliorations suivantes le rendront plus convivial pour les utilisateurs de R moins avancés, par ex.

LH: Instruction de préparation et de chargement des données autres que celles déposées dans la base de données GDC.

DDB: Nous avons noté dans le texte que la matrice de classement peut être calculée à l'aide d'un objet SummarizedExperiment, d'un objet DGElist, d'un objet ExpressionSet, d'une matrice numérique ou d'un bloc de données numériques. En tant que telle, une matrice numérique avec des noms d'échantillons comme noms de colonnes et des gènes comme noms de lignes suffirait. La notation doit être effectuée sur des mesures corrigées du biais de longueur telles que RPKM/FPKM ou TPM et non sur des CPM ou des comptages bruts.
Signatures transcriptionnelles pour prédire l'état de mutation/Score des échantillons TCGA AML à l'aide de la signature Verhaak - extrait du texte : « La fonction `rankGenes` calculera les rangs à partir des données d'expression sous la forme d'une matrice numérique, d'un cadre de données numériques, d'un objet ExpressionSet, d'un objet DGElist ou un objet SummarizedExperiment"

LH: Annotation des échantillons sur les parcelles avec des identifiants d'échantillon uniques (lorsqu'un échantillon est mal classé, un utilisateur ne sait pas lequel il est, il sera également utile de localiser un échantillon sur différentes parcelles, par exemple généré avec une signature de haut en bas -gènes régulés) - il est écrit dans l'article que le package 'singscore' prend en charge différents types d'annotations ("Les annotations d'intérêt peuvent être superposées sur chaque tracé") mais je n'ai trouvé que des annotations de code couleur alors que j'aimerais avoir un code couleur pour le type de mutation et des étiquettes de texte supplémentaires avec des ID d'échantillon sur le même tracé.

DDB: des exemples d'étiquettes peuvent être ajoutés aux parcelles de paysage mais n'étaient pas pris en charge dans d'autres visualisations. Nous avons ajouté des fonctionnalités à la dernière version du package singscore (v1.5.1) pour permettre l'étiquetage des échantillons dans les parcelles score vs dispersion. Nous avons modifié le texte pour clarifier et modifié la figure 6 pour étiqueter les échantillons où l'incertitude de classification (NMP1c vs WT) est élevée pour démontrer cette caractéristique. Les modifications ci-dessous ont été apportées à la section : « Signatures transcriptionnelles pour prédire l'état de mutation/Diagnostics de la signature Verhaak ».
Les exemples d'annotations d'intérêt (par exemple, les annotations cliniques) peuvent être codés par couleur sur chaque parcelle. …

Figure 6 :
```
select_aml = !mutated_gene %in% 'Autre'

#label échantillons avec une incertitude de classification mclust NPM1c de > 0,3
label_samples = substr(rownames(verhaak_scores), 6, 12) #ID d'échantillon à partir des codes à barres
label_samples[m1$uncertainty < 0.3] = NA

#projeter les mutations sur le paysage
p1 = projectScoreLandscape(
p_mll_npm1c,
verhaak_scores,
rossmll_scores,
sous-échantillons = select_aml,
annot = muté_gène[select_aml],
sampleLabels = label_samples[select_aml]
)
p1 + thème(légende.box = 'vertical')
```
LH: une commande qui répertorie les échantillons saisis comme candidats forts pour avoir une mutation particulière, classés en fonction des métriques calculées.

DDB: Comme indiqué dans un commentaire précédent, nous recommandons que ces analyses soient spécifiques au problème. Généralement, un score plus élevé indiquerait un effet plus fort des gènes dans la signature par rapport aux échantillons WT, donc les échantillons avec des scores plus élevés seraient des candidats plus forts pour les mutations. Alternativement, le partitionnement créé à l'aide de la modélisation du mélange gaussien pourrait être utilisé comme guide pour la séparation et les échantillons avec un score beaucoup plus élevé que le seuil seraient les candidats les plus forts pour la mutation.

LH: Génération d'une ligne de seuil entre les échantillons avec et sans mutation.

DDB: Voir la discussion/recommandation ci-dessus.

LH: À l'avenir, il serait également bon d'inclure d'autres signatures, par ex. la signature de 369 gènes identifiés par Alcalay et al. en 2005 3 , discriminer les patients atteints de LAM avec NPMc+ des patients avec NPMc-, même dans les cas avec des anomalies chromosomiques rares.

LH: Ce que j'attends le plus d'un package conçu pour identifier les mutations dans les transcriptomes, c'est une identification directe des mutations dans les données RNAseq. Les résultats du typage des mutations basé sur le profil d'expression génique seront fortement étayés lorsqu'une mutation particulière sera couverte par les lectures RNAseq. De ma propre expérience, je sais que c'est possible (pour la détection des mutations NPM1, voir 4 ). Pour les gènes avec un niveau d'expression élevé et moyen, la couverture peut être encore plus élevée que celle obtenue à partir des données au niveau du génome ou de l'exome. Et dans le cas où les données ADN ne seraient pas disponibles, ce serait vraiment fantastique. Parce qu'il exige un traitement des données complètement différent, il peut être envisagé pour les futures versions du package.

DDB: Comme nous l'avons souligné au début de cette revue, il peut y avoir eu un malentendu autour de l'objectif de ce paquet/document de workflow. Nous convenons avec l'examinateur que la détection directe des mutations/fusions à partir des données RNA-seq est la meilleure approche, et nous le notons maintenant dans la section « Description de la pertinence biologique » comme indiqué ci-dessus. Les autres signatures génétiques mentionnées ci-dessus pourraient être incorporées dans un flux de travail, car singscore prend en charge l'analyse et la comparaison de plusieurs ensembles de gènes.


Voir la vidéo: Microarrays vs RNA Sequencing (Décembre 2022).