banner
Maison / Blog / MArVD2 : un outil amélioré d'apprentissage automatique pour distinguer les virus archéens et bactériens dans les ensembles de données virales
Blog

MArVD2 : un outil amélioré d'apprentissage automatique pour distinguer les virus archéens et bactériens dans les ensembles de données virales

Aug 11, 2023Aug 11, 2023

ISME Communications volume 3, Numéro d'article : 87 (2023) Citer cet article

370 accès

dixAltmétrique

Détails des métriques

Notre connaissance de l’espace des séquences virales a explosé grâce aux progrès des technologies de séquençage et aux efforts d’échantillonnage et d’analyse à grande échelle. Bien que les archées soient des procaryotes importants et abondants dans de nombreux systèmes, notre connaissance des virus archées en dehors des environnements extrêmes est limitée. Cela s’explique en grande partie par l’absence d’un moyen robuste, à haut débit et systématique permettant de distinguer les virus bactériens et archéens dans les ensembles de données de virus conservés. Ici, nous mettons à niveau notre outil textuel précédent (MArVD) via la formation et le test d'un algorithme d'apprentissage automatique de forêt aléatoire par rapport à un ensemble de données nouvellement organisé de virus archéens. Après optimisation, MArVD2 a présenté une amélioration significative par rapport à son prédécesseur en termes d'évolutivité, de convivialité et de flexibilité, et permettra des ensembles de données de formation personnalisés définis par l'utilisateur au fur et à mesure de la découverte des virus archéens. L'analyse comparative a montré qu'un modèle entraîné avec des séquences virales provenant d'environnements hypersalins, marins et de sources chaudes a correctement classé 85 % des virus archéens avec un taux de fausse détection inférieur à 2 % en utilisant un seuil de prédiction forestière aléatoire de 80 % dans un ensemble de données d'analyse comparative distinct de les mêmes habitats.

Les cycles nutritifs et énergétiques de la Terre sont alimentés par de minuscules moteurs microbiens [1]. Alors que les bactéries sont plus couramment étudiées, il est de plus en plus reconnu que les archées sont également essentielles [2, 3]. Par exemple, les archées peuvent représenter près de la moitié de la communauté microbienne de l’océan mésopélagique [2]. Ici, les Nitrososphaeria (anciennement Thaumarchaeota) sont les principaux oxydants d'ammoniac, contribuant aux émissions mondiales de gaz à effet de serre (N2O) et représentant la majorité des pertes d'azote fixe en dessous de la zone photique [3,4,5]. Au cours des dernières décennies, une réaction entre l’expansion induite par le changement climatique des régions à faible teneur en oxygène dans l’océan mésopélagique, où prospèrent les Nitrososphaeria, et l’augmentation ultérieure des émissions de gaz à effet de serre de ces régions, met en danger certains des environnements marins les plus productifs au monde [6,7 ,8]. Dans les zones humides et les sols de pergélisol, les Euryarchaeota méthanogènes dominants représentent jusqu'à 40 % de la production mondiale de méthane, dont une grande partie est ensuite oxydée par les méthanotrophes concomitants [9]. Ceci est particulièrement préoccupant dans la mesure où une grande partie du carbone du sol mondial est stockée dans les régions de pergélisol, qui se transforment rapidement en zones humides à mesure que les températures mondiales augmentent, représentant ainsi une source potentielle majeure de méthane atmosphérique dans le futur [10]. Compte tenu de l’abondance et des rôles biogéochimiques critiques joués par les archées dans ces systèmes et dans d’autres, la connaissance des virus qui les infectent est essentielle pour des évaluations écologiques robustes et une modélisation climatique prédictive.

Tout comme les bactéries ont été bien étudiées par rapport aux archées dans la plupart des écosystèmes naturels, il en va de même pour les bactériophages par rapport aux virus archées. Les progrès dans le séquençage métagénomique, le pipeline écogénomique d'échantillon à séquence, les meilleures pratiques en matière d'identification virale [11, 12, 13, 14] et les plateformes analytiques telles qu'iVirus qui ont démocratisé ces capacités [15, 16] ont permis la découverte de des centaines de milliers de virus bactériens, ou phages, provenant d’environnements du monde entier [17,18,19,20]. On attribue à ces phages un impact considérable sur la mortalité de l'hôte, le transfert horizontal de gènes et la reprogrammation métabolique [21,22,23,24,25,26,27], d'une manière qui a un impact sur les fonctions critiques de l'écosystème telles que le cycle mondial du carbone océanique [28]. Ainsi, notre capacité à « voir » les phages est forte, ce qui a entraîné des avancées transformationnelles dans notre compréhension de l’impact des phages sur les écosystèmes.

En revanche, les virus archéens, qui ont traditionnellement été étudiés dans des environnements « extrêmes », tels que les sources chaudes acides, les étangs hypersalins, les sédiments anaérobies ou les sources hydrothermales, sont gravement sous-représentés dans la plupart des études basées sur le métagénome à l'échelle mondiale [29,30,31, 32,33]. Par exemple, à ce jour, moins de 230 virus archéens marins ont été identifiés de manière confidentielle parmi plusieurs études métagénomiques ou basées sur la culture [18, 32, 34,35,36,37,38,39,40,41,42], tandis qu'une récente étude mondiale des océans a révélé plus de 488 000 populations virales, dont la plupart sont présumées être des phages [17]. Au total, nous estimons qu'il existe désormais des génomes bien documentés ou de grands fragments de génome disponibles pour moins d'environ 380 virus archéens, avec 6 027 autres virus archéens putatifs dans l'IMG/VR-db v3.0, [43] ce qui représente une infime fraction. par rapport aux centaines de milliers de génomes de population désormais disponibles pour les phages (17, 18, 19, 20). Une explication à cela pourrait être que la découverte de nouveaux virus archéens est largement basée sur des recherches d'homologie de séquence dans des bases de données de référence publiques qui sont peuplées de virus provenant d'environnements extrêmes et que de nombreux virus archéens manquent d'homologie avec ces références (44). Ces virus archéens « extrêmes » ne sont peut-être pas de bons représentants de ces virus archéens provenant d’environnements relativement non extrêmes, quelle que soit l’incroyable gamme de morphologies et de modes de vie qu’ils présentent [29, 45,46,47,48]. Ainsi, distinguer les bactériophages des virus archéens dans des ensembles de données provenant d’environnements relativement non extrêmes, en utilisant les approches actuelles, reste un défi, malgré les différences génomiques et évolutives claires entre les phages et les virus archéens [29, 45, 46, 49,50,51,52. ]. En conséquence, les rôles écologiques des virus archéens dans des environnements relativement non extrêmes restent pour la plupart flous, même si les preuves suggèrent qu'ils pourraient faire partie intégrante du cycle biogéochimique et de la dynamique des communautés hôtes (36, 53, 54, 55).

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>