Informations

Un exemple pour N50 ? Pourquoi en avons-nous besoin?

Un exemple pour N50 ? Pourquoi en avons-nous besoin?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'essaie de comprendre N50 sur wikipedia. Mais je n'ai pas pu me faire une idée de la définition :

Étant donné un ensemble de contigs, chacun avec sa propre longueur, la longueur N50 est définie comme la longueur pour laquelle la collection de tous les contigs de cette longueur ou plus contient au moins la moitié de la somme des longueurs de tous les contigs, et pour laquelle le la collection de tous les contigs de cette longueur ou moins contient également au moins la moitié de la somme des longueurs de tous les contigs.

Existe-t-il un exemple simple qui illustre cette définition ? De plus, pourquoi avons-nous besoin de cette statistique ? Qu'est-ce que ça me dit vraiment ? Voulons-nous une valeur supérieure ou inférieure?


Le contig ou l'échafaudage N50 est une statistique médiane pondérée telle que 50 % de l'ensemble de l'ensemble est contenu dans des contigs ou des échafaudages égaux ou supérieurs à cette valeur.

Mathématiquement:

Étant donné un ensemble de séquences de longueurs variables, la longueur N50 est définie comme la longueur N pour laquelle 50% de toutes les bases dans les séquences sont dans une séquence de longueur L < N. Ceci peut être trouvé mathématiquement comme suit : Prenez une liste L d'entiers positifs. Créez une autre liste L' , qui est identique à L, sauf que chaque élément n de L a été remplacé par n copies de lui-même. Alors la médiane de L' est le N50 de L. Par exemple : Si L = {2, 2, 2, 3, 3, 4, 8, 8}, alors L' se compose de six 2, six 3, quatre 4, et seize 8 ; le N50 de L est la médiane de L' , qui est de 6.

En termes simples :

l'échafaudage N50 est la taille médiane du contig de votre assemblage génomique. C'est une métrique que vous pouvez utiliser pour évaluer la qualité de votre assemblage, car un N50 trop petit suggère que vous n'avez pas pu générer de nombreux contigs de taille biologiquement significative (c'est-à-dire que vous avez probablement beaucoup de faux petits contigs dans votre assemblage). Vous pouvez augmenter votre N50 en éliminant les séquences qui ne manqueront pas de vous poser problème, par ex. courts étirements répétitifs.

notez que cette métrique s'applique uniquement lors de l'assemblage de novo. Si vous vous alignez sur une référence (c'est-à-dire pour les applications de découverte de variantes), cette métrique ne s'applique pas

Pour un exemple d'entraînement sur un petit ensemble de données arbitraire : http://www.r-bloggers.com/calculating-an-n50-from-velvet-output/

Cette réponse a été compilée à partir de plusieurs sources :

http://www.researchgate.net/post/What_is_N50_Scaffold_in_Genome_sequencing_Technique http://seqanswers.com/forums/showthread.php?t=2332 https://www.broad.harvard.edu/crd/wiki/index.php/ N50


Pourquoi étudier la biologie ?

L'étude de la biologie nous relie au monde dans lequel nous vivons et nous rappelle notre interconnexion avec toutes les autres formes de vie. Il développe la prise de conscience de l'importance de la faune et de la flore uniques de la Nouvelle-Zélande et des écosystèmes distinctifs. Il offre des occasions d'en apprendre davantage sur les processus de tous les êtres vivants. Ce que les élèves apprennent est directement pertinent pour notre espèce et notre environnement.

La biologie est au cœur de nombreux enjeux sociaux et économiques

En étudiant la biologie, les étudiants apprennent à prendre des décisions plus éclairées sur leur propre santé et sur des problèmes biologiques importants tels que les cultures génétiquement modifiées, l'utilisation d'antibiotiques et l'éradication des espèces envahissantes. La biologie aide les étudiants à reconnaître l'importance de l'agriculture et de l'horticulture pour la Nouvelle-Zélande et, potentiellement, à contribuer à son avenir.

Les biologistes aident la Nouvelle-Zélande à maintenir sa position de premier sélectionneur de nouvelles variétés et de plantes et d'animaux plus efficaces/productifs. Les biologistes contribuent aux avancées médicales et biotechnologiques.

La biologie est à la pointe des enjeux écologiques

Les biologistes sont également à la pointe de la recherche sur la conservation écologique. En étudiant la biologie, les étudiants deviennent beaucoup plus sensibilisés aux enjeux écologiques, et mieux à même de débattre des situations où l'exploitation de l'environnement (par exemple, à des fins agricoles, minières ou de production d'énergie) se heurte à des objectifs de conservation, ou où nous devons développer plus manières durables d'utiliser nos ressources naturelles (par exemple, le sol, la terre ou l'eau).

Apprendre en biologie ouvre des perspectives de carrière

La liste non exhaustive suivante suggère la diversité des carrières dans lesquelles se dirigent les diplômés en sciences biologiques :

Agronome, spécialiste du comportement animal, responsable du bien-être animal, biochimiste, biotechnologue, superviseur de la production de fromage, biologiste de la conservation, analyste environnemental, écologiste de l'environnement, responsable de l'environnement, responsable de l'environnement, scientifique des pêches, technologue en alimentation et boissons, technicien forestier, technicien en génétique, biologiste marin, biochimiste des viandes, technicien en sciences médicales, pépiniériste, phytopathologiste, physiologiste des plantes, agent de quarantaine, directeur de recherche, professeur de sciences au secondaire, zoologiste.


Structure du rapport de laboratoire

Les rapports de laboratoire peuvent varier en longueur et en format. Ceux-ci vont d'un formulaire à remplir et à soumettre avant de quitter le laboratoire, à un rapport écrit formel. Cependant, ils suivent tous généralement une structure de base similaire.

Titre

Résumé

  • donne un aperçu du contenu du rapport, y compris les constatations et les conclusions
  • généralement la dernière partie du document à rédiger
  • peut ne pas être requis dans un bref rapport de laboratoire

Introduction

  • fournit un contexte approprié à l'expérience et explique brièvement toutes les théories pertinentes
  • énonce le problème et/ou l'hypothèse et
  • énonce de manière concise le ou les objectifs de l'expérience

Méthode

  • décrit l'équipement, le matériel et les procédures utilisées
  • peut inclure des organigrammes de procédures et/ou des schémas de montage expérimental
  • décrit tout traitement ou calcul effectué sur les données collectées (le cas échéant)

Résultats et analyse

  • présente les résultats de l'expérience sous forme graphique ou à l'aide de tableaux. Les chiffres incluent souvent des barres d'erreur, le cas échéant
  • discute de la façon dont les résultats ont été analysés, y compris l'analyse des erreurs

Discussion

  • interprète les résultats clés par rapport aux objectifs/questions de recherche
  • résume les principales conclusions et limites
  • fait des recommandations pour surmonter les limites et indiquer les orientations futures de la recherche

Conclusion

  • rappelle au lecteur quel problème a fait l'objet d'une enquête
  • résume les conclusions par rapport au problème/à l'hypothèse
  • identifie brièvement les implications globales des résultats (répond à la question « Et alors ? »)

Les références

  • répertorie les détails de publication de toutes les sources citées dans le texte, permettant aux lecteurs de localiser les sources rapidement et facilement
  • suit généralement un style de référencement spécifique

Annexes

  • une annexe (pluriel = annexes) contient des éléments trop détaillés pour être inclus dans le rapport principal, tels que des tableaux de données brutes ou des calculs détaillés

Cliquez sur les liens ci-dessous pour en savoir plus sur les différentes sections d'un rapport de laboratoire.

Titre

Votre titre doit refléter le but de l'expérience. Vérifiez auprès de votre démonstratrice ou conférencière pour connaître les exigences spécifiques.

PHS1022 Semaine 5 Laboratoire

La période d'un pendule simple

Résumé

Un résumé donne un bref aperçu de l'expérience, y compris ses résultats et ses conclusions. En général, le résumé doit répondre à six questions :

  • Pourquoi l'expérience a-t-elle été menée ? (vue d'ensemble/vue du monde réel).
  • Quel problème/question de recherche spécifique a été abordé?
  • Quelles méthodes ont été utilisées pour résoudre le problème/répondre à la question ?
  • Quels résultats ont été obtenus ?
  • Que signifient ces résultats ?
  • Comment répondent-ils à la question globale ou améliorent-ils notre compréhension du problème ?

La chose la plus importante à retenir lors de la rédaction du résumé est d'être bref et d'indiquer uniquement ce qui est pertinent. Aucune information superflue ne doit être incluse. Il doit également être suffisamment clair pour que quelqu'un qui n'est pas familier avec votre expérience puisse comprendre pourquoi vous avez fait ce que vous avez fait et les conclusions auxquelles vous êtes parvenu, sans avoir besoin de lire le reste du rapport.

Un résumé ne comprend généralement qu'un seul paragraphe (200-300 mots maximum).

Conseil

Un résumé doit être rédigé en dernier (même s'il apparaît comme la première section de votre rapport), car il résume les informations de toutes les autres sections du rapport.

Introduction

Les introduction devrait:

  • fournir le contexte et la motivation de l'expérience
  • expliquer brièvement la théorie pertinente avec suffisamment de détails
  • introduire toutes les lois, équations ou théorèmes pertinents
  • énoncer clairement l'objectif ou la question de recherche que l'expérience est conçue pour répondre.

Conseil

  • Écrivez toujours l'introduction dans vos propres mots, ne copiez pas simplement les notes de laboratoire.
  • Certains brefs rapports de laboratoire ne nécessitent pas d'introduction et commenceront simplement par un objectif/une déclaration.
  • Vérifiez toujours auprès de votre conférencier/démonstrateur si vous n'êtes pas sûr de ce qui est attendu.

Activité

Méthode

La section méthode est l'endroit où vous décrivez ce que vous avez réellement fait. Il comprend la procédure qui a été suivie. Cela devrait être un rapport de ce que vous réellement fait, pas seulement ce qui était prévu. Une procédure typique comprend généralement :

  1. Comment les appareils et l'équipement ont été mis en place (par exemple, montage expérimental), comprenant généralement un schéma,
  2. Une liste des matériaux utilisés,
  3. Étapes utilisées pour collecter les données,
  4. Toutes les difficultés expérimentales rencontrées et comment elles ont été résolues ou contournées.

Si des aspects de la procédure expérimentale étaient susceptibles de contribuer à une erreur systématique dans les données et les résultats, indiquez-le de manière suffisamment détaillée dans cette section.

Montage et matériel expérimental

Votre description de la configuration expérimentale devrait être suffisante pour permettre à quelqu'un d'autre de reproduire l'expérience lui-même. Vous commencerez généralement par une description des matériaux utilisés et/ou de la configuration de l'appareil accompagnée de :

  • une image montrant les caractéristiques pertinentes de tout objet ou matériau faisant l'objet d'une enquête
  • un schéma du montage expérimental, avec chaque composant clairement étiqueté

Procédure

Lorsque vous effectuez une expérience, vous suivez généralement un ensemble d'instructions telles que celles-ci, qui peuvent inclure des informations supplémentaires pour vous guider à travers les étapes.

Exemple de document de laboratoire

Semaine 5 Instructions de laboratoire

  1. Utilisez une pipette propre pour mesurer 25 ml de HCl(aq) dans la fiole conique.
  2. Rincer une burette avec du NaOH standardisé(aq).
  3. Remplir la burette jusqu'au repère 0,0ml avec du NaOH standardisé(aq). N'oubliez pas de prendre la lecture au centre du ménisque et au niveau des yeux. Enregistrez la lecture réelle dans le tableau 1.
  4. Placer une feuille de papier blanc sous la burette. Ceci afin de faciliter l'observation du changement de couleur au cours de la réaction.
  5. Placer la fiole conique sur le papier blanc.

Exemple de rapport de laboratoire

L'équipement a été disposé comme le montre la figure 2.

25,0 ml de HCl(aq) a été pipeté dans une fiole conique de 100 ml. Une burette a été fixée sur un support de cornue et remplie de NaOH standardisé(aq) et la mesure initiale a été enregistrée. La fiole conique a été placée sous la burette, au-dessus d'un morceau de papier blanc. Cinq gouttes de solution indicatrice universelle ont été ajoutées au flacon.

Figure 2. Montage expérimental pour le titrage (tiré de Carroll 2017)

Commentaire du conférencier

Lors de la rédaction de la procédure, vous devez signaler ce qui a été réellement fait et ce qui s'est réellement passé, et omettre toute information supplémentaire telle que des conseils utiles inclus dans les instructions. Votre objectif pour cette section devrait être d'inclure suffisamment de détails pour que quelqu'un d'autre puisse reproduire ce que vous avez fait et obtenir un résultat similaire. Vous devez également expliquer toute modification apportée au processus d'origine introduit au cours de l'expérience.

Conseil

Dans le Procédure section que vous devez utiliser :

Bien que la plupart des unités scientifiques exigent que vous rapportiez dans le voix passive , certains nécessitent le voix active . Dans l'exemple ci-dessous, la première personne est utilisée, par ex. "nous avons initié". Ceci est accepté dans certaines disciplines, mais pas dans d'autres. Vérifiez les informations de votre unité ou parlez à votre coordinateur d'unité.

Lancer la pompe d'alimentation en bicarbonate.

Nous initié la pompe d'alimentation en bicarbonate. (voix active)

La pompe d'alimentation en bicarbonate A été initié. (voix passive)

Activité

Les conférenciers ont des préférences différentes pour l'utilisation de la voix active/passive et vous devrez probablement écrire dans les deux voix. Lisez des exemples de rapports d'étudiants ci-dessous et identifiez les exemples écrits à la voix passive et ceux qui utilisent la voix active.

Résultats et analyse

Dans cette section, vous présentez les principales données recueillies lors de votre expérimentation. Chaque mesure clé doit être rapportée de manière appropriée. Les données sont souvent présentées sous forme de graphiques, de figures ou de tableaux.

Cette section comprend souvent également l'analyse des données brutes, telles que les calculs. Dans certaines disciplines, l'analyse est présentée sous son propre titre, dans d'autres, elle est incluse dans la section des résultats. Une analyse des erreurs ou des incertitudes dans l'expérience est également généralement incluse dans cette section.

Tableaux, graphiques et figures

La plupart des données numériques sont présentées à l'aide de tableaux ou de graphiques. Ceux-ci doivent être étiquetés de manière appropriée pour indiquer clairement ce qui est montré.

Titres et légendes

  • Les tableaux doivent être étiquetés numériquement comme Tableau 1, Tableau 2, etc.
  • Tout le reste (graphiques, images, diagrammes, etc.) est étiqueté numériquement comme Figure 1, Figure 2, etc. (Les références aux figures dans le corps principal du texte sont généralement écrites sous une forme abrégée, par exemple &lsquosee Fig. 1&rsquo).
  • Les légendes des tableaux apparaissent dessus la table. Les légendes des figures apparaissent au dessous de la figure.

Notez que dans la figure 3 ci-dessus, l'étudiant a omis les barres d'erreur sur les points de données. Pour la plupart des expériences, une analyse des erreurs est importante et les erreurs doivent être incluses dans les tableaux et sur les graphiques.

De plus, il est toujours préférable de dessiner vous-même les figures si vous le pouvez. Si vous utilisez des chiffres d'une autre source, indiquez dans la citation si vous l'avez modifiée de quelque façon que ce soit.

Les données peuvent être présentées dans d'autres formats, tels que des images :

Calculs

Lors de l'affichage des calculs, il est habituel d'afficher l'équation générale et un exemple travaillé. Lorsqu'un calcul est répété plusieurs fois, le détail supplémentaire est généralement inclus dans une annexe. Vérifiez les exigences indiquées dans les informations de votre unité ou dans le manuel de laboratoire, ou demandez à votre tuteur si vous ne savez pas où placer les calculs.

Dans certaines disciplines, si des formules sont utilisées, il est courant de les numéroter sous forme d'équations :

Commentaire du conférencier

Dans certaines écoles, comme la biologie, des calculs trop détaillés pour entrer dans le corps du rapport peuvent être ajoutés en annexe. Le but de ces annexes est de présenter les données recueillies et de démontrer le niveau de précision obtenu.

Un chromatogramme a été produit pour le composé inconnu U, et chacun des composés connus, A-E. Les valeurs Rf pour chaque substance sont répertoriées dans le tableau 1.

Tableau 1: Valeurs Rf pour les composés connus (A-E).

Remarque : U est le composé inconnu.

Erreur d'analyse

En plus de présenter les principaux résultats de votre expérience, il est important que vous indiquiez la précision de vos résultats. Cela se fait généralement en déterminant le niveau d'incertitude. Les sources d'erreur que vous devez prendre en compte varient selon les expériences, mais vous devrez généralement prendre en compte les erreurs aléatoires et systématiques. Votre analyse d'erreur doit identifier les principales causes d'incertitude dans vos mesures, noter toutes les hypothèses et montrer comment vous avez calculé les barres d'erreur. Vérifiez auprès de votre démonstrateur, tuteur ou conférencier si vous ne savez pas comment déterminer les incertitudes ou si des barres d'erreur sont nécessaires pour votre expérience.

Discussion

La section de discussion est l'endroit où vous :

  • commentez les résultats que vous avez obtenus
  • interpréter ce que signifient les résultats
  • expliquer tout résultat inattendu.

Votre section de discussion doit démontrer à quel point vous comprenez ce qui s'est passé dans l'expérience. Vous devriez:

  • identifier et commenter les tendances que vous avez observées
  • comparer les résultats expérimentaux avec toutes les prédictions
  • identifier comment les sources d'erreur pourraient avoir un impact sur l'interprétation de vos résultats
  • suggérer des explications pour les résultats inattendus, et
  • le cas échéant, suggérer comment l'expérience aurait pu être améliorée.

L'exemple de discussion ci-dessous provient d'une unité de biologie de première année. Le but de cette expérience était d'identifier les taux de décomposition des feuilles pour établir les taux de transfert d'énergie.

On s'attendait à ce que les feuilles présentent un taux de décomposition beaucoup plus élevé dans la zone côtière, où il y a plus de chances que les sédiments se frottent contre elles. Cependant, les deux zones ne montrent aucune différence significative dans la décomposition des feuilles, bien que ces résultats ne soient pas concluants en raison des limites de cette expérience. Les deux zones de décomposition des feuilles étaient physiquement trop proches, et au cours de la période d'incubation, on a observé des roseaux poussant près de la zone limnétique. Cela peut avoir affecté négativement l'exactitude des résultats en réduisant les différences d'habitat sur ces sites, comme le montrent d'autres expériences (Jones et al. 2017). Les résultats présentaient également des écarts types importants, probablement dus à ces contraintes physiques ou à une erreur humaine lors de la pesée des feuilles. D'autres études avec des zones plus diverses et des procédures précises devraient être entreprises afin d'explorer plus efficacement la décomposition des feuilles et les taux de transfert d'énergie.

Activité

Faites glisser chaque description de chaque composant de la section Discussion vers son exemple. Notez l'ordre dans lequel les composants constituent une section Discussion cohérente.

Conclusion

La section de conclusion devrait fournir un message à retenir résumant ce qui a été appris de l'expérience :

  • Rappeler brièvement le but de l'expérience (la question à laquelle elle cherchait à répondre)
  • Identifier les principaux résultats (réponse à la question de recherche)
  • Noter les principales limites pertinentes à l'interprétation des résultats
  • Résumez ce que l'expérience a contribué à votre compréhension du problème.

Conseil du conférencier

Dans les brefs rapports de laboratoire, la conclusion est présentée à la fin de la discussion et n'a pas de titre propre. Ce type de conclusion peut également être considéré comme la phrase qui répond à la question &ldquo Et alors ?». Notez qu'une conclusion ne doit jamais introduire de nouvelles idées ou découvertes, mais seulement donner un résumé concis de celles qui ont déjà été présentées dans le rapport.

Cliquez sur les icônes à côté de chaque paragraphe pour afficher les commentaires du conférencier. Cliquez à nouveau pour masquer le commentaire.

Légende:

Les références

Il est tout à fait possible que vous ayez des citations dans le texte dans vos rapports de laboratoire. Ceux-ci seront généralement inclus dans le introduction établir des preuves de l'historique des théories ou des sujets actuels. Ton discussion La section inclura souvent des citations dans le texte, pour montrer comment vos résultats se rapportent à ceux de la littérature publiée, ou pour fournir des suggestions ou des explications fondées sur des preuves pour ce que vous avez observé.

Lorsque des citations dans le texte sont incorporées dans votre rapport de laboratoire, vous devez toujours avoir les citations complètes incluses dans une liste de références distincte.La liste de référence est une section distincte qui vient après votre conclusion (et avant toute annexe).

Consultez votre manuel de laboratoire ou les informations de votre unité pour déterminer le style de référencement préféré. Suivez attentivement ce style de référencement pour vos références dans le texte et votre liste de références. Vous pouvez trouver des exemples et des informations sur les styles de référencement courants dans le guide Bibliothèque de citations et de références.

Ce qui suit est un exemple de liste de références basée sur les citations dans le texte utilisées dans les sections Introduction et Conclusion de ce didacticiel. Il a été formaté conformément au style de référencement CSIRO.

Les références

Jones T, Smith K, Nguyen P, di Alberto P (2017) Effets du chevauchement des habitats sur l'échantillonnage des populations. Revue d'écologie environnementale 75, 23-29. doi: 10.5432/1111.23

Tian M, Castillo TL (2016) Apport de chauffage solaire en Australie : taux, causes et effets. Rapports sur l'efficacité énergétique. Rapport n° 10, Département de la durabilité et de l'environnement, Canberra.

Annexes

Une annexe (pluriel = annexes) contient des éléments trop détaillés pour être inclus dans le rapport principal, tels que des tableaux de données brutes ou des calculs détaillés.

  • donné un numéro (ou une lettre) et un titre
  • désigné par un numéro (ou une lettre) au point pertinent du texte.

Exemple de texte

Les valeurs calculées sont présentées dans le tableau 3 ci-dessous. Pour les calculs détaillés, voir l'annexe 1.


Étapes de la méthode scientifique

La méthode scientifique est un processus d'expérimentation qui est utilisé pour explorer les observations et répondre aux questions. Cela signifie-t-il que tous les scientifiques suivent exactement ce processus? Non. Certains domaines de la science peuvent être testés plus facilement que d'autres. Par exemple, les scientifiques qui étudient comment les étoiles changent avec l'âge ou comment les dinosaures digèrent leur nourriture ne peuvent pas accélérer la vie d'une étoile d'un million d'années ou effectuer des examens médicaux sur l'alimentation des dinosaures pour tester leurs hypothèses. Lorsque l'expérimentation directe n'est pas possible, les scientifiques modifient la méthode scientifique. En fait, il existe probablement autant de versions de la méthode scientifique que de scientifiques ! Mais même modifié, l'objectif reste le même : découvrir les relations de cause à effet en posant des questions, en rassemblant et en examinant soigneusement les preuves, et en voyant si toutes les informations disponibles peuvent être combinées en une réponse logique.

Même si nous montrons la méthode scientifique sous la forme d'une série d'étapes, gardez à l'esprit que de nouvelles informations ou réflexions peuvent amener un scientifique à revenir en arrière et à répéter les étapes à tout moment du processus. Un processus comme la méthode scientifique qui implique une telle sauvegarde et répétition est appelé un processus itératif.

Que vous réalisiez un projet d'expo-sciences, une activité scientifique en classe, une recherche indépendante ou toute autre enquête scientifique pratique, comprendre les étapes de la méthode scientifique vous aidera à vous concentrer sur votre question scientifique et à analyser vos observations et vos données pour répondre à la question. aussi bien que possible.

Schéma de la méthode scientifique. La méthode scientifique commence par une question, et une recherche de base est menée pour tenter de répondre à cette question. Si vous voulez trouver des preuves d'une réponse ou d'une réponse elle-même, vous construisez une hypothèse et testez cette hypothèse dans une expérience. Si l'expérience fonctionne et que les données sont analysées, vous pouvez soit prouver, soit réfuter votre hypothèse. Si votre hypothèse est réfutée, vous pouvez revenir en arrière avec les nouvelles informations obtenues et créer une nouvelle hypothèse pour recommencer le processus scientifique.


Résultats

Des ressources génomiques de haute qualité pour tous 15 Bombus Sous-genres

Les stratégies de séquençage et d'assemblage ont abouti à des ressources génomiques de haute qualité avec 12 assemblages de génomes au niveau de l'échafaudage et cinq assemblages de génomes au niveau des chromosomes (tableau 1). Des critères comprenant la position phylogénétique, les traits des espèces et la distribution géographique ont été appliqués pour sélectionner des espèces pour le séquençage du génome entier à travers le genre. Pour les cinq espèces pour lesquelles suffisamment d'échantillons ont pu être collectés, une capture de conformation de la chromatine (Hi-C) à haut débit (Belton et al. 2012) a été utilisée pour produire des assemblages génomiques au niveau des chromosomes ( tableau 1). Au total, 17 espèces ont été sélectionnées (tableau supplémentaire S1 et fig. S1, matériel supplémentaire en ligne), qui couvrent les 15 sous-genres du genre Bombus (Williams et al. 2008). Parmi celles-ci, deux espèces (Superbus Bombus et B. waltoni) viens du Mendacibombus, la première scission du Bombus phylogénie quatre espèces (B. superbus, B. waltoni, B. skorikovi, et B. difficillimus) habitent à haute altitude (>4 000 m au-dessus du niveau de la mer) deux espèces (B. turneri et B. skorikovi) présentent un parasitisme social de trois espèces (B. pyrosome, B. pices, et B. superbus) sont endémiques de Chine et une espèce (B. polaris) est endémique aux régions arctiques/subarctiques ( Williams et al. 2019). De plus, les caractéristiques des espèces, notamment la taille de l'aire de répartition, la longueur de la langue, l'incidence des parasites et le statut de déclin varient selon les espèces sélectionnées (Williams 1994 Arbetman et al. 2017 Cameron et Sadd 2020).

Résultats de l'assemblage du génome des 17 bourdons nouvellement séquencés.

. Taille du contig (Mo) . Contig N50 (ko) . Taille de l'échafaudage (Mo) . Échafaudage N50 (Mo) . Taille des chromosomes (Mo) . Chromosome N50 (Mo) .
Superbus Bombus229.84 441.61 230.16 6.90 N / A N / A
Bombus waltoni230.89 430.54 231.17 4.66 N / A N / A
Bombus confusus238.52 227.26 239.12 3.26 N / A N / A
Bombus hémorroïdaire239.34 572.47 239.59 4.74 240.54 15.09
Bombus ignitus240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 N / A N / A
Bombus opulentus241.99 267.78 242.38 2.42 N / A N / A
Bombus turneri242.39 212.53 243.01 4.34 243.11 9.70
Bombus soroeensis243.19 244.99 243.68 2.12 N / A N / A
Bombe polaris245.17 152.35 245.82 2.25 N / A N / A
Bombus breviceps246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 N / A N / A
Bombus difficillimus247.45 177.31 248.33 2.07 N / A N / A
Bombus consobrinus248.56 284.90 249.09 4.77 N / A N / A
Bombus pyrosome251.86 472.32 252.70 6.07 254.80 15.22
Bombus picipes253.31 185.91 254.01 5.88 N / A N / A
Bombus sibiricus261.72 253.94 262.49 3.14 N / A N / A
. Taille du contig (Mo) . Contig N50 (ko) . Taille de l'échafaudage (Mo) . Échafaudage N50 (Mo) . Taille des chromosomes (Mo) . Chromosome N50 (Mo) .
Superbus Bombus229.84 441.61 230.16 6.90 N / A N / A
Bombus waltoni230.89 430.54 231.17 4.66 N / A N / A
Bombus confusus238.52 227.26 239.12 3.26 N / A N / A
Bombus hémorroïdaire239.34 572.47 239.59 4.74 240.54 15.09
Bombus ignitus240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 N / A N / A
Bombus opulentus241.99 267.78 242.38 2.42 N / A N / A
Bombus turneri242.39 212.53 243.01 4.34 243.11 9.70
Bombus soroeensis243.19 244.99 243.68 2.12 N / A N / A
Bombe polaris245.17 152.35 245.82 2.25 N / A N / A
Bombus breviceps246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 N / A N / A
Bombus difficillimus247.45 177.31 248.33 2.07 N / A N / A
Bombus consobrinus248.56 284.90 249.09 4.77 N / A N / A
Bombus pyrosome251.86 472.32 252.70 6.07 254.80 15.22
Bombus picipes253.31 185.91 254.01 5.88 N / A N / A
Bombus sibiricus261.72 253.94 262.49 3.14 N / A N / A

Note .—kb, kilobase Mb, mégabase NA, sans objet.

Résultats de l'assemblage du génome des 17 bourdons nouvellement séquencés.

. Taille du contig (Mo) . Contig N50 (ko) . Taille de l'échafaudage (Mo) . Échafaudage N50 (Mo) . Taille des chromosomes (Mo) . Chromosome N50 (Mo) .
Superbus Bombus229.84 441.61 230.16 6.90 N / A N / A
Bombus waltoni230.89 430.54 231.17 4.66 N / A N / A
Bombus confusus238.52 227.26 239.12 3.26 N / A N / A
Bombus hémorroïdaire239.34 572.47 239.59 4.74 240.54 15.09
Bombus ignitus240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 N / A N / A
Bombus opulentus241.99 267.78 242.38 2.42 N / A N / A
Bombus turneri242.39 212.53 243.01 4.34 243.11 9.70
Bombus soroeensis243.19 244.99 243.68 2.12 N / A N / A
Bombe polaris245.17 152.35 245.82 2.25 N / A N / A
Bombus breviceps246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 N / A N / A
Bombus difficillimus247.45 177.31 248.33 2.07 N / A N / A
Bombus consobrinus248.56 284.90 249.09 4.77 N / A N / A
Bombus pyrosome251.86 472.32 252.70 6.07 254.80 15.22
Bombus picipes253.31 185.91 254.01 5.88 N / A N / A
Bombus sibiricus261.72 253.94 262.49 3.14 N / A N / A
. Taille du contig (Mo) . Contig N50 (ko) . Taille de l'échafaudage (Mo) . Échafaudage N50 (Mo) . Taille des chromosomes (Mo) . Chromosome N50 (Mo) .
Superbus Bombus229.84 441.61 230.16 6.90 N / A N / A
Bombus waltoni230.89 430.54 231.17 4.66 N / A N / A
Bombus confusus238.52 227.26 239.12 3.26 N / A N / A
Bombus hémorroïdaire239.34 572.47 239.59 4.74 240.54 15.09
Bombus ignitus240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 N / A N / A
Bombus opulentus241.99 267.78 242.38 2.42 N / A N / A
Bombus turneri242.39 212.53 243.01 4.34 243.11 9.70
Bombus soroeensis243.19 244.99 243.68 2.12 N / A N / A
Bombe polaris245.17 152.35 245.82 2.25 N / A N / A
Bombus breviceps246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 N / A N / A
Bombus difficillimus247.45 177.31 248.33 2.07 N / A N / A
Bombus consobrinus248.56 284.90 249.09 4.77 N / A N / A
Bombus pyrosome251.86 472.32 252.70 6.07 254.80 15.22
Bombus picipes253.31 185.91 254.01 5.88 N / A N / A
Bombus sibiricus261.72 253.94 262.49 3.14 N / A N / A

Note .—kb, kilobase Mb, mégabase NA, sans objet.

Les stratégies de séquençage et d'assemblage comprenaient la génération de deux ensembles de données de séquençage Illumina pour chaque espèce : 1) lectures appariées qui se chevauchent (2 × 250 pb) à partir d'une bibliothèque de fragments de petits inserts en utilisant un seul drone haploïde par espèce (taille de l'insert : 400 ou 450 pb ) et 2) lectures appariées (2 × 150 pb) à partir de quatre bibliothèques de sauts à grand insert utilisant 3 à 5 individus par espèce (taille des inserts : 4, 6, 8 et 10 ko, respectivement tableau supplémentaire S2 , Supplementary Material online ). Les lectures appariées chevauchant le génome entier à partir de bibliothèques de fragments ont été assemblées en séquences continues (contigs) à l'aide du logiciel DISCOVAR de novo ( Love et al. 2016), puis échafaudées avec des lectures à partir de bibliothèques de sauts à l'aide du logiciel BESST ( Sahlin et al. 2014 ). Les assemblages résultants ont un contig moyen N50 de 325 kb, allant jusqu'à 579 kb pour B. breviceps l'échafaudage moyen N50 est de 4,0 Mo, allant jusqu'à 6,9 Mo pour B. superbus ( Tableau 1). La qualité de l'assemblage du génome en termes de contenu génique attendu a été évaluée par l'analyse Benchmarking Universal Single-Copy Ortholog (BUSCO) (Waterhouse et al. 2018), qui a montré des scores de complétude BUSCO élevés (moyenne 99,0%, de 97,5% à 99,6% fig. S2 , Supplementary Material en ligne) pour tous les génomes.

L'annotation du génome a entraîné des prédictions totales de gènes codant pour les protéines par espèce allant de 14 027 à 16 970 (moyenne = 15 838, écart-type = 908 tableau supplémentaire S3, matériel supplémentaire en ligne). Ceux-ci ont été annotés à l'aide du pipeline MAKER ( Cantarel et al. 2008), sur la base de prédictions de gènes ab initio, de preuves de transcription et de preuves de protéines homologues. Les comptes de gènes sont similaires à ceux de 12 espèces de drosophiles (moyenne = 15 361, SD = 852 Clark et al. 2007) mais sont supérieurs à ceux de 19 anophèles (moyenne = 13 110, SD = 1 397) ( Neafsey et al. 2015), et ils ne sont pas significativement corrélés avec la contiguïté des assemblages (P = 0,1757 fig. supplémentaire. S3 , Matériel supplémentaire en ligne). Entre 7 299 et 8 135 gènes ont reçu au moins un terme d'ontologie génique (GO) et 9 431 à 10 578 gènes ont été annotés avec au moins un domaine protéique (tableau supplémentaire S3, matériel supplémentaire en ligne). L'analyse BUSCO des gènes annotés a également montré des scores d'exhaustivité élevés pour toutes les espèces (fig. supplémentaire S4, matériel supplémentaire en ligne). De plus, une prédiction complète des gènes miARN, ARNt et lncRNA a révélé une moyenne de 93, 306 et 3 353 gènes, respectivement (tableau supplémentaire S3, matériel supplémentaire en ligne). Enfin, l'annotation d'éléments transposables (TE) a montré que le contenu total en TE variait de 9,66 % (22,2 Mb) dans B. superbus à 17,88 % (46,9 Mo) en B. sibiricus (tableau supplémentaire S4, matériel supplémentaire en ligne).

Phylogénie à l'échelle du génome des bourdons

La phylogénie moléculaire au niveau de l'espèce ( fig. 1A) estimée à partir de l'analyse de vraisemblance maximale avec IQ-TREE ( Minh, Schmidt, et al. 2020) est en grande partie cohérente avec les relations phylogénétiques précédemment déduites des 15 sous-genres sur la base de cinq gènes ( Cameron et al. 2007 Williams et al. 2008), montrant seulement deux différences topologiques. Les résultats corroborent les conclusions précédentes selon lesquelles 1) le sous-genre Mendacibobus (étiqueté Maryland En figue. 1A) est le groupe frère de tous les autres sous-genres et 2) les espèces de Psithyrus (étiqueté PS en violet sur la fig. 1A) appartiennent au genre Bombus, argumentant Psithyrus ne doit pas être nommé comme genre indépendant. La phylogénie de l'espèce a été construite à partir des séquences de protéines alignées concaténées de 2 918 orthologues universels à copie unique de 19 espèces de bourdons (17 de la présente étude, deux publiées précédemment : Bombus terrestris et B. impatience [ Sadd et al. 2015]) et quatre espèces d'abeilles (Apis florea, A. dorsata [ Oppenheim et al. 2020], A. cerana [ Park et al. 2015], et A. mellifera [Weinstock et al. 2006]), avec des groupes orthologues délimités à l'aide du logiciel OrthoDB ( Kriventseva et al. 2015). Une analyse complémentaire avec ASTRAL basée sur des arbres de gènes de maximum de vraisemblance ( Zhang et al. 2018) a abouti à un arbre d'espèces identique à l'exception du placement de B. pyrosome, qui ne forme plus un couple monophylétique avec B. breviceps, mais forme plutôt un clade asymétrique de quatre taxons avec B. breviceps, B. sibricus, et B. cullumanus ( fig. supplémentaire S5 , Matériel supplémentaire en ligne). La tendance de la concaténation à maximum de vraisemblance à renvoyer une topologie symétrique à quatre taxons tandis qu'ASTRAL renvoie une topologie asymétrique (comme observé ici) est une lacune connue de la concaténation à maximum de vraisemblance en présence d'un tri de lignée incomplète (ILS) ( Kubatko et Degnan 2007 Mendes et Hahn 2018), ce qui implique que la topologie ASTRAL est probablement la bonne topologie.

Comparaisons phylogénétiques, génomiques et protéomiques de 19 espèces de bourdons représentant les 15 Bombus sous-genres. (UNE) De gauche à droite : la phylogénie des espèces moléculaires à probabilité maximale construite à partir de 2 918 groupes orthologues à copie unique concaténés de tous les groupes externes de bourdons et d'abeilles mellifères séquencés à l'aide de IQ-TREE. Les libellés de nœud en bleu sont au format suivant : gCFs | sCF. Les branches mises à l'échelle par le nombre relatif de substitutions, les astérisques rouges après les noms d'espèces indiquent les cinq espèces avec des assemblages au niveau chromosomique du sous-genre auquel chaque espèce de bourdon appartient (Md, Mendacibombus Bi, Bombias Kl, Kallobombus mg, Mégabombe Saint, Bombe souterraine Ou, Orientalibombus E, Thorabobus Ps, Psithyrus Cu, Cullumanobombe Sb, Sibiricobombe Ag, Alpigénobombus Monsieur, Mélanobombe Pr, Pyrobombe Al, Alpinobobus Bo, Bombus) l'altitude du site de collecte des espèces (triangle rouge : extrême haute altitude rectangle vert : basse altitude) et la taille de l'assemblage du génome de chaque fraction d'espèce séquencée des TE (brun) dans chaque génome. (B) Les diagrammes à barres montrent le nombre total de gènes pour chaque bourdon répartis en fonction de leurs profils d'orthologie, des gènes anciens trouvés chez les bourdons aux gènes restreints à la lignée et spécifiques à l'espèce. (C, ) La contribution de TE et CDS à la variation de la taille du génome chez les bourdons, respectivement. Différences dans le contenu total des TE (C) et CDS () des 19 génomes par rapport à celui de Superbus Bombus (qui a la plus petite taille d'assemblage de génome) sont tracées en fonction de leurs différences de taille de génome (par rapport à celle de B. superbus).

Comparaisons phylogénétiques, génomiques et protéomiques de 19 espèces de bourdons représentant les 15 Bombus sous-genres. (UNE) De gauche à droite : la phylogénie des espèces moléculaires à probabilité maximale construite à partir de 2 918 groupes orthologues à copie unique concaténés de tous les groupes externes d'abeilles et de bourdons séquencés à l'aide de IQ-TREE. Les libellés de nœud en bleu sont au format suivant : gCFs | sCF. Les branches mises à l'échelle par le nombre relatif de substitutions, les astérisques rouges après les noms d'espèces indiquent les cinq espèces avec des assemblages au niveau chromosomique du sous-genre auquel chaque espèce de bourdon appartient (Md, Mendacibombus Bi, Bombias Kl, Kallobombus mg, Mégabombe Saint, Bombe souterraine Ou, Orientalibombus E, Thorabobus Ps, Psithyrus Cu, Cullumanobombe Sb, Sibiricobombe Ag, Alpigénobombus Monsieur, Mélanobombe Pr, Pyrobombe Al, Alpinobobus Bo, Bombus) l'altitude du site de collecte des espèces (triangle rouge : extrême haute altitude rectangle vert : basse altitude) et la taille de l'assemblage du génome de chaque fraction d'espèce séquencée des TE (brun) dans chaque génome. (B) Les diagrammes à barres montrent le nombre total de gènes pour chaque bourdon répartis en fonction de leurs profils d'orthologie, des gènes anciens trouvés chez les bourdons aux gènes restreints à la lignée et spécifiques à l'espèce. (C, ) La contribution de TE et CDS à la variation de la taille du génome chez les bourdons, respectivement. Différences dans le contenu total des TE (C) et CDS () des 19 génomes par rapport à celui de Superbus Bombus (qui a la plus petite taille d'assemblage de génome) sont tracées en fonction de leurs différences de taille de génome (par rapport à celle de B. superbus).

Cependant, l'inspection des arbres génétiques révèle des niveaux extrêmes de discordance : aucune de leurs topologies ne correspond à la topologie de l'arbre déduite de la concaténation (tableaux supplémentaires S5 et S6, Matériel supplémentaire en ligne), et presque chaque arbre génétique a une topologie unique (tableau supplémentaire S7 , Matériel supplémentaire en ligne). De tels niveaux extrêmes de discordance ont déjà été observés chez les oiseaux ( Jarvis et al. 2014) et les tomates ( Pease et al. 2016) et ont été attribués à diverses sources, telles que l'ILS et l'introgression ( Maddison 1997). Un manque de sites informatifs, seulement 24%, contre 47% dans un ensemble de données similaire de 25 drosophiles ( Da Lage et al. 2019), peut-être en raison de la diversification relativement récente des bourdons ( Hines 2008), peut également provoquer des discordances. L'analyse du facteur de concordance des gènes et des sites (sCF) (Minh, Hahn, et al. 2020) a été utilisée pour quantifier la quantité de discordance entre les arbres de gènes et l'arbre d'espèces IQ-TREE (étiquettes de nœuds sur la figure 1A). Pour chaque nœud de l'arbre d'espèces IQ-TREE, les facteurs de concordance des gènes (gCF) reflètent le pourcentage d'arbres de gènes qui contiennent ce nœud tel que défini par ses taxons descendants, et les sCF reflètent le pourcentage de sites informatifs qui soutiennent ce nœud par parcimonie. En moyenne sur l'ensemble du Bombus phylogénie, les nœuds de l'arbre d'espèces IQ-TREE montrent un gCF de 38,4%, indiquant qu'en moyenne un nœud est présent dans seulement les deux cinquièmes des arbres de gènes. Un filtrage plus strict pour utiliser les arbres de gènes avec le support de bootstrap le plus élevé entraîne des valeurs de gCF plus élevées pour tous les nœuds (fig. supplémentaire S6, matériel supplémentaire en ligne). SCF moyen à travers Bombus nodes est de 53,6%, ce qui signifie qu'un peu plus de la moitié des sites informatifs dans les alignements de gènes supportent les nœuds de l'arbre d'espèces IQ-TREE (étiquettes de nœuds sur la figure 1A). Ces sCF, les courtes branches internes de l'arbre des espèces et la forte corrélation entre elles (fig. supplémentaire S7, matériel supplémentaire en ligne) sont cohérents avec l'ILS entraînant la discordance observée dans l'arbre de gènes. La contribution possible de l'introgression à la discordance observée entre les arbres génétiques a été examinée en utilisant des topologies d'arbres pour calculer comme décrit dans Huson et al. (2005) et Vanderpool et al. (2020) pour chaque branche de l'IQ-TREE et de l'arbre d'espèces ASTRAL qui a montré un gCF de <95%. En utilisant l'échantillonnage bootstrap des arbres génétiques pour fournir une distribution nulle (fig. supplémentaire S8, matériel supplémentaire en ligne), aucune lignée dans l'un ou l'autre arbre des espèces n'a montré de valeurs significativement élevées de , excluant l'introgression comme source de discordance (fig. supplémentaire S9, supplémentaire Matériel en ligne). En raison des niveaux élevés de discordance, les phylogénies au niveau des gènes sont donc utilisées dans toutes les analyses d'évolution moléculaire ultérieures basées sur les gènes, car une telle discordance peut fausser les inférences de substitutions lorsqu'elles sont cartographiées sur un arbre d'espèce ( Mendes et Hahn 2016).

Réarrangements génomiques majeurs dans les parasites sociaux

Les cinq assemblages de génomes Hi-C indiquent que quatre des cinq sous-genres ont 18 chromosomes ( fig. 2A et C supplémentaires fig. S10A et B , Supplementary Material en ligne), conformément à l'analyse caryotypique précédente qui a déduit que le nombre de chromosomes ancestraux est 18 ( Owen et al. 1995). Cependant, le bourdon parasite social, B. turneri, sous-genre Psithyrus, a 25 chromosomes ( fig.2B), en accord avec des travaux cytologiques antérieurs ( Owen 1983). Malgré le nombre de chromosomes plus élevé, la taille de son génome se situe dans la gamme des autres bourdons ( fig. 1A et tableau 1). Étudier les relations de macrosynténie entre B. turneri et les autres espèces avec des assemblages au niveau chromosomique ont révélé trois processus majeurs qui expliquent comment un caryotype à 25 chromosomes a été dérivé du caryotype ancestral de 18 chromosomes. Premièrement, certains chromosomes sont descendus, structurellement inchangés, de chromosomes ancestraux (par exemple, le chromosome 5 fig. 2D en bleu). Deuxièmement, certains proviennent de la fission d'un chromosome ancestral (par exemple, 11 et 25 de B. turneri issue de la fission du chromosome 11 ancestral fig. 2D en rouge). Enfin, certains sont dérivés de fusions de deux ou plusieurs segments chromosomiques ancestraux (par exemple, B. turneri le chromosome 22 est issu de la fusion de segments des chromosomes ancestraux 7, 8, 10 et 16 [ fig. 2D en or]). Comparaisons par paires entre Psithyrus et les membres d'autres sous-genres révèlent des résultats similaires et soutiennent l'inférence que les 25 chromosomes du bourdon parasite social résultent d'une combinaison de fission, fusion et rétention de chromosomes ancestraux (fig. supplémentaire S10, matériel supplémentaire en ligne).

Evolution du nombre de chromosomes chez des espèces de bourdons représentatives de trois sous-genres différents. Cartes thermiques de contact Hi-C pour Bombus hémorroïdaire (UNE), B. turneri (B), et B. pyrosome (C) montrent que les trois espèces ont respectivement 18, 25 et 18 chromosomes. Le caryotype à 18 chromosomes est la structure du génome ancestral déduit, avec 25 chromosomes trouvés chez les bourdons parasites sociaux du sous-genre Psithyrus. () Comparaisons de macrosynténie à travers B. haemorrhoidalis, B. turneri, et B. pyrosome montrer comment les 25 B. turneri les chromosomes résultent d'une combinaison de fission (rouge), de fusion (jaune) et de rétention (bleu) de chromosomes ancestraux.

Evolution du nombre de chromosomes chez des espèces de bourdons représentatives de trois sous-genres différents. Cartes thermiques de contact Hi-C pour Bombus hémorroïdaire (UNE), B. turneri (B), et B. pyrosome (C) montrent que les trois espèces ont respectivement 18, 25 et 18 chromosomes. Le caryotype à 18 chromosomes est la structure du génome ancestrale déduite, avec 25 chromosomes trouvés chez les bourdons parasites sociaux du sous-genre Psithyrus. () Comparaisons de macrosynténie à travers B. haemorrhoidalis, B. turneri, et B. pyrosome montrer comment les 25 B. turneri les chromosomes résultent d'une combinaison de fission (rouge), de fusion (jaune) et de rétention (bleu) de chromosomes ancestraux.

Taux d'évolution des chromosomes, en termes de réarrangements par rapport à B. terrestris, ont été étudiées pour chacune des cinq espèces avec des assemblages au niveau des chromosomes. Les taux de réarrangement chez les bourdons vont de 0,0016 à 0,0075 inversions/Mb/My (tableau supplémentaire S8, Supplementary Material online), qui sont bien inférieurs à ceux des drosophiles (0,013-0,159 inversions/Mb/My) et des anophèles (0,052-0,068 inversions/ Mb/My) ( von Grotthuss et al. 2010 Neafsey et al. 2015). Ainsi, bien que les génomes des bourdons aient un taux de recombinaison élevé ( Wilfert et al. 2007), leurs taux d'évolution chromosomique sont relativement lents, ce qui est en outre soutenu par la forte contiguïté synténique observée entre les espèces (moyenne de 88 %, de 80 % à 95 % tableau supplémentaire S9 , Matériel supplémentaire en ligne).

Les TE entraînent la variation de la taille du génome

Les tailles des assemblages de génomes (haploïdes) vont de 230 Mo en B. superbus à 262 Mo en B. sibiricus (fig. 1A). L'inférence de la taille du génome ancestral des bourdons a produit une estimation de 230-231 Mb, similaire à celle des membres du sous-genre Mendacibombus, mais plus petit que les génomes de tous les autres bourdons existants étudiés (fig. supplémentaire S11, matériel supplémentaire en ligne). La comparaison des différences de taille du génome avec le contenu relatif des TE, les répétitions de séquences simples et les séquences d'ADN codantes (CDS) montre que le contenu en TE explique la majorité des différences entre les bourdons (corrélation de Pearson R = 0.92, P = 1.9e-08, R 2 = 0,85 fig. 1C et D fig. supplémentaires. S12 , Matériel supplémentaire en ligne). Mendacibombus espèces ont une taille de génome plus petite que les autres espèces ( fig. 1A), et les TE qui se sont transposés en non-Mendacibombus espèces après divergence de Mendacibombus montrent des nombres de copies allant de 1 992 à 4 755 (fig. supplémentaire S13, matériel supplémentaire en ligne), soutenant la contribution des TE à l'évolution de la taille du génome. De plus, l'analyse de l'historique de la prolifération des TE a indiqué que tous les non-Mendacibombus les espèces ont des pics d'amplification TE plus récents (fig. supplémentaire S14, matériel supplémentaire en ligne), cohérents avec l'augmentation de l'activité TE entraînant une augmentation de la taille du génome.

Les distributions génomiques des TE comprennent 1 074 à 1 786 loci TE qui se chevauchent avec les régions codantes des gènes codant pour les protéines (tableau supplémentaire S10, Matériel supplémentaire en ligne). Au total, 352 de ces gènes sont des orthologues universels à copie unique sur les 19 bourdons dont l'ensemble dN/réS les valeurs sont toutes <1 (tableau supplémentaire S11, matériel supplémentaire en ligne), suggérant des contraintes fonctionnelles à long terme. Un cas d'une fusion putative de gène TE chimérique ancienne et maintenue implique un gène avec des orthologues à copie unique sur les 19 bourdons où l'extrémité C-terminale des protéines correspond à la séquence d'une transcriptase inverse d'un rétrotransposon R1 ( fig. supplémentaire S15 , Matériel supplémentaire en ligne). Les lectures alignées à partir des données de séquençage de l'ARN se poursuivent avec des niveaux de couverture similaires dans la région putativement dérivée de TE à l'extrémité 3' du gène, soutenant la prédiction et l'expression de la chimère complète. L'activité TE a donc contribué à l'évolution du répertoire des gènes codant pour les protéines du bourdon. De plus, il existe des milliers d'ET situés à moins de 1 kb d'un gène dans chaque espèce (tableau supplémentaire S10, Matériel supplémentaire en ligne), et, en B. terrestris, 278 de ces TE cohabitent avec des régions de chromatine ouvertes détectées par ATAC-seq (tableau supplémentaire S12, Supplementary Material en ligne), suggérant que ces TE pourraient avoir été incorporés dans des séquences régulatrices.

L'évolution du contenu génétique reflète la diversité de la recherche de nourriture et de l'alimentation

Les résultats de la délimitation orthologique indiquent qu'une majorité de gènes se trouvent dans une ou plusieurs copies chez presque toutes les espèces de bourdons ( fig. 1B). Ceux-ci comprennent 53 groupes orthologues spécifiques à la Bombus genre, qui sont présents chez les 19 bourdons mais absents chez les quatre abeilles mellifères ( fig. 1B, tableau supplémentaire S13 , Matériel supplémentaire en ligne), et peuvent jouer un rôle dans les traits spécifiques à la lignée. L'annotation fonctionnelle suggère que cinq de ces Bombus-des gènes spécifiques sont associés au métabolisme et au transport des protéines (tableau supplémentaire S13, Supplementary Material online), potentiellement liés à la teneur plus élevée en protéines du pollen collecté par les bourdons que les abeilles domestiques (Leonhardt et Blüthgen 2012) ou l'importance des protéines pour la diapause des insectes, qui est une étape critique dans le cycle de vie du bourdon ( Denlinger 2002 Colgan et al. 2011). Les groupes orthologues avec la représentation d'espèces la plus large sont enrichis fonctionnellement pour les processus biologiques de base tels que le transport des protéines, la transduction du signal (p. En revanche, ceux dont la représentation des espèces est clairsemée ou restreinte à la lignée sont enrichis pour des processus tels que la perception olfactive et gustative, la biosynthèse des acides aminés et l'oxydo-réduction (tableau supplémentaire S14, matériel supplémentaire en ligne). En moyenne, 465 gènes spécifiques à une espèce (ceux sans orthologue dans aucune autre espèce) ont été identifiés dans chaque espèce de bourdon (plage de 137 à 767) (tableau supplémentaire S15, Matériel supplémentaire en ligne), qui peuvent contribuer à des traits spécifiques à l'espèce mais dont les rôles fonctionnels restent à explorer.

Analyse du chiffre d'affaires (gains et pertes) des répertoires de gènes à travers le Bombus la phylogénie (15 espèces, une par sous-genre) à l'aide de CAFE v3.0 (Han et al. 2013) a identifié des expansions et des contractions parmi 13 828 familles de gènes et a quantifié les variations des taux de renouvellement des gènes entre les espèces (fig. supplémentaire S16, matériel supplémentaire en ligne). Après correction d'erreur, le taux global de renouvellement des gènes dans Bombus génomes est de 0,0036/gène/My, similaire à une analyse de 18 espèces d'anophèles et de 25 drosophiles (tableau supplémentaire S16, Matériel supplémentaire en ligne) ( Neafsey et al. 2015 Da Lage et al. 2019). Cependant, ces taux de renouvellement des gènes spécifiques au genre sont 2 à 3 fois plus élevés que les taux à l'échelle de l'ordre, qui sont en moyenne de 0,0011 (tableau supplémentaire S16, Matériel supplémentaire en ligne) ( Thomas et al. 2020), peut-être en raison de l'échantillonnage plus dense dans le genre. études de niveau qui permettent de capturer plus d'événements. Les événements de gain et de perte de gènes, ainsi que le nombre de familles de gènes en évolution rapide, sont résumés pour chaque espèce (tableau supplémentaire S17, Matériel supplémentaire en ligne), avec un total de 3 797 familles de gènes en évolution rapide. Les familles de gènes les plus dynamiques sont enrichies pour des processus tels que la perception de l'odorat et du goût, le métabolisme de la chitine, le mouvement basé sur les microtubules et la méthylation (tableau supplémentaire S18, matériel supplémentaire en ligne). Une analyse complémentaire utilisant trois mesures de variation du nombre de copies de gènes identifie également ces processus comme étant enrichis parmi les familles de gènes les plus variables, contrairement aux plus stables impliquées dans les processus liés à la traduction, l'adhésion et le transport (tableau supplémentaire S19, Matériel supplémentaire en ligne ). En termes d'évolution du nombre de copies de domaines protéiques, les gènes les plus variables sont ceux avec des domaines F-box médiateurs de l'interaction protéine-protéine, des motifs SAP de liaison à l'ADN putativement et des guanylate kinases de transfert de phosphate (tableau supplémentaire S20, matériel supplémentaire en ligne).

Structures intron-exon stables avec lecture abondante de codon stop

Analyse du potentiel de codage des protéines à l'aide de B. terrestris comme l'espèce de référence a identifié 851 codons d'arrêt de lecture candidats (fig. S17 supplémentaire et tableau S21, Matériel supplémentaire en ligne), c'est-à-dire où la traduction se poursuit probablement à travers des codons d'arrêt pour produire des isoformes de protéines étendues. Le potentiel de codage a été évalué à l'aide de PhyloCSF ( Lin et al. 2011) sur les alignements du génome entier des 19 bourdons et des quatre abeilles mellifères. Le taux de fausses découvertes a été estimé en utilisant l'enrichissement pour le contexte du codon d'arrêt TGA-C, qui est favorisé dans les gènes de lecture, pour en déduire que pas plus de 30 % des 200 candidats ayant obtenu le score le plus élevé sont des faux positifs, et qu'au moins 306 des nos 851 candidats subissent une relecture fonctionnelle. Bien que la lecture soit rare au-delà de Pancrustacea, des centaines de Drosophile et Anophèle les gènes subissent une relecture ( Jungreis et al. 2011 Dunn et al. 2013 Jungreis et al. 2016 Rajput et al. 2019) et nos résultats basés sur l'alignement du génome entier soutiennent la prédiction ( Jungreis et al. 2011) que les espèces d'insectes ont lecture du codon stop. En revanche, les frontières intron-exon au sein des gènes de bourdon sont relativement stables. L'examen des histoires évolutives des gains et des pertes d'introns a révélé peu de changements, représentant seulement 3 à 4 % des sites d'introns ancestraux, avec plus de gains que de pertes ( fig. supplémentaire S18 et tableau S22 , Matériel supplémentaire en ligne), contrairement aux drosophiles et aux anophèles où les pertes dominent ( Neafsey et al. 2015), suggérant que la structure du gène du bourdon est restée relativement stable au cours des 34 Ma depuis leur dernier ancêtre commun.

Divergence et contraintes sélectives des gènes codant pour les protéines

Les gènes de bourdon avec une divergence de séquence élevée et/ou des contraintes relâchées incluent des processus liés à la perception de l'odorat, au métabolisme de la chitine, au traitement de l'ARN, à la réparation de l'ADN et à l'oxydo-réduction ( fig. 3). Mesures du taux d'évolution (divergence des séquences d'acides aminés mesurée comme la moyenne des identités normalisées des séquences protéiques orthologues interspécifiques) et de la contrainte sélective (dN/réS) ont montré des tendances similaires parmi les différentes catégories fonctionnelles de gènes. La plupart des gènes sont fortement contraints, avec des estimations médianes de dN/réS bien inférieur à un. L'attribution des termes GO et des domaines InterPro est généralement biaisée en faveur de gènes à évolution plus lente et bien conservés (fig. supplémentaire S19, matériel supplémentaire en ligne). Néanmoins, les catégories fonctionnelles avec les gènes évoluant le plus rapidement sont étayées et complétées par l'examen des termes GO de la fonction moléculaire ( fig. supplémentaire S20 UNE, matériel supplémentaire en ligne) et les domaines InterPro ( fig. supplémentaire S20 B, Supplementary Material en ligne), qui montrent des taux élevés de liaison olfactive, d'activité des récepteurs olfactifs, de liaison de la chitine, d'activité oxydoréductase, d'activité endopeptidase de type sérine et de domaines récepteurs olfactifs. L'analyse d'enrichissement à terme GO des sous-ensembles de gènes les plus lents et les plus rapides, respectivement en bas et en haut de 20 % (fig. supplémentaire S21, matériel supplémentaire en ligne), a montré les gènes avec les taux d'évolution les plus lents et les plus faibles dN/réS les ratios ont été enrichis pour les processus biologiques essentiels d'entretien ménager et les fonctions moléculaires (tableaux supplémentaires S23 et S24, matériel supplémentaire en ligne). En revanche, les gènes avec les taux d'évolution les plus rapides ont été enrichis pour les processus liés à la biosynthèse des polysaccharides, à l'aminoacylation de l'ARNt, à la liaison aux médicaments et à l'activité de l'ARN méthyltransférase (tableau supplémentaire S23, matériel supplémentaire en ligne). Gènes avec le plus dN/réS les ratios ont été enrichis pour les processus et les fonctions, notamment la protéolyse, la traduction, le traitement des ARNnc et le métabolisme de la chitine (tableau supplémentaire S24, matériel supplémentaire en ligne).

L'évolution moléculaire des gènes codant pour les protéines en termes de taux d'évolution et dN/réS rapport. Les termes du processus biologique GO sont triés par taux d'évolution du plus conservateur (gauche) au plus dynamique (droite) et colorés des valeurs les plus élevées (rouge) à la valeur médiane (bleu) aux valeurs les plus faibles (orange). Le taux d'évolution fait référence à la divergence des séquences d'acides aminés mesurée comme la moyenne des identités de séquences de protéines orthologues interspécifiques normalisées. réN/réS désigne le rapport entre le nombre de substitutions non synonymes par site non synonyme et le nombre de substitutions synonymes par site synonyme. Les cases à encoches montrent les médianes des valeurs des groupes orthologues avec les limites des quartiles supérieur et inférieur, et les largeurs des cases sont proportionnelles au nombre de groupes orthologues dans chaque catégorie.

L'évolution moléculaire des gènes codant pour les protéines en termes de taux d'évolution et dN/réS rapport. Les termes du processus biologique GO sont triés par taux d'évolution du plus conservateur (gauche) au plus dynamique (droite) et colorés des valeurs les plus élevées (rouge) à la valeur médiane (bleu) aux valeurs les plus faibles (orange). Le taux d'évolution fait référence à la divergence des séquences d'acides aminés mesurée comme la moyenne des identités de séquences de protéines orthologues interspécifiques normalisées. réN/réS désigne le rapport entre le nombre de substitutions non synonymes par site non synonyme et le nombre de substitutions synonymes par site synonyme. Les cases à encoches montrent les médianes des valeurs des groupes orthologues avec les limites des quartiles supérieur et inférieur, et les largeurs des cases sont proportionnelles au nombre de groupes orthologues dans chaque catégorie.

Biais d'utilisation des codons induits par le contenu

L'analyse du biais d'utilisation des codons n'a montré aucune preuve de sélection sur des codons optimaux, contrairement aux drosophiles mais similaire aux anophèles ( Vicario et al. 2007 Neafsey et al. 2015). Au lieu de cela, le biais d'utilisation des codons chez les bourdons semble être principalement dû au contenu en AT, ce qui est cohérent avec les rapports précédents sur les hyménoptères ( Behura et Severson 2012). Les codons optimaux ont été estimés dans chaque espèce et des coefficients de corrélation ont été calculés entre l'utilisation relative des codons synonymes et le nombre effectif de codons par gène. Toutes les espèces ont une préférence et une intensité de préférence similaires pour chaque acide aminé, il y avait un codon toujours hautement préféré et souvent un codon secondairement préféré, tous se terminant par A/T (fig. supplémentaire S22, matériel supplémentaire en ligne). Pour tester si l'utilisation des codons pouvait s'expliquer en grande partie par un biais de mutation, un modèle linéaire a été utilisé pour prédire la Fop (fréquence du codon optimal) à partir du contenu global du gène AT et de l'utilisation des acides aminés. Le modèle a expliqué 99,2 % de la variation Fop sans qu'il soit nécessaire d'inclure l'origine de l'espèce de chaque gène. Le contenu AT à lui seul expliquait 81 % de la variation ( fig. supplémentaire S23 , Matériel supplémentaire en ligne). De plus, une forte corrélation a été observée entre la teneur en codon AT et la corrélation entre l'utilisation relative de codons synonymes et le nombre effectif de codons dans toutes les espèces (fig. supplémentaire S24, Supplementary Material en ligne).

Évolution des gènes associés à l'écoéthologie du bourdon

De nombreux facteurs écologiques et environnementaux, par exemple la pénurie de nourriture, l'émergence d'agents pathogènes, l'exposition aux pesticides et le changement climatique, contribuent au déclin global des bourdons dans le monde ( Williams et al. 2009 Goulson et al. 2015 Cameron et Sadd 2020). Pour commencer à explorer le complément de gènes susceptibles d'être impliqués dans les interactions des bourdons avec leur environnement, nous avons examiné l'évolution des familles de gènes associées à leur écologie et leur cycle de vie. Échantillonnage à travers le Bombus Le genre a permis la première étude de la diversité du répertoire génétique naturel de ces familles qui sont susceptibles d'être importantes pour l'adaptabilité et le succès des bourdons.

Diversité des récepteurs chimiosensoriels

La chimiosensation joue un rôle essentiel dans la localisation de la nourriture et des nids, la communication avec les compagnons de nid et l'identification d'autres indices environnementaux ( Ayasse et Jarau 2014). Une recherche des trois principales familles de gènes de récepteurs chimiosensoriels - les récepteurs odorants (OR), les récepteurs gustatifs (GR) et les récepteurs ionotropes (IR) - dans les génomes séquencés des bourdons a identifié 3 228 gènes, avec un nombre moyen (minimum-maximum) de 150 ( 133-165) RUP, 18 (13–22) GR et 22 (21-22) IR (tableau supplémentaire S25, Matériel supplémentaire en ligne). Seuls les gènes complets ont été utilisés pour l'analyse du gain et de la perte de gènes. Malgré les similitudes dans le nombre total de gènes OR, des exemples de gain/perte de gènes ont été observés dans des lignées spécifiques. Il y a eu une perte nette de 15 ORs dans l'ancêtre commun du sous-genre Mendacibombus (Maryland) ( fig. 4A supplémentaire fig. S25 , Matériel supplémentaire en ligne). Espèces dans Mendacibombus habitent principalement les hautes montagnes, y compris le plateau Qinghai-Tibétain, avec une diversité florale relativement faible ( Williams et al. 2018), ce qui peut être lié à la perte de RO dans ce sous-genre. Une perte nette de 11 ORs a été observée dans l'ancêtre commun du sous-genre Psithyrus (PS) ( fig. 4A supplémentaire fig. S25 , Matériel supplémentaire en ligne).Pour les RUP partagées entre les bourdons, sept ont montré des preuves de sélection positive dans un sous-ensemble d'espèces, y compris des récepteurs de phéromone putatifs (tableau supplémentaire S26, matériel supplémentaire en ligne). Par rapport aux OR, les GR et les IR ont un nombre de gènes beaucoup plus faible et plus stable (fig. supplémentaire S25, matériel supplémentaire en ligne). Cependant, malgré la conservation globale du nombre de gènes et des preuves répandues pour purifier la sélection, il existe des preuves que certains gènes GR et IR ont subi une sélection positive dans un sous-ensemble d'espèces, y compris des récepteurs supposément impliqués dans la détection du fructose et de la température (tableau supplémentaire S26, matériel supplémentaire en ligne ).

Évolution des gènes associés à l'écologie et à la reproduction. (UNE). Comptes de gènes observés et comptes de gènes ancestraux inférés des OR de bourdons sur une phylogénie ultramétrique, mettant en évidence deux événements majeurs de perte de gènes (le résultat complet est disponible dans la fig. S25 supplémentaire, Matériel supplémentaire en ligne). (B). Boîtes à moustaches montrant dN/réS ratios pour différentes catégories de gènes immunitaires et tous les gènes à copie unique chez le bourdon (tous les gènes). d élevéN/réS les ratios entre les gènes liés au système immunitaire sont déterminés par des ratios plus élevés pour les gènes impliqués dans les processus de reconnaissance et de signalisation. Les cases à encoches montrent les médianes des valeurs des groupes orthologues avec les limites des quartiles supérieur et inférieur. (C). L'histoire évolutive de femme gènes des abeilles, y compris leurs paralogues fem1 chez les bourdons (Bombus) et csd chez les abeilles (Apis). Ratio global des taux non synonymes aux taux synonymes (??) a été calculé pour femmeBombus (référence, bleu) et fem1Bombus (test, rouge), y compris un cadre de test de site de succursale avec ajustement de modèle et tests de rapport de vraisemblance, montrant des preuves d'assouplissement de la sélection dans fem1Bombus (P < 0,001, LR = 36,34). Actions fallacieuses de diversification de la sélection sur des branches majoritairement fem1Bombus sont marqués en rouge. En comparaison, ?? pour femme et csd dans Apis est donné, dit exemple frappant de néofonctionnalisation.

Évolution des gènes associés à l'écologie et à la reproduction. (UNE). Comptes de gènes observés et comptes de gènes ancestraux inférés des OR de bourdons sur une phylogénie ultramétrique, mettant en évidence deux événements majeurs de perte de gènes (le résultat complet est disponible dans la fig. S25 supplémentaire, Matériel supplémentaire en ligne). (B). Boîtes à moustaches montrant dN/réS ratios pour différentes catégories de gènes immunitaires et tous les gènes à copie unique chez le bourdon (tous les gènes). d élevéN/réS les ratios entre les gènes liés au système immunitaire sont déterminés par des ratios plus élevés pour les gènes impliqués dans les processus de reconnaissance et de signalisation. Les cases à encoches montrent les médianes des valeurs des groupes orthologues avec les limites des quartiles supérieur et inférieur. (C). L'histoire évolutive de femme gènes des abeilles, y compris leurs paralogues fem1 chez les bourdons (Bombus) et csd chez les abeilles (Apis). Ratio global des taux non synonymes aux taux synonymes (??) a été calculé pour femmeBombus (référence, bleu) et fem1Bombus (test, rouge), y compris un cadre de test de site de succursale avec ajustement de modèle et tests de rapport de vraisemblance, montrant des preuves d'assouplissement de la sélection dans fem1Bombus (P < 0,001, LR = 36,34). Actions fallacieuses de diversification de la sélection sur des branches majoritairement fem1Bombus sont marqués en rouge. En comparaison, ?? pour femme et csd dans Apis est donné, dit exemple frappant de néofonctionnalisation.

Capacité de détoxification

Les gènes de détoxification sont utilisés pour neutraliser les xénobiotiques, tels que les métabolites secondaires des plantes toxiques et les pesticides. Les répertoires de carboxyl/cholinestérases, de monooxygénases du cytochrome P450 et de glutathion S-transférases dans les 17 génomes sont beaucoup plus petits que chez les drosophiles et les anophèles (tableau supplémentaire S27, Supplementary Material en ligne), indiquant un déficit à l'échelle du genre de cette catégorie de gènes, précédemment observé chez deux bourdons ( Sadd et al. 2015). Il y a 88 gènes de détoxification en moyenne chez les bourdons, avec peu de variation selon les espèces (tableau supplémentaire S27, Matériel supplémentaire en ligne). Malgré la conservation globale du nombre de gènes et des preuves répandues pour la sélection purificatrice (moyenne dN/réS est de 0,26), un total de 19 gènes de détoxification, y compris les carboxyl/cholinestérases, les monooxygénases du cytochrome P450 et les glutathion S-transférases, ont montré des signes de sélection diversifiée positive dans un sous-ensemble d'espèces (tableau supplémentaire S28, matériel supplémentaire en ligne).

Défense immunitaire

Les gènes immunitaires sont impliqués dans la reconnaissance et la défense contre les agents pathogènes. Semblable aux gènes de détoxification, les dénombrements dans les 17 génomes séquencés sont beaucoup plus faibles que chez les drosophiles et les anophèles (tableau supplémentaire S29, Matériel supplémentaire en ligne), montrant que la rareté précédemment notée chez deux bourdons (Barribeau et al. 2015 Sadd et al. 2015) s'étend à tout le genre. Les génomes des bourdons contiennent des composants de toutes les principales voies immunitaires décrites chez les insectes, et le nombre de gènes est assez bien conservé d'une espèce à l'autre (tableau supplémentaire S29, matériel supplémentaire en ligne). Par exemple, toutes les espèces ont deux gènes codant pour des protéines de liaison aux bactéries Gram-négatives, alors que les protéines de reconnaissance des peptidoglycanes sont plus variables avec entre quatre et six copies de gènes. Comparer dN/réS les rapports entre les gènes immunitaires et tous les gènes orthologues à copie unique chez les bourdons ont montré que les gènes immunitaires présentent un d légèrement plus élevéN/réS rapports (P = 0,04, test de somme des rangs de Wilcoxon), et parmi les gènes immunitaires, les gènes de reconnaissance et de signalisation ont un d plus élevéN/réS ratios que les gènes effecteurs ( fig. 4B). De plus, malgré des preuves répandues de sélection purificatrice, un total de 52 gènes immunitaires ont montré des preuves de sélection positive dans un sous-ensemble d'espèces de bourdons (tableau supplémentaire S30, matériel supplémentaire en ligne).

Gènes impliqués dans l'adaptation à haute altitude

Superbus Bombus, B. waltoni, B. difficillimus, et B. skorikovi sont quatre espèces collectées à des altitudes >4 000 m qui représentent trois sous-genres ( fig. 1). Aucun gène ne montre de signatures de sélection positive chez toutes les espèces de haute altitude, mais aucune des espèces de basse altitude. Cependant, six gènes montrent des signes de sélection positive chez des espèces représentant deux des trois sous-genres de haute altitude, mais aucune des espèces de basse altitude (tableau supplémentaire S31, matériel supplémentaire en ligne). L'un code CPAMD8, qui est impliqué dans le développement de l'œil ( Cheong et al. 2016). Comme les bourdons détectent visuellement les fleurs (Meyer-Rochow 2019), les signatures de sélection pourraient être liées à un ajustement précis du développement des yeux pour une recherche de nourriture optimale dans des conditions d'éclairage à haute altitude. Trois gènes codent pour une histone désacétylase, la synaptotagmine-12 et une ribonucléoprotéine nucléaire hétérogène, qui sont impliquées dans le maintien de l'intégrité musculaire et le maintien de « l'état de vol », ce qui est essentiel pour entreprendre une recherche de nourriture à longue distance ( Liu et al. 2001 Manjila et al 2019 Pigna et al. 2019). Deux gènes codent pour un transporteur de monocarboxylate couplé au sodium et une protéine de la famille des glycosyltransférases, qui seraient impliqués dans l'adaptation métabolique à l'hypoxie ( Véga et al. 2006 Shirato et al. 2010) ( tableau supplémentaire S31 , Supplementary Material online).

Détermination du sexe

L'analyse évolutive des gènes de détermination du sexe chez les bourdons et les espèces apparentées a indiqué que tous les génomes des bourdons partagent une copie dupliquée de féminisateur (femme), nommé femme 1 (fig. 4C). Comparé à femme, femme 1 montre un niveau de divergence plus élevé parmi les bourdons (femmeBombusN/réS = 0.24 femme 1BombusN/réS = 0,77 fig. 4C). Ces ratios sont proches de la fourchette observée pour Apis, dans lequel femme a évolué sous la sélection purificatrice et le gène paralogue déterminant du sexe complémentaire (csd) a évolué par néofonctionnalisation ( fig. 4C) ( Hasselmann et al. 2008). Un cadre de test de site de branche d'hypothèse (RELAX Wertheim et al. 2015) identifie les preuves d'un relâchement de la sélection dans femme 1Bombus comparé à femmeBombus (P < 0,001, LR = 36,34). De plus, l'action parasite de diversification de la sélection sur les branches a été principalement trouvée dans femme 1Bombus (fig. 4C). Un modèle d'évolution à effets mixtes ( Murrell et al. 2012) a été appliqué pour identifier les sites individuels qui ont fait l'objet d'une sélection diversifiante épisodique, et au moins 15 sites (P < 0,05) se sont avérés être soumis à une sélection positive, certains étant situés dans des motifs connus (fig. supplémentaire S26, Supplementary Material en ligne). Les résultats de ces analyses de sélection suggèrent que les deux femme et femme 1 contribuer à la voie de détermination du sexe des bourdons. Pour le transformateur 2 (tra-2), des changements constants d'acides aminés entre Bombus et Apis ont été trouvés dans le domaine de reconnaissance de l'ARN ( fig. supplémentaire S27 , Supplementary Material en ligne), soutenant une hypothèse antérieure d'une modification de la régulation entre les abeilles et les bourdons ( Biewer et al. 2015).


Commentaires

cadeau le 21 avril 2015 :

J'aime vraiment ce sujet il m'a aidé dans ma mission merci beaucoup.

dr. karuna sapkota le 18 juin 2014 :

J'ai trouvé ce hub très intéressant car il explique les différents secteurs de la biologie et je suis tout à fait d'accord avec vous. :)

Suhail Zubaid alias Clark Kent de Mississauga, ON, le 4 janvier 2013 :

Il s'agit d'un centre d'information. Voici une histoire comment un ingénieur civil est devenu médecin grâce à l'une des branches de la biologie.

Mon camarade de classe John est diplômé de la Fu School of Engineering de l'Université de Columbia avec un BS en génie civil. Il a été admis en bio-ingénierie avec une spécialisation en biomécanique (structures artificielles dans le corps humain). De là, il s'est qualifié pour un programme de 4 ans en médecine à Stony Brook et est devenu médecin.

Andrew Spacey de près de Huddersfield, West Yorkshire, Royaume-Uni le 4 janvier 2013 :

Merci pour cette plaque tournante perspicace dans la science de la biologie et ses nombreuses ramifications. L'étude de la génétique semble être un domaine clé pour l'avenir - démêler le code génétique et identifier chaque base d'ADN ouvrira sûrement un monde dont nous ne pouvons que rêver à l'heure actuelle. Fascinant. Votre hub a abordé les bases et nous a donné un aperçu d'un monde complexe et merveilleusement inspirant - cela me donne envie d'approfondir.

Mélanie Shebel (auteur) du Midwest, États-Unis le 03 janvier 2013 :

La microbiologie est sur la liste depuis un certain temps déjà. :P

Je suis d'accord avec vous que la biologie est extrêmement importante (je suis biaisé aussi, bien sûr!) :P

Darrin Perez de Porto Rico le 03 janvier 2013 :

Super hub melbel! J'ai étudié la microbiologie elle-même et je dois dire que la biologie abrite la branche la plus importante des sciences naturelles (à mon avis bien sûr). :RÉ

Rien n'est plus important que la vie elle-même !

Aussi, j'appuie la demande du Dr Pooja&aposs. :P

Jesse R de Gurgaon, Inde le 26 mai 2012 :

La biologie est la raison pour laquelle la longévité a augmenté et les gens ne paniquent pas lorsqu'un proche tombe malade !

La biologie est à la fois l'histoire et la science de toutes les formes de vie sur terre !

Pamela K Conoly de Fort Worth, Texas. le 25 mai 2012 :

Article très agréable et instructif, bien complet ! Nous utilisons la biologie tous les jours et la tenons pour acquise. Merci! )


Méthodes

Cette section résume les composants de notre pipeline informatique pour l'analyse du pan-génome humain. Plus de détails sont fournis dans le Fichier supplémentaire 1 : Méthodes supplémentaires.

Assemblage de novo

L'assemblage de novo est l'une des tâches importantes de l'analyse pangénomique, qui permet de détecter les séquences manquantes dans le génome de référence actuel. Dans EUPAN, SOAPDenovo2 a été utilisé pour assembler le génome individuel. Cependant, en raison de la grande taille du génome humain, l'assemblage d'un génome individuel à partir de données de séquençage de profondeur 30 fois nécessite plus de 500 Go de mémoire (Fichier supplémentaire 1 : Tableau S4), ce qui interdit en pratique d'assembler des centaines de génomes individuels. Après avoir comparé plusieurs outils d'assemblage de novo pour les données de séquençage de nouvelle génération pour les génomes de grande taille (Fichier supplémentaire 1 : Méthodes supplémentaires), nous avons sélectionné SGA (String Graph Assembler) [24] en raison de sa haute qualité d'assemblage et de sa faible consommation de mémoire. Nous avons obtenu des paramètres optimisés de SGA (Fichier supplémentaire 1 : Tableau S2) sur des données de simulation et avons exécuté SGA avec ce paramètre sur 185 génomes de séquençage profond en parallèle.

Identification de séquences non référencées

Construire des séquences pan-génomiques à partir d'assemblages individuels est une autre tâche difficile. Nous avons adopté une stratégie basée sur un génome de référence bien assemblé et bien annoté. Afin d'obtenir des séquences non référencées à partir de génomes individuels, des contigs incapables d'être alignés sur la séquence d'assemblage primaire GRCh38 (avec un seuil d'identité de 90 %) ont été collectés pour chaque individu. En raison de la grande taille du génome humain, ce processus utilisant directement QUAST [35] prend du temps et nécessite une énorme quantité de mémoire (tableau 1). Afin d'accélérer cette étape, nous avons développé une stratégie en deux étapes : éliminer les contigs très similaires au génome de référence suivi de l'extraction des séquences non référencées (Fichier supplémentaire 1 : Méthodes supplémentaires). Dans le pipeline HUPAN, nous nous sommes concentrés sur deux types de séquences non référencées : les séquences totalement non alignées et les séquences partiellement non alignées. Les séquences totalement non alignées sont définies comme des contigs sans alignement avec la séquence de référence tandis que les séquences partiellement non alignées sont définies comme des contigs avec au moins un alignement et au moins un fragment non aligné plus long qu'un seuil défini (par défaut, 500 pb). Après avoir obtenu des séquences individuelles de non-référence, nous les avons fusionnées et supprimées par CDHIT [36] les séquences redondantes avec un seuil d'identité de 90 %. Nous avons rejeté les séquences qui correspondaient le mieux aux micro-organismes, notamment les bactéries, les champignons, les archées et les virus et les eucaryotes non primates, y compris toutes les plantes et les animaux non primates, ce qui pourrait refléter d'éventuelles contaminations (Fichier supplémentaire 1 : Méthodes supplémentaires).

Afin de comprendre les caractéristiques des séquences entièrement non alignées, nous avons exécuté CDHIT pour éliminer davantage les séquences redondantes avec des niveaux d'identité inférieurs et exploré la similitude entre les séquences entièrement non alignées. Nous avons diminué le seuil d'identité de séquence pour explorer la similitude entre les séquences totalement non alignées et le génome humain de référence. Pour estimer si les séquences entièrement non alignées continueraient à croître à mesure que les individus augmentaient, nous avons ajouté les séquences entièrement non alignées de chaque individu pour exécuter un autre cycle de regroupement et supprimer les séquences redondantes jusqu'à ce que les séquences entièrement non alignées de tous les individus aient fusionné avec les séquences non alignées. jeu de données de séquence redondant. Nous avons exploré les éléments répétitifs de ces séquences par RepeatMasker (http://www.repeatmasker.org/) et les avons comparés à celui du génome de référence (à la fois les séquences d'assemblage primaire et les séquences leurres (hs38d1)) pour caractériser les compositions des séquences répétitives dans des séquences totalement non alignées. Enfin, nous avons aligné ces séquences entièrement non alignées sur la séquence de patch, les loci alternatifs et les séquences leurres (hs38d1) [9] ainsi que les génomes individuels assemblés existants [2, 26,27,28,29,30] pour déterminer si les séquences entièrement non alignées des séquences pourraient être identifiées chez d'autres individus.

Construction et annotation de séquences pan-génomiques

Nous avons en outre supprimé la redondance entre les séquences entièrement non alignées et les séquences partiellement non alignées et dérivé un ensemble de données de séquences non-référence non redondantes avec une taille totale de 66,04 Mb (28 588 séquences). Nous avons ajouté cet ensemble de données de séquences de non-référence dans les séquences d'assemblage primaire GRCh38 pour construire le pan-génome de 185 chinois Han nouvellement séquencés.

L'annotation des séquences d'assemblage primaire de GRCh38 et des séquences de non-référence étaient indépendantes. L'annotation gène/transcription des séquences d'assemblage primaire de GRCh38 était basée sur GENCODE [37] (version 26). Au total, il y a 19 817 gènes codant pour des protéines dans la base de données d'annotations. Si un gène a plusieurs transcrits, seul le transcrit avec le cadre de lecture ouvert (ORF) le plus long a été sélectionné comme représentant. Étant donné que tous les gènes situés dans le chromosome Y étaient absents chez tous les individus femelles, nous avons exclu 63 gènes dans le chromosome Y.

Les gènes codant pour des protéines sur des séquences non référencées ont été prédits à l'aide de MAKER [38] (Fichier supplémentaire 1 : Méthodes supplémentaires). Après des processus de filtrage rigoureux pour éliminer la redondance potentielle, 167 gènes complets ont été obtenus (Fichier supplémentaire 1 : Figure S8). Ces 167 nouveaux gènes prédits à partir des séquences du génome non de référence ont été combinés aux gènes du génome humain de référence, construisant 19 921 gènes codant des protéines pour le pan-génome humain sur la base des 185 génomes chinois Han à séquençage profond. Ces 19 921 gènes ont été appliqués pour générer le profil du gène PAV des 185 génomes chinois Han nouvellement assemblés.

Détermination du profil du gène PAV

Toutes les lectures de chaque individu ont été mappées sur les séquences pan-génomiques à l'aide de Bowtie2 [39, 40] avec des paramètres par défaut. SAMTools [40] et le logiciel Picard (http://broadinstitute.github.io/picard/) ont été utilisés pour trier et indexer les fichiers d'alignement. La couverture de codage et la couverture du corps génique de chaque gène chez chaque individu ont été calculées à partir des fichiers ".bam" triés. Nous avons utilisé la couverture génétique et/ou la couverture CDS (bases couvertes en longueur ORF / ORF) pour déterminer si un gène était présent chez un individu. Pour confirmer que la profondeur de séquençage de 30 fois était suffisante pour analyser le gène PAV d'un individu, nous avons sélectionné l'individu GCH1N00001G et échantillonné le résultat de l'alignement pour former des sous-ensembles de 3 à 27 fois avec un pas de 3. Les sous-ensembles avec une couverture différente ont été utilisés pour déterminer l'analyse de PAV génique sous différentes couvertures CDS.

Détermination des gènes centraux et distribués

Les gènes centraux font référence aux gènes présents chez tous les individus, et les gènes distribués font référence aux gènes absents chez au moins un individu. Nous avons utilisé le seuil de couverture CDS de 95 % pour déterminer le gène PAV pour chaque individu. Ensuite, nous avons décidé de l'ensemble de gènes de base et de l'ensemble de gènes distribué.

Application à 90 génomes chinois Han assemblés

Le pipeline HUPAN pourrait également être appliqué aux génomes humains assemblés existants ou à d'autres projets WGS. Quatre-vingt-dix individus non apparentés d'ascendance chinoise ont été séquencés et assemblés [23]. Nous avons téléchargé tous les échafaudages assemblés et appliqué le pipeline HUPAN pour extraire les séquences de non-référence, éliminer les contaminations potentielles et la redondance, prédire les nouveaux gènes et les caractériser selon les étapes décrites dans la section précédente (Fichier supplémentaire 1 : Méthodes supplémentaires).


Hypothèse de normalité d'un test t

Considérez une grande population à partir de laquelle vous pourriez prélever de nombreux échantillons différents d'une taille particulière. (Dans une étude particulière, vous collectez généralement un seul de ces échantillons.)

Le test t suppose que les moyennes des différents échantillons sont distribuées normalement, il ne suppose pas que la population est distribuée normalement.

Par le théorème central limite, les moyennes des échantillons d'une population à variance finie approchent une distribution normale quelle que soit la distribution de la population. Les règles empiriques disent que les moyennes de l'échantillon sont fondamentalement distribuées normalement tant que la taille de l'échantillon est d'au moins 20 ou 30. Pour qu'un test t soit valide sur un échantillon de plus petite taille, la distribution de la population devrait être approximativement normale.

Le test t n'est pas valide pour les petits échantillons provenant de distributions non normales, mais il est valide pour les grands échantillons provenant de distributions non normales.

Petits échantillons de distributions non normales

Comme Michael le note ci-dessous, la taille de l'échantillon nécessaire à la distribution des moyennes pour approximer la normalité dépend du degré de non-normalité de la population. Pour des distributions approximativement normales, vous n'aurez pas besoin d'un échantillon aussi grand qu'une distribution très non normale.

Voici quelques simulations que vous pouvez exécuter dans R pour vous faire une idée de cela. Tout d'abord, voici quelques répartitions de la population.

Viennent ensuite quelques simulations d'échantillons à partir des distributions de population. Dans chacune de ces lignes, "10" est la taille de l'échantillon, "100" est le nombre d'échantillons et la fonction après cela spécifie la distribution de la population. Ils produisent des histogrammes des moyennes de l'échantillon.

Pour qu'un test t soit valide, ces histogrammes doivent être normaux.

Utilité d'un test t

Je dois noter que toutes les connaissances que je viens de transmettre sont quelque peu obsolètes maintenant que nous avons des ordinateurs, nous pouvons faire mieux que les tests t. Comme le note Frank, vous voudrez probablement utiliser les tests de Wilcoxon partout où l'on vous a appris à exécuter un test t.

Le théorème central limite est moins utile qu'on ne le pense dans ce contexte. Premièrement, comme quelqu'un l'a déjà souligné, on ne sait pas si la taille actuelle de l'échantillon est « assez grande ». Deuxièmement, le CLT vise davantage à obtenir l'erreur de type I souhaitée qu'à propos de l'erreur de type II. En d'autres termes, le test t peut être non compétitif en termes de puissance. C'est pourquoi le test de Wilcoxon est si populaire. Si la normalité est respectée, elle est à 95% aussi efficace que le test t. Si la normalité ne tient pas, elle peut être arbitrairement plus efficace que le test t.

Voir ma réponse précédente à une question sur la robustesse du test t.

En particulier, je recommande de jouer avec l'applet onlinestatsbook.

L'image ci-dessous est basée sur le scénario suivant :

  • l'hypothèse nulle est vraie
  • asymétrie assez sévère
  • même répartition dans les deux groupes
  • même variance dans les deux groupes
  • taille de l'échantillon par groupe 5 (c'est-à-dire beaucoup moins de 50 selon votre question)
  • J'ai appuyé environ 100 fois sur le bouton 10 000 simulations pour obtenir plus d'un million de simulations.

La simulation obtenue suggère qu'au lieu d'obtenir 5% d'erreurs de type I, je n'obtenais que 4,5% d'erreurs de type I.

Que vous considériez cela comme robuste dépend de votre point de vue.

Dans mon expérience avec juste le test t à un échantillon, j'ai trouvé que le fausser des distributions est plus important que le kurtosis, disons. Pour les distributions non asymétriques mais à queue épaisse (à 5 degrés de liberté, une distribution h de Tukey avec $h=0,24999$, etc.), j'ai trouvé que 40 échantillons ont toujours été suffisants pour obtenir un taux empirique de type I proche le nominal. Cependant, lorsque la distribution est très asymétrique, vous aurez peut-être besoin de beaucoup plus d'échantillons.

Par exemple, supposons que vous jouiez à la loterie. Avec probabilité $p = 10^<-4>$ vous gagnerez 100 mille dollars, et avec probabilité $1-p$ vous perdrez un dollar. Si vous effectuez un test t pour le null que le retour moyen est zéro sur la base d'un échantillon de mille tirages de ce processus, je ne pense pas que vous allez atteindre le taux nominal de type I.

Éditer: duh, par capture de @whuber dans le commentaire, l'exemple que j'ai donné n'avait pas de moyenne zéro, donc tester la moyenne zéro n'a rien à voir avec le taux de type I.

Parce que l'exemple de loterie a souvent un écart type d'échantillon de zéro, le test t s'étouffe. Au lieu de cela, je donne un exemple de code utilisant la distribution Lambert W x Gauss de Goerg. La distribution que j'utilise ici a un biais d'environ 1355.

Ce code donne le taux de rejet empirique au niveau nominal de 0,05 pour différentes tailles d'échantillon. Pour un échantillon de taille 50, le taux empirique est de 0,40 (!) pour la taille d'échantillon 250, 0,29 pour la taille d'échantillon 1000, 0,21 pour la taille d'échantillon 2000, 0,18. Il est clair que le test t à un échantillon souffre d'un biais.

Le théorème central limite établit (sous les conditions requises) que le numérateur de la statistique t est asymptotiquement normal. La statistique t a également un dénominateur. Pour avoir une distribution t, vous auriez besoin que le dénominateur soit indépendant et qu'il soit la racine carrée d'un chi carré sur son df.

Et nous savoir il ne sera pas indépendant (cela caractérise la normale !)

Le théorème de Slutsky combiné avec le CLT vous donnerait que la statistique t est asymptotiquement normale (mais pas nécessairement à un taux très utile).

Quel théorème établirait que la statistique t est approximativement distribuée en t lorsqu'il y a non-normalité, et à quelle vitesse elle arrive ? (Bien sûr, le t- finira par se rapprocher également de la normale, mais nous supposons que l'approximation d'une autre approximation sera meilleure que d'utiliser simplement l'approximation normale.)

Cependant, plus important que la prétendue robustesse au niveau du $t$ (à des tailles d'échantillon plus grandes) Puissance. Notez que l'efficacité relative asymptotique du test t par rapport au Wilcoxon-Mann-Whitney (par exemple) peut être de 0 (c. le t d'avoir la même puissance qu'une alternative évidente).

Ainsi, bien que le test t puisse finir par avoir une belle distribution nulle d'apparence normale dans de nombreux cas si $n$ est assez grand, ses performances sous le nul ne sont pas vraiment ce qui compte le plus pour les gens - c'est la performance sous l'alternative - - et là ce n'est peut-être pas si grand, si vous vous souciez de rejeter le nul dans les cas où l'effet n'est pas si facile à capter.

Oui, le théorème central limite nous dit que c'est vrai. Tant que vous évitez les caractères à queue extrêmement lourde, la non-normalité ne présente aucun problème dans les échantillons de taille moyenne à grande.

Voici un document de révision utile

Le test de Wilcoxon (mentionné par d'autres) peut avoir un pouvoir terrible lorsque l'alternative n'est pas un déplacement de la distribution d'origine. De plus, la façon dont il mesure les différences entre les distributions n'est pas transitive.

À propos de l'utilisation du test de Wilcoxon-Mann-Whitney comme alternative, je recommande l'article Le test de Wilcoxon-Man-Whitney sous examen

En tant que test des moyennes ou des médianes, le test de Wilcoxon-Mann-Whitney (WMW) peut être très peu robuste pour les écarts par rapport au modèle de changement pur.

Voici les recommandations des auteurs de l'article :

La transformation de rang peut modifier les moyennes, les écarts types et les asymétries des deux échantillons différemment. La seule situation dans laquelle la transformation de rang est garantie pour obtenir un effet bénéfique est lorsque les distributions sont identiques et les tailles d'échantillon sont égales. Pour les écarts par rapport à ces hypothèses plutôt strictes, les effets de la transformation de rang sur les moments de l'échantillon sont imprévisibles. Dans l'étude de simulation de l'article, le test WMW a été comparé au test de Fligner-Policello (FP), au test de Brunner-Munzel (BM), au test T à deux échantillons (T), au test Welch U (U), et le test Welch U sur les rangs (RU). Les quatre tests basés sur le classement (WMW, FP, BM et RU) ont donné des résultats similaires, bien que le test BM soit souvent un peu meilleur que les autres. Lorsque les tailles d'échantillon étaient égales, les tests paramétriques (T et U) étaient supérieurs aux tests basés sur le rang sous l'hypothèse nulle de moyennes égales, mais pas sous l'hypothèse nulle de médianes égales. Lorsque les tailles d'échantillon étaient inégales, les tests BM, RU et U ont donné les meilleurs résultats. Pour plusieurs contextes, de petits changements dans les propriétés de la population ont conduit à de grandes altérations dans la performance des tests. En résumé, le test WMW approximatif sur grand échantillon peut être une mauvaise méthode pour comparer les moyennes ou les médianes de deux populations, à moins que les deux distributions aient des formes et des échelles égales. Ce problème semble également s'appliquer à divers degrés au test WMW exact, au test FP, au test BM et au test Welch U sur les rangs. Lors de l'utilisation du test WMW, les auteurs recommandent que les propriétés des échantillons classés soient soigneusement étudiées pour détecter les signes d'asymétrie et d'hétérogénéité de la variance. Si de tels effets sont présents, le test de Welch U est préférable dans de nombreuses situations.


Conférence 6 : Assemblage du génome

Téléchargez la vidéo depuis iTunes U ou Internet Archive.

La description: Le professeur Gifford parle de deux manières différentes d'assembler un génome de novo. La première approche est celle des assembleurs de consensus de mise en page par chevauchement, comme illustré par les assembleurs de graphes de chaînes. La deuxième approche est celle des assembleurs basés sur des graphes de Bruijn.

Instructeur: Pr David Gifford

Cours 1 : Introduction à .

Cours 2 : Alignement local .

Conférence 3: Alignement Global.

Conférence 4 : Géno comparé.

Conférence 5 : Library Complexi.

Conférence 6 : Assemblage du génome

Cours 7 : Analyse ChIP-seq.

Conférence 8 : séquence d'ARN Ana.

Conférence 9 : Modélisation et Dis.

Conférence 10 : Markov et Hidd.

Conférence 11 : RNA Secondaire S.

Leçon 12 : Introduction à .

Conférence 13 : Prédire Prot.

Conférence 14 : Prédire Prot.

Conférence 15 : Régulation des gènes.

Conférence 16 : Protéine Interac.

Cours 17 : Modélisation Logique .

Conférence 18 : Analyse de Chr.

Conférence 19 : À la découverte de Qua.

Conférence 20 : Génétique humaine.

Conférence 21 : Biolo synthétique.

Conférence 22 : Causalité, Natu.

Le contenu suivant est fourni sous une licence Creative Commons. Votre soutien aidera le MIT OpenCourseWare à continuer d'offrir gratuitement des ressources éducatives de haute qualité. Pour faire un don ou consulter du matériel supplémentaire provenant de centaines de cours du MIT, visitez MIT OpenCourseWare sur ocw.mit.edu.

PROFESSEUR : Eh bien, bon retour dans la biologie des systèmes informatiques. Nous sommes de retour ici aujourd'hui pour parler de l'assemblage du génome. Combien de personnes ont déjà assemblé un génome auparavant ? Durant ton temps libre? Quelqu'un a fait un assemblage de génome ici ? Une personne?

Je pense que l'assemblage du génome est un sujet fascinant. Et comme vous le savez, c'est à la base de toute la biologie moderne. Nous nous appuyons sur des références génomiques pour presque tout en termes d'étude de l'évolution, de la structure des gènes, de la régulation des gènes, des différences entre les individus. C'est donc vraiment un concept très fondamental.

Et nous allons parler aujourd'hui de deux manières différentes d'assembler les génomes. Et je pense que l'un des messages à retenir de la conférence d'aujourd'hui sera que l'assemblage du génome est plus un art, dans un certain sens, qu'une science. Et il faut toujours se méfier un peu d'un assemblage de génome étant donné ce que vous êtes sur le point d'apprendre aujourd'hui.

Et, bien sûr, l'assemblage du génome devient encore plus complexe parce qu'autrefois, l'assemblage du génome humain était la grande tâche scientifique de la communauté. Mais maintenant, il y a des milliards de génomes qui attendent d'être séquencés - tous les individus du monde et d'essayer de les interpréter. Et maintenant, vous pouvez obtenir votre séquence génomique pour entre 5 000 $ et 10 000 $. Combien de personnes ici sont tentées de faire séquencer leur génome ?

OK, je vois environ cinq mains-- six mains. Super. Examinons donc la science derrière l'assemblage du génome. Le concept de base est que nous allons collecter des lectures de séquences à partir du génome. Et nous allons les assembler savoir ce qu'on appelle des contigs pour les segments contigus. Et ceux-ci représentent des portions ininterrompues du génome qui sont complètement couvertes par des lectures que nous pensons contiguës.

Ces contigs seront ensuite appariés dans des échafaudages. Et les échafaudages sont comme des contigs, sauf qu'il manque des pièces entre les contigs dans un échafaudage. Nous ne savons pas quelles sont ces pièces. Mais nous sommes capables de les coller ensemble en utilisant des paires de lecture qui nous permettent de sauter par-dessus les parties manquantes parce que nous avons lu les deux extrémités d'une molécule. Mais nous ne savons pas ce qu'il y a au milieu.

Et puis, souvent, nous avions des technologies de cartographie physique où nous pouvons réellement revenir en arrière et attribuer des échafaudages de localisation à des emplacements physiques sur les chromosomes en utilisant des séquences PCR telles que des sites d'étiquettes de séquence qui localisent physiquement une identité de séquence particulière à un emplacement physique sur un chromosome particulier. Et cela nous fournit une carte complète du génome.

Donc, aujourd'hui, nous allons parler de la façon de passer d'une séquence complète de disque dur à un ensemble d'échafaudages qui incluent des contigs assemblés. Et la façon de penser à cela encore une fois est que nous commençons avec conceptuellement une seule copie du génome. Nous amplifions cela. Et pour le séquencer sur des instruments contemporains, il faut le fragmenter.

Maintenant, pour ceux d'entre vous qui ont assisté à la récitation de vendredi dernier, vous avez entendu Heng Li parler de l'idée que les lectures de séquences s'allongent. En effet, des lectures de séquences jusqu'à 10 à 15 kilobases sont désormais possibles. Et des lectures de séquences encore plus longues que cela vont être possibles, ce qui simplifiera grandement le processus d'assemblage. Mais pour l'instant, nous parlons du défi d'assembler des lectures courtes - disons des lectures de 100 paires de bases à partir d'instruments de séquençage contemporains.

Nous prenons donc les lectures fragmentées et l'idée est que nous savons qu'elles vont s'aligner comme un puzzle. Et tout ce que nous avons à faire est d'aligner les lectures pour récupérer la séquence de lecture en bas - la séquence du génome d'origine. Et je dois ajouter que la plupart des illustrations de la conférence d'aujourd'hui sont de Ben Lagmi. Il a eu la gentillesse de me permettre de les utiliser pour la conférence d'aujourd'hui.

Le but est donc de trouver cette séquence rouge en bas de l'ensemble de lectures d'origine mais, bien sûr, l'ensemble de lectures dont nous parlons est peut-être 200 millions de lectures ou même un milliard de lectures comme nous le verrons. Et c'est donc une tâche assez difficile à assembler étant donné que nous ne savons vraiment pas d'où ils viennent. Et nous ne savons pas où ils s'alignent car nous n'avons pas la partie rouge pour nous guider.

Aujourd'hui, nous allons parler de ce qu'on appelle de novo Assemblée. Cela signifie repartir de zéro. Vous me donnez votre lot de lectures pour votre organisme préféré. Et nous allons l'assembler aujourd'hui. C'est différent de ce qu'on appelle l'assemblage guidé par référence parce que, par exemple, si vous allez re-séquencer moi ou vous, il y a un génome humain de référence. Et ce serait une simple question de prendre les lectures de vous ou de moi et de les mapper sur le génome de référence comme guide pour essayer de réassembler nos génomes.

Cependant, comme vous pouvez le constater, s'il existe une grande variation structurelle entre le génome de référence et nos génomes, ce processus peut échouer. Nous allons donc parler aujourd'hui de de novo Assemblée. Et dans le processus de de novo assemblage, on parle souvent de couverture, qui correspond en moyenne au nombre de bases de séquençage dont nous disposons pour chaque base du génome. Nous avons ici pour ce petit exemple illustratif une couverture d'environ 7x.

Maintenant, à l'origine du projet du génome humain, certains calculs ont été effectués sur la couverture nécessaire pour couvrir le génome humain. Et nous avons parlé la dernière fois de la complexité des bibliothèques. C'est une idée légèrement différente, c'est-à-dire que nous voulons estimer la probabilité que la base soit découverte. Donc, si nous avons la taille du génome comme G et le nombre de lectures comme N et L est la longueur d'une lecture, alors N fois L est le nombre total de bases que nous avons. Et celle divisée par le génome est la couverture moyenne d'une base.

Et probablement la probabilité qu'une base ne soit pas couverte est la probabilité que nous observions des lectures nulles sur cette base, qui est e au moins lambda, grosso modo, si nous utilisons une approximation de Poisson. Et par conséquent, le nombre de bases découvertes qu'il aura sera d'environ G fois e au moins lambda.

Les prochains calculs peuvent être pensés intuitivement de la manière suivante, c'est-à-dire que si nous avons N lectures, s'il doit y avoir un écart après une lecture, il doit y avoir une base découverte après celle-ci. Et donc le nombre d'écarts que nous allons avoir dans notre assemblage est d'environ N fois e au moins lambda.

Il s'agit donc d'un retour du calcul de l'enveloppe. Et maintenant, si nous prenons certaines de nos données de 1 000 génomes, que nous avons utilisées précédemment et que nous nous demandons si cette approximation fonctionne bien, nous voyons quelque chose comme ça où l'axe des x est le nombre total de lectures et la couverture du génome en bases est indiquée sur le axe des y. Et ce sont toutes des expériences de séquençage différentes.

Vous pouvez donc y voir le contour à peu près vert, qui suit approximativement ce que nous avons vu auparavant dans cette règle Lander-Waterman. Quelqu'un pourrait-il me dire ce qu'il pense des lignes rouges qui ne correspondent pas à la ligne verte ? Quelqu'un a-t-il une idée des raisons pour lesquelles nous avons besoin de plus de lectures de ces bibliothèques pour obtenir une meilleure couverture ? Oui?

PUBLIC : Il y a probablement un certain biais lorsque vous les amplifiez ?

PROFESSEUR : Ouais, il y a probablement un décalage dans les bibliothèques originales dont nous avons parlé la dernière fois. En fait, nous avons expliqué la dernière fois pourquoi le Poisson n'était pas une bonne approximation pour regarder les bibliothèques. Et en fait, nous pourrions vouloir adapter quelque chose comme un binôme négatif dans ce cas particulier.

Nous avons donc notre set de lecture. Et nous pouvons également parler de couverture à une base particulière, qui est différente de la couverture moyenne juste pour être clair qu'il existe deux types de couverture différents auxquels on peut penser. Ici, nous voyons la couverture à T du niveau six. Et l'autre chose dont nous devons être conscients est qu'il y a deux raisons pour lesquelles nous pourrions - deux raisons courantes pour lesquelles nous pourrions réellement voir des lectures qui se chevauchent mais ne sont pas d'accord sur toutes les positions.

La raison évidente est qu'il y a une erreur dans l'une des lectures. Nous obtenons des notes de qualité et ainsi de suite. Et cela peut nous aider à décider quelle est la vérité. Mais l'autre possibilité est que comme vous le savez, vous avez un de chacun de vos chromosomes de maman et un de votre papa. Et il pourrait y avoir des différences alléliques entre ces chromosomes.

Ainsi, lorsque nous procédons à l'assemblage, nous constatons souvent que ces différences alléliques vont apparaître en termes de non-concordance de nos lectures. Et nous devrons finalement décider si nous voulons faire une seule approximation diploïde d'un génome humain ou si nous voulons essayer d'assembler un génome diploïde. Et si nous allons faire un génome diploïde, alors nous devons être assez prudents et utiliser des techniques d'assemblage quelque peu différentes.

Mais le génome de référence commun est haploïde. Il ne considère qu'une seule séquence chromosomique. Est-ce clair pour tout le monde ? D'accord, super. Nous allons donc parler de deux approches générales de l'assemblage aujourd'hui. Nous allons parler des assembleurs de consensus de mise en page par chevauchement, illustrés par un assembleur de graphe de chaînes. Et nous allons aussi parler des assembleurs de graphes De Bruijn aujourd'hui.

Maintenant, les assembleurs de consensus de chevauchement ont été les premiers à être utilisés dans le projet du génome humain parce que les lectures étaient plus longues à l'époque. Cependant, comme le nombre de lectures a augmenté, ces assembleurs sont plus difficiles à utiliser en partie à cause de la nécessité de trouver des chevauchements entre les lectures, comme nous le verrons dans un instant.

Alors que pour De Bruijn, les assembleurs de graphes sont un peu plus efficaces. Mais ils perdent certains types d'informations. Commençons donc par ces assembleurs de consensus de mise en page superposée.Et nous allons parler de trois étapes pour construire des contigs et l'étape d'échafaudage peut être considérée comme similaire entre les assembleurs de consensus de disposition de chevauchement ou les assembleurs basés sur des graphes De Bruijn.

Nous allons donc d'abord construire un graphique de chevauchement. Qu'est-ce qu'un graphique de chevauchement ? L'idée essentielle est que lorsque nous prenons notre collection de lectures, nous recherchons des chevauchements entre le suffixe d'une lecture et le préfixe d'une autre lecture. Et si nous pensons à toutes nos lectures, nous voulons construire un graphique qui décrit tous ces chevauchements.

Et juste pour être clair, je ne vais pas parler aujourd'hui du complément inversé de ces lectures. Les assembleurs réels doivent représenter cela. Mais il ne fait que dupliquer tous les nœuds sur les bords. Donc nous allons essayer de garder les choses claires par-- c'est OK. Merci. Nous allons essayer de garder les choses claires en ne les considérant pas aujourd'hui.

Maintenant, l'un des défis est de savoir comment construire ces chevauchements. Et nous allons beaucoup parler de graphiques. J'ai donc pensé qu'il valait la peine de revoir la terminologie. Nous allons représenter les graphes superposés comme des graphes orientés, qui consistent en un ensemble de sommets, qui sont les objets représentés par les cercles dans les arêtes, qui sont les lignes et une arête dirigée va d'un sommet à un autre.

Et il y a aussi une représentation équivalente sous forme de notation sur la partie inférieure droite de la diapositive ainsi qu'une représentation graphique. Nous allons utiliser les représentations graphiques de ces graphes orientés aujourd'hui. Ainsi, le graphique de chevauchement est simplement une représentation du chevauchement entre les lectures.

Et nous choisissons parfois une longueur minimale de chevauchement. Mais pour les prochaines diapositives, je vais simplement représenter chaque nœud comme une lecture individuelle. Et les bords seront annotés avec la quantité de chevauchement entre les lectures. Donc, si je vous remets un ensemble de lectures, tout ce que nous avons à faire est de calculer ce graphique de chevauchement. Nous parlerons de la façon de le faire dans un instant.

Et vous verrez alors graphiquement ce qui ressort du processus de calcul du graphique de chevauchement. Maintenant, il est possible que les graphiques de chevauchement soient cycliques car il y a des chromosomes circulaires. Et comme nous le verrons, il est également possible d'obtenir un graphique cyclique à partir d'un chromosome linéaire s'il existe en fait des structures répétitives dans le chromosome qui provoquent le retour d'un graphique sur lui-même.

Alors, comment trouver des chevauchements dans un temps efficace est un problème clé. Et c'est l'une des raisons pour lesquelles les gens ont hésité à utiliser ces types d'assembleurs parce que le coût du calcul des chevauchements a été considéré comme N-carré où N est le nombre de lectures car vous devez comparer toutes les lectures les unes aux autres.

Cependant, un algorithme vraiment intelligent a été conçu qui a utilisé la technologie dont nous avons parlé la dernière fois. Vous vous souvenez de l'idée de l'index FM et des transformations de Burroughs-Wheeler nous permettaient d'indexer un génome puis de rechercher des reads dans un temps proportionnel à la longueur du read.

Voici donc l'idée essentielle. Ce que nous allons faire, c'est prendre toutes les lectures que nous collectons. Et nous allons les indexer. Et nous pouvons le faire à peu près à N log N temps. Et après avoir indexé toutes les lectures, nous pouvons utiliser ce même index pour trouver les chevauchements très, très efficacement.

Et vous pouvez conceptualiser cela comme simplement en regardant une lecture que vous avez dans votre main et en la recherchant dans l'index. Et vous trouverez tous les endroits où le suffixe ou le préfixe de celui-ci lit les lots. Et vous pouvez remonter jusqu'à ce que vous trouviez tous les endroits qui correspondent à la fin d'une lecture. Et ceux-ci correspondent tous aux arêtes du graphique.

Et il s'avère que c'est si intelligent qu'il élimine les bords redondants. Ainsi, par exemple, si j'ai des lectures qui ressemblent à ceci où j'ai lu un chevauche avec lire deux qui chevauche avec lire trois. Et lire un et lire trois se chevauchent également. Un graphique non réduit aurait une représentation comme celle-ci.

Mais il s'avère que nous n'avons pas à faire cela parce que nous pouvons simplement réduire notre graphique à ceci parce que nous savons que lire un et lire trois. En fait, c'est le graphique que nous aurions qui ne serait pas réduit. Nous pouvons réduire le graphe pour éliminer ce bord transitif et le représenter simplement de cette manière. Ainsi, lorsque nous utilisons ces indices, nous éliminons ces arêtes transitives comme nous le verrons dans un instant.

Voici donc un exemple de graphique. La séquence est indiquée en bas. Les longueurs de lecture sont de longueur sept bases. Et nous allons considérer tous les chevauchements comme une taille minimale de trois. Et l'étiquette de bord est la longueur réelle du chevauchement entre les lectures. Et vous voyez d'emblée que ces graphes de chevauchement ne sont pas forcément simples. Ce traçage d'un chemin du graphe qui représente la chaîne d'origine n'est pas complètement et totalement simple.

Nous devons donc trouver un moyen d'articuler nos métriques pour tracer un chemin vers le graphique pour reconstruire un génome. Et cela vient à la question de la disposition, comment formuler le problème de tracer un chemin à travers un graphe de chevauchement ?

Nous allons donc commencer par l'idée de la supercorde commune la plus courte. La superchaîne commune la plus courte d'une chaîne S est la chaîne la plus courte qui contient toutes les chaînes de S en tant que sous-chaînes pour une longueur particulière de sous-chaîne. Ainsi, par exemple, si nous n'avions pas la contrainte du plus court, alors il est facile de trouver une chaîne contenant toutes les sous-chaînes. Vous venez de les mettre tous ensemble. Mais si nous voulons la plus courte, alors nous devons être plus réfléchis quant à la façon dont nous calculons cette sous-chaîne commune la plus courte. Et voici un exemple de la sous-chaîne commune la plus courte pour les sous-chaînes que je vous ai montrées là-haut.

Donc, une façon de penser au problème d'assemblage est que nous essayons de calculer la sous-chaîne commune la plus courte de toutes les lectures que nous avons. Et ce sera la représentation la plus efficace de ces lectures dans une séquence linéaire. Maintenant, nous pouvons décrire ce problème en termes de graphe de chevauchement.

Et si vous pensez à la façon dont nous résoudrons ce problème dans le graphique de chevauchement, dans les chaînes les plus courtes, nous voulons le maximum de chevauchement. Nous voulons donc tracer un chemin à travers le graphique de chevauchement qui nous donne la plus grande quantité de chevauchement, ce qui nous donne la chaîne la plus courte. Droit? Donc, si nous nions simplement les chevauchements, nous voulons minimiser le coût total du graphique.

Maintenant, il s'avère que ce problème est connu pour être un problème de calcul très difficile. C'est dans la classe de ce qu'on appelle NP-difficile parce qu'il est connu comme le problème du voyageur de commerce. Et quand vous pensez au fait que nous allons avoir des centaines de millions de lectures, cela ne va pas vraiment être traitable. Si nous nous débarrassons des poids et que nous voulions simplement trouver un chemin à travers le graphique, cela s'appelle le problème du chemin hamiltonien. C'est aussi NP-complet.

Ainsi, la sous-chaîne commune la plus courte est une façon de penser à l'assemblage. Mais nous ne pouvons pas vraiment optimiser les métriques car cela va être insoluble. Réfléchissez donc à des façons de faire plus gourmandes. Voici donc un exemple de la façon dont nous calculerions la sous-chaîne commune la plus courte en commençant par la première chaîne. Et chaque étape en cours de route est une concaténation de chaînes ou un effondrement de chaînes qui travaille à la construction de la sous-chaîne commune la plus courte.

Et nous obtenons la chaîne d'entrée et la chaîne de sortie. Nous pourrions donc articuler notre problème d'assemblage sous la forme d'un algorithme SCS gourmand pour essayer de rassembler toutes les lectures pour créer une superchaîne. Et laissez-moi vous décrire cela nous donnera une intuition de ce qui ne va pas avec l'assemblage dans un instant.

Mais nous savons qu'il y a des limites à cela - que si nous appliquions réellement l'algorithme glouton, l'assemblage que nous obtiendrions ne serait que deux fois et demie plus long que la vraie sous-chaîne commune la plus courte. Ce n'est pas vraiment très réconfortant pour nous. Nous allons donc devoir trouver des manières différentes, plus heuristiques, d'aborder le problème de l'assemblage.

Voici un autre exemple. Maintenant, c'est celui que je veux vous montrer où nous commençons avec une chaîne en haut où nous allons rechercher des chevauchements minimum de trois et ce sont des lectures de six longues. Et lorsque nous faisons cet algorithme glouton, nous arrivons à une chaîne, qui est plus courte que la chaîne de début d'origine avec laquelle nous avons commencé.

Quelqu'un peut-il voir ce qui s'est passé ici ? Pourquoi manque-t-il une partie de la chaîne d'origine ? Oui?

PUBLIC : Les lectures étaient assez courtes. Et ils ont suffisamment répété que nous n'avons jamais découvert qu'il était de la longueur qu'il était en réalité. Et donc nous l'avons fait en quelque sorte [INAUDIBLE] [INAUDIBLE].

PROFESSEUR : Donc le fait était que les lectures étaient trop courtes pour pouvoir identifier sans ambiguïté le nombre de répétitions de longues que nous avions dans la séquence originale. C'est tout à fait exact. Nous ne sommes donc pas en mesure de lever l'ambiguïté sur ce qui se passait. Et peut-être que si nous revenions à notre formalisme de graphe, nous pourrions résoudre ce problème, n'est-ce pas ? Parce qu'ici nous avons notre graphique et les chevauchements sont écrits sur les bords des bases de nombres que chacune de ces lectures chevauche. Et tout ce que nous avons à faire est de parcourir ce graphique pour trouver la chaîne d'origine.

Voici donc un tracé, qui donne un chevauchement total de 39, qui reproduit en fait fidèlement la chaîne d'origine, n'est-ce pas ? Cependant, ce n'est pas le meilleur traçage. Un meilleur traçage à travers ce graphique ou chemin à travers le graphique serait celui-ci, ce qui nous donne plus de chevauchement et nous donne une chaîne plus courte. Mais comme nous le savons, même si c'est mieux selon cette métrique, ce n'est pas vraiment optimal car cela nous donne une mauvaise réponse. C'est mieux mais faux.

Il va donc falloir tenir compte d'autres choses lors de notre assemblage et de notre traçage de ce graphe pour pouvoir arriver au meilleur assemblage possible. Donc, si nous augmentons la longueur de lecture comme indiqué pour s'étendre de manière appropriée, nous serons en mesure de reconstruire la séquence d'origine. Et le point de cet exemple est que nous devons considérer cela lorsque nous pensons à récupérer des structures répétées dans les génomes.

Donc, si nous n'avons pas de lectures assez longues, dans ce cas des lectures de longueur 8, nous n'allons pas récupérer la structure de répétition d'origine. Et si nous regardons cela, les répétitions sont vraiment le fléau des assembleurs dans un certain sens. Et comme vous le savez, environ 50% du génome humain est un contenu répétitif. Nous devons donc être très, très prudents quant à la manière dont nous utilisons les lectures pour pouvoir récupérer la meilleure approximation de notre séquence génomique.

Voici donc un autre exemple où l est le minimum sur la longueur et k est la longueur des lectures. Et vous pouvez voir la séquence que nous essayons de récupérer -- It_was_the_best_of_times_it_was_the_worst_of_times -- et la sortie de notre avide assembleur SCS. Et comme vous pouvez le voir, nous devons atteindre une longueur de lecture de 13 caractères pour que nous puissions assembler correctement cette phrase originale.

Donc, le message essentiel ici est qu'à moins que vous n'ayez des lectures suffisamment longues pour couvrir les répétitions, vous n'allez pas récupérer exactement la séquence d'origine. Et cela peut également être pensé dans l'exemple suivant. Imaginez que vous avez des répétitions qui sont des répétitions en tandem à la fin d'une séquence. Et nous utilisons la langue anglaise ici parce que c'est plus facile à voir que si je mettais un tas de séquences génomiques. Mais, bien sûr, les principes sont les mêmes.

Vous pouvez voir qu'à moins que nous ayons des lectures qui sont en fait une séquence ancrée et unique et s'étendent vers une séquence répétitive, nous ne pouvons pas vraiment dire combien de fois le mot cloches est répété. Une autre possibilité est que nous puissions en fait venir des deux côtés. Et si nous pouvons ancrer nos lectures et notre séquence unique à la fois à gauche et à droite d'un élément répétitif, alors nous pouvons déterminer combien de copies de quelque chose comme des cloches sont présentes.

Mais en l'absence de cela, nous ne pouvons vraiment pas le faire. En fait, nous nous retrouvons avec une structure qui ressemble à ceci. Nous nous retrouvons avec -- voilà -- une structure où nous avons -- disons simplement qu'il y a quatre tronçons différents de génome dans des parties disparates de chromosomes et nous répétons la séquence au milieu. Les parties bleues des chromosomes sont une séquence unique. Et les parties rouges sont des séquences répétitives.

Ce qui se passera, c'est que si les lectures ne sont pas assez longues, nous pourrons découvrir dans chacun des quatre emplacements que nous sommes passés d'une séquence unique à une séquence répétée. Et puis on va se perdre au milieu de cette séquence répétée à l'identique. Et puis sur le côté droit, nous reviendrons à nouveau d'une séquence répétée à une séquence unique. Mais nous ne saurons pas comment mettre les choses ensemble au milieu. Droit? Nous ne pourrons pas comprendre quel est le chemin à travers ces éléments répétitifs.

C'est donc le point essentiel que je voudrais faire au sujet des répétitions. Et nous pouvons maintenant nous tourner vers la question de la disposition et de la façon de traiter un graphe de chevauchement pour créer des contigs. C'est le graphique de mise en page réel. Quand on pense à cette phrase là-haut. Et nous disons que le minimum sur cette longueur est de quatre caractères. Et nous avons des lectures à sept caractères de la séquence. Vous pouvez voir que c'est un graphique assez désordonné.

Si nous nettoyons le graphique en supprimant les arêtes redondantes, les arêtes comme celle-ci qui s'étendent sur les lectures et sont impliquées par d'autres lectures, nous pouvons supprimer les arêtes qui sont transitives sur une lecture ou deux lectures. Maintenant, ma présentation va parler de la façon de supprimer ces bords. Cependant, comme je l'ai dit au début, si vous utilisez l'algorithme de Simpson et Al., en fait, vous ne générez pas ces arêtes transitives en premier lieu.

Mais en supposant que vous n'ayez pas utilisé d'algorithme et que vous les ayez générés, vous voulez vous débarrasser de ces bords transitifs comme ça. Et cela commence à devenir un peu plus simple lorsque vous commencez à simplifier le graphique, en supprimant ces arêtes transitives. Et puis nous pouvons supprimer les arêtes qui sautent deux nœuds. Voici donc ce qui se passe une fois que vous avez supprimé les arêtes transitives uniques de ce graphique. Oui?

PUBLIC : Il semble donc que les contours transitifs et verbaux nous ont donné un peu plus d'informations sur le génome. Est-ce que nous perdons certains principes de commande utiles par--

PROFESSEUR : Ils fournissent des informations redondantes. Ils ne fournissent pas vraiment d'informations supplémentaires. C'est la même séquence linéaire qui est impliquée par ces bords. D'autres questions?

Nous pouvons donc supprimer les arêtes qui s'étendent sur deux nœuds. Et nous obtenons un graphique encore plus simple comme celui-ci. Maintenant, cela commence à sembler plus traitable car nous pouvons regarder cela et nous pouvons générer des contigs qui correspondent aux parties linéaires du graphique, qui devraient être une séquence linéaire. Et quand nous faisons cela, nous nous retrouvons avec deux contigs. Et il y a juste un petit problème au milieu, c'est que nous sommes incapables de résoudre le peu au milieu et par conséquent, nous savons que c'est le nombre de termes qui sont dans cette phrase originale parce que nous n'avons pas avoir une lecture assez longue pour pouvoir résoudre cela.

L'autre problème que nous pouvons avoir en faisant ce type de mise en page est que lorsqu'il y a des portions du génome qui se produisent ou des séquences dans le génome qui se produisent plusieurs fois, lorsque nous faisons réellement cette mise en page, nous pouvons constater que les portions du génome qui se produisent dans deux endroits disparates s'alignent les uns avec les autres. Et il se peut que lorsque vous quittez la partie partagée, vous obtenez une base incompatible.

Ce décalage pourrait donc être dû au fait que vous avez des parties disparates du génome qui ont en fait une séquence très similaire. Ou il se peut que vous ayez eu une erreur de lecture à la fin de votre lecture. Et il est difficile de distinguer les deux, sauf par le montant de la couverture dont vous disposez. Nous parlerons de la façon d'élaguer des graphiques comme celui-ci dans quelques instants.

Mais dans tous les cas, en supposant que nous ayons élagué le graphique, nous avons fait notre chevauchement. Nous avons fait notre mise en page. Nous avons trouvé nos chemins vers le graphique pour nos contigs. Et puis ce qu'on trouve c'est que pour chaque contig, on a beaucoup de reads. Et nous allons prendre ces lectures. Et nous allons les regarder. Et comme vous vous en souvenez, nous pouvions soit avoir des erreurs provoquant des désaccords entre les lectures.

Nous pourrions avoir des différences alléliques entre maman et papa causant ces erreurs, enfin, pas vraiment des erreurs - des différences. Et puis nous pouvons prendre un consensus pour arriver à ce qu'est le génome haploïde. C'est donc l'idée essentielle d'un assembleur de consensus de mise en page par chevauchement. Nous calculons le graphe de chevauchement. Pendant la phase de mise en page, nous simplifions en fait le graphique. Et nous trouvons passer à travers elle. Et pendant la phase de consensus, nous prenons nos lectures, et nous construisons une séquence consensus du génome.

Et comme je l'ai dit, la construction de ce graphique peut être lente. Cependant, nous parlerons de la lenteur ici dans un instant. Et le défi est que les ensembles de données de séquençage modernes représentent des centaines de millions de lectures. Parlons donc d'un assembleur contemporain basé sur le chevauchement - quelque chose appelé l'assembleur de graphes de flux, qui est fait au Sanger au Royaume-Uni. Et il y a trois étapes distinctes par lesquelles il passe.

La première étape consiste à essayer de corriger les lectures. Et la façon dont il le fait est qu'il regarde en fait tous les k-mers qui se produisent dans les lectures - il essaie de trouver des séquences qui sont très, très rares et de trouver des séquences proches dans la base de séquence qui ne sont pas aussi rares. Et il peut corriger les bases qu'il considère comme des erreurs de séquençage.

L'étape suivante est l'assemblage une fois qu'il a pris toutes ces lectures et les a corrigées. Il indexe toutes les lectures comme je l'ai suggéré plus tôt en utilisant un index FM. Et puis il peut trouver le chevauchement à partir de cet index FM directement. Et une partie du processus d'assemblage consiste à éliminer les lectures en double et à éliminer les lectures dont les scores de qualité sont faibles.

C'est donc l'étape de filtrage. Il dispose alors de l'ensemble des contigs qu'il a générés. Et cela fait quelque chose d'assez intéressant de trouver les échafaudages, c'est qu'il prend les contigs qu'il est assemblé en termes de séquence linéaire. Et il les réindexe complètement à nouveau en utilisant un index FM.

Et puis cela prend toutes les lectures avec lesquelles vous avez commencé. Et il les mappe à nouveau sur les contigs. Et en mappant les lectures appariées sur les contigs, il peut en fait déterminer quels contigs devraient être formés en échafaudages où il y a des trous qui sont percés par ces lectures plus longues. Il utilise donc le FM indexé à la fois pour la correction afin de trouver les k-mers à proximité pour l'assemblage pour trouver les chevauchements et pour l'échafaudage pour assembler les choses. Et il fait son indexation trois fois différentes.

Et juste pour vous donner une idée du temps qu'il faut pour un génome à taille humaine, c'est en fait assez cher en termes de temps CPU. Il faut plusieurs jours pour assembler un génome humain entier en ce moment. Et c'est des milliers d'heures de processeur pour assembler un génome en partant de zéro. OK, c'est donc l'idée essentielle d'un assembleur basé sur le chevauchement. Y a-t-il des questions sur les assembleurs basés sur le chevauchement ? Oui?

PUBLIC : Donc, dans le cas d'une erreur, il est évident comment vous appelleriez cela. Mais dans une différence allélique, hypothétiquement, il y aurait 50% des lectures en auraient un et 50% des lectures en auraient un autre.

PUBLIC : Alors, dans ce cas, cela s'assemble-t-il ? Ou assemblez-vous deux séquences ?

PROFESSEUR : La plupart des assembleurs produisent une seule séquence. Et je ne sais pas comment SGA décide entre les différents allèles parce que je ne me souviens pas de ce que le journal a dit qu'ils ont fait.Mais ils doivent essentiellement lancer une pièce pour créer une séquence haploïde. Oui?

PUBLIC : Vous avez dit qu'il y a eu trois moments différents que vous avez indexés. Quels sont les trois ?

PROFESSEUR : Oui, la question était que j'ai dit qu'il y en a trois différents qu'ils ont indexés. Ils ont indexé au départ pour trouver des erreurs. Ils ont indexé une deuxième fois pour faire le calcul de chevauchement. Et ils ont indexé la troisième fois pour réaligner toutes les lectures d'origine sur les contigs qu'ils ont pour déterminer quels contigs à assembler dans des échafaudages. Droit?

Mais ils ont cette plate-forme fondamentale essentielle, qui est l'indice FM. Et donc ils l'utilisent encore et encore pour pouvoir faire l'assemblage. Ce sont toutes d'excellentes questions. D'accord, d'autres questions sur les assembleurs basés sur le chevauchement. Et vous pouvez voir que si vous pensez à la couverture qu'ils obtiennent d'un assembleur comme celui-ci, c'est en fait que nous comparerons tous les assembleurs à la toute fin.

Mais si vous regardez le nombre de bases d'autosomes et le chromosome X couverts par un assemblage, vous pouvez considérer cela en fonction de la longueur minimale d'alignement sur un génome référencé. Et à mesure que la longueur d'alignement minimale augmente, cela signifie que vous devez faire correspondre des portions de plus en plus longues du génome de référence pour que votre assemblage contig compte. Vous pouvez voir que le nombre de bases a quelque peu baissé. Ici, ils montrent qu'ils font mieux qu'un autre assembleur appelé SOAPdenovo.

Mais ils obtiennent une assez bonne couverture. D'un autre côté, ils n'obtiennent pas une couverture aussi bonne que Lander-Waterman pourrait le suggérer, car la couverture devrait suggérer que la probabilité d'une base découverte utilisant Lander-Waterman serait d'environ e au moins 40e - quelque chose comme ça. Et e au moins 40 est comme 4 fois 10 au moins 18. Donc, ils ne sont pas du tout près de ce que l'on pourrait penser que la limite Lander-Waterman serait pour l'assemblage.

Nous avons donc parlé de ces assembleurs basés sur le chevauchement. Je vais maintenant me tourner vers les assembleurs de graphes De Bruijn. Combien de personnes ont déjà entendu parler des graphiques de De Bruijn ? N'importe qui? Une personne? Donc avant de parler des graphes de De Bruijn eux-mêmes, parlons juste de terminologie. Donc, quand j'utilise des termes, nous sommes tous sur la même page où nous parlions de k-mers où le mot mer vient du grec "partie".

Et nous parlons de 4-mères d'une séquence originale comme d'une séquence longue de quatre bases. Et nous pouvons penser à tous les 3-mères d'une séquence originale. Alors on parle beaucoup de k-mers. Et un k moins 1-mer est une sous-chaîne de longueur k moins 1 évidemment d'un k-mer. Donc, si nous pensons à la collection de lectures, voici nos séquenceurs économiques super simples produisant des lectures de seulement trois longueurs, ce qui est assez désespéré. Mais en tout cas, nous allons faire avec pour le moment.

Et nous pensons à chacune de ces lectures comme ayant un k gauche moins 1-mer et un droit k moins 1-mer. Nous les avons divisés en deux moitiés de cette façon. Et nous allons construire un graphique qui est le suivant. Nous allons prendre tous les k moins 1-mers - dans ce cas les 2-mers. Et pour chaque lecture, nous allons tracer une arête entre son 2-mère gauche et son 2-mère droit.

OK, encore une fois, pour chaque lecture, ce genre de lectures anémiques à trois paires de bases, nous allons tracer un bord entre son 2-mère gauche et son 2-mère droit. Et ils se chevauchent dans une seule base. Donc, tous les graphiques qui sont des graphiques de De Bruijn, les arêtes représentent un chevauchement d'une base. D'ACCORD? Donc, si vous regardez le graphique en bas, cela représente les chevauchements présents dans la séquence d'origine. Vous notez que nous avons AA comme l'un des 2-mers. Et sa moitié gauche et sa moitié droite se chevauchent évidemment par une base.

La lecture triple-A a AA comme lecture gauche et AA comme lecture droite - ils se chevauchent à une base. Et c'est pourquoi nous avons ce bord circulaire de A à lui-même. Et le prochain bord de AA à AB vient de la lecture suivante - la lecture AAB. Ainsi, chaque bord représente alors un chevauchement d'une base. Et par conséquent, chaque arête représente une séquence k-mer unique.

Donc, la façon de penser à ce graphique est que toutes les arêtes représentent les lectures d'origine. Et nous avons représenté les mots k moins 1 comme les nœuds. D'ACCORD? Nous pouvons donc prendre ce graphique et généraliser cette idée. Et si nous regardons comment le graphique change à mesure que nous ajoutons plus de structure, vous voyez ici que nous avons ajouté un b supplémentaire. Et nous obtenons un autre bord dans le graphique vers le même nœud.

Ainsi, lorsque nous construisons ces graphiques, si possible, nous réutilisons un nœud qui existe déjà. Maintenant, la façon de penser à revenir à la séquence d'origine est de trouver un chemin à travers ce graphique et d'émettre une séquence pendant que nous traçons le chemin. Et nous aimerions avoir un chemin qui traverse tous les nœuds.

Et nous avons donc quelques définitions ici, à savoir qu'un nœud est équilibré si son degré d'entrée est égal à son degré de sortie. Et vous pouvez voir que tous les nœuds ne sont pas équilibrés dans le graphique du coin inférieur droit. Et il est connecté si tous les composants ou nœuds peuvent être atteints. Et une marche eulérienne visite chaque arête exactement une fois, ce que nous aimerions en fait prendre un graphe de De Bruijn et émettre une séquence de génome.

Maintenant, tous les graphiques n'ont pas ces marches. Et les graphiques font notre eulérien. Et nous ne distinguerons pas différents types de ces graphiques. Et si un graphique a deux nœuds semi-équilibrés et que tous les autres nœuds sont équilibrés, il le parcourra. Donc, si nous pensons à notre graphique d'origine, il y a deux arguments pour qu'il ait une telle marche. Le premier argument est que nous montrons la marche. Et la seconde est que nous avons deux nœuds semi-équilibrés et le reste des nœuds est équilibré.

Donc, la raison pour laquelle nous nous soucions de cela est que nous voulons étudier les cas où cela ne va pas. Donc, pour construire un graphe de De Bruijn d'un génome, nous allons prendre nos lectures de séquence originales. Et nous allons prendre tous les k-mers qui se produisent dans ces lectures. Et nous allons ajouter des arêtes à un graphe de De Bruijn basé sur ces k-mers.

Donc, si nous avons une lecture comme celle-ci et que nous considérons un k-mer dans la lecture, nous allons ajouter une arête dans le graphique entre le k gauche moins 1-mer et le droit k moins 1-mer. Et nous le ferons pour chaque k-mer de la lecture. Notez maintenant que cela détruit certaines informations. Il détruit les informations sur l'ordre de certains des k-mers dans cette lecture en détruisant simplement leur contiguïté de lecture afin de faire quelques hypothèses simplificatrices pour représenter l'ordre de séquence de ces k moins 1-mers dans le graphe. Nous construisons donc le graphique de cette manière et si je devais construire le graphique comme ceci, quel est le chevauchement de séquence minimum pour que deux lectures partagent réellement un bord dans le graphique résultant ? Quelqu'un peut-il voir combien de temps la séquence doit durer dans la deuxième lecture pour qu'elle se chevauche réellement au bord de la première lecture?

Eh bien, si cette deuxième lecture a aussi un k-mer, n'est-ce pas ? Cela va produire une autre structure comme celle-ci si ces deux se chevauchent. Et donc le bord produit par cette lecture et le bord par cette lecture se chevaucheront ainsi. Et ainsi, tous les nœuds issus de cette partie de read one alimenteront ce graphe. Et puis tous les nœuds qui sortiront de ce k-mer de la lecture violette en sortiront comme ça, n'est-ce pas ?

Et donc lorsque nous traçons le graphique, l'idée est que le graphique sera connecté. Et nous pourrons nous placer entre ces lectures et reconstruire la séquence suggérée par le chevauchement. La chose, cependant, que vous devriez noter dans cette -- oui, question ?

PUBLIC : Donc, vous choisissez deux lectures de k moins 1 - sont-elles issues de lectures différentes ? Ou de la lecture blanche?

PROFESSEUR : Non, ça vient de la lecture blanche. Ce sont les 2k moins 1-mers qui sont sortis de cette lecture. Donc, ils se chevauchent en fait.

PUBLIC : Oui, mais vous parliez ensuite du fait que celui-ci était violet dans ce cas.

PROFESSEUR : D'accord, eh bien, c'est la même séquence disons. C'est la même séquence exacte ici. Donc, si c'est la même séquence exacte, elle aura le même k moins 1-mers. Et lorsque nous construisons le graphe si un nœud existe déjà, nous le réutilisons. Et donc si nous réutilisons les nœuds qui ont été créés lorsque nous avons construit les nœuds et les arêtes du graphe pour la lecture blanche, alors lorsque la lecture violette arrivera, nous allons mettre une autre arête ici entre ces deux k moins 1-mers car ils sont également contenus ici. Ce sont donc des séquences identiques à celle-ci car ces deux lectures se chevauchent. Et cette partie est la même séquence que cette partie.

PUBLIC : Oui, alors pourquoi avez-vous besoin de k moins 1-mers si vous avez chevauché k ?

PROFESSEUR : Parce que la façon dont nous trouvons ces chevauchements est à travers le graphique. Et nous n'indexons pas les choses de taille k, n'est-ce pas ? Nous indexons des choses de taille k moins 1. Dans chaque arête représente une séquence de longueur k parce que nous connaissons cette séquence et cette séquence sont chevauchées par une base.

Ainsi, lorsque nous trouvons un bord qui est le même entre le blanc et le violet, nous savons qu'ils se chevauchent de k bases. Cela a-t-il du sens pour vous ?

PROFESSEUR : Non, d'accord, alors essayons à nouveau.

PUBLIC : Vous pouvez continuer.

PROFESSEUR : Non, ça va. Commençons simplement par la lecture violette pour commencer un instant car je pense que si vous avez une question, d'autres personnes peuvent avoir une question. Nous avons donc cette séquence, qui est cette séquence ici, n'est-ce pas ? Et puis nous avons cette séquence, qui est la séquence ici. Ils se chevauchent par une base. Et donc nous avons mis un bord entre eux comme ceci dans le graphique. D'ACCORD?

PUBLIC : Ne se chevauchent-ils pas par plus d'une base ? Ils ne peuvent contenir qu'une seule base de chaque k-mer.

PROFESSEUR : Je suis désolé. C'est ce que je voulais dire. Oui. Et puis la même chose est vraie ici-bas. Et donc nous trouverons ce k moins 1-mer et ce k moins 1-mer. Et puis ils se chevauchent. Pour l'assemblage du génome, nous enregistrons les lectures du complément direct et inverse dans les nœuds jumeaux. Et nous n'allons pas les montrer car cela complique simplement nos graphiques sans vraiment ajouter de puissance illustrative.

Et nous choisissons toujours k impair afin qu'un nœud ne puisse pas être son propre complément inversé. Et voici le graphique en croissance si nous pensons que k est égal à 5. Nous avons donc des lectures de longueur cinq. Et nous ajoutons des séquences au graphique. Et vous notez que le graphique est acyclique jusqu'à ce que nous arrivions à la séquence répétée.

Et nous arrivons à la seconde longue la séquence revient autour commence une boucle sur elle-même. Et si nous considérons la dernière partie de cette construction de graphe de De Bruijn, alors nous nous retrouvons avec le graphe fini sur le côté droit. Et vous pouvez voir que la multiplicité des arêtes correspond au nombre de fois que le long est répété dans ce graphique.

Donc, encore une fois, les répétitions sont à l'origine de la structure circulaire, qui ne pourrait être résolue que si nous avions des lectures suffisamment longues, ce que nous n'avons pas dans ce cas particulier. Cependant, si nous considérons un séquençage parfait, nous avons toujours un chemin vers le graphe. Et la raison en est que la partie la plus à gauche du génome, pour ainsi dire, va être semi-équilibrée. Et la partie la plus à droite sera semi-équilibrée. Et toutes les parties intermédiaires vont être équilibrées.

Ainsi, le k moins 1-mer à l'extrême gauche est semi-équilibré et le k moins 1-mer à droite est semi-équilibré. Et tous les nœuds intermédiaires sont équilibrés. Maintenant, cela ne permet pas d'erreurs bien sûr. Et on parle de suivre cette marche eulérienne pour trouver la séquence originale. Mais la question que l'on peut se poser est de savoir si cette marche correspond toujours vraiment ou non à la séquence du génome d'origine.

Il s'avère que je peux vous montrer cet exemple, c'est-à-dire que nous avons ce graphique pour cette séquence. Et il y a deux chemins différents à travers ce graphique. Et les deux promenades différentes ont produit deux séquences différentes. Et ils dépendent de la façon dont vous commencez à marcher à partir du nœud AB.

Donc, encore une fois, nous avons vu ici que même lorsque nous avons un chemin vers le graphe, le chemin peut ne pas être unique. Il peut ne pas être en mesure de générer la séquence d'origine avec laquelle nous avons commencé. Donc, l'autre problème que nous pouvons avoir lorsque nous construisons un graphique comme celui-ci est que les écarts de couverture peuvent créer des trous dans le graphique.

Donc, si nous omettons certaines de nos lectures, nous obtiendrons un graphique divisé en deux parties. Et cela correspond à l'idée que nous allons créer deux contigs différents qui sont des séquences contiguës mais ne pourront pas remplir la partie médiane. D'ACCORD?

Ainsi, nous pouvons également avoir des différences de couverture d'un graphique lorsque nous avons des lectures supplémentaires à des emplacements particuliers du génome. Et cela fait varier les degrés sur les nœuds individuels et nous empêche de nous fier aux degrés d'entrée et de sortie comme métrique absolue pour savoir comment tracer un chemin à travers le graphique.

Et l'autre chose est que si vous avez des différences entre les chromosomes, dont nous avons parlé la dernière fois dans notre assembleur de consensus de disposition de chevauchement, cela peut également provoquer la séparation des graphiques et des sous-graphes qui correspondent à un allèle par rapport à l'autre allèle, ce qui est peut-être présent dans le graphique principal.

Très bien, il est donc vrai que ces graphiques sont attrayants pour une raison très importante, qui est là d'une efficacité extraordinaire à construire. C'est-à-dire que pour construire un graphique comme celui-ci, vous devez prendre chacun de ces k moins 1-mers et trouver le nœud, ce que vous pouvez faire en hachant puis en plaçant les arêtes dans le graphique. Et donc vous constatez que vous devez mettre une arête et deux nœuds pour chaque k-mer. Et si vous avez une carte de hachage qui a encodé ces nœuds et ces bords, c'est un travail à temps constant. Vous vous retrouvez donc avec un graphique qui coûte dans l'ordre du nombre de lectures à construire.

C'est donc un problème de construction de graphe temporel linéaire. Rappelons que notre dernière construction de chevauchement, nous pensions pouvoir descendre à N log N. Et voici un exemple de sous-ensemble d'une partie du génome du phage lambda à l'aide d'un assembleur de graphes De Bruijn. Et vous pouvez voir qu'à peu près le temps nécessaire pour assembler des parties du génome est linéaire dans la quantité de séquence génomique que vous lui donnez.

Ces assembleurs ont donc été favorisés dès le début de l'assemblage à lecture courte en partie parce qu'ils étaient si efficaces. Et généralement, dans certains des projets, vous avez une couverture très élevée. Et donc vous vous retrouvez avec des graphiques qui ont en fait un grand nombre d'arêtes entre les nœuds. Et cela peut être résumé en termes de graphique qui annote simplement les arêtes avec le nombre d'instances.

Et donc vous avez un graphique pondéré sur le côté droit, qui est plus facile dans un certain sens à tracer car nous pouvons maintenant commencer à éliminer les arêtes à faible couverture en tant qu'anomalies potentielles. Mais l'idée essentielle est de tracer ces graphes pour produire la séquence ultime du génome. Et pour ce faire, nous devrons peut-être effectuer une correction d'erreur.

Nous avons donc parlé plus tôt de l'idée que si nous avons une erreur, nous allons en fait produire une partie du graphique qui s'accroche dans l'espace. Et nous pouvons couper ces extrémités sans issue du graphique si elles ont une faible couverture, car elles correspondent vraisemblablement à des erreurs.

Si nous obtenons une erreur au milieu d'une lecture, nous pouvons nous retrouver avec une soi-disant bulle dans le graphique, qui est encore une fois une faible couverture. Et nous pouvons nous débarrasser de ces bulles de la même manière. Et il est également possible d'obtenir des bords chimériques du graphique. Et ceux-ci peuvent également être causés par des erreurs. Et nous pouvons couper ces bords.

Il existe donc différents types de corrections d'erreurs que nous pouvons effectuer dans le graphique. Ce sont tous assez heuristiques. Chaque assembleur a son propre ensemble d'heuristiques pour savoir comment traiter les anomalies du graphe et comment éliminer les arêtes du graphe pour permettre l'assemblage. Mais ceux-ci se débarrassent des bouts sans issue et des bulles éclatantes et se débarrasser des bords chimériques sont des choses importantes à considérer pour tout assembleur.

Les limites de ces graphiques sont donc l'idée que nous divisons immédiatement ces lectures en cette représentation k-mer, qui détruit l'information. Et pour surmonter cela, l'une des choses que les gens ont fait dans ces assembleurs de graphes De Bruijn est de prendre les lectures d'origine et de les mapper sur le graphe.

Ainsi, lorsque vous essayez de tracer le chemin à travers le graphique, vous prenez les lectures d'origine. Vous les enfilez dans le graphique. Et vous savez que la lecture originale représente la séquence du génome contigu. Il vous fournit donc un chemin à travers le graphique que vous savez être bon.

Les gens ont fait cela en partie parce qu'ils ne voulaient pas passer à la mise en œuvre complète du graphique de chevauchement en raison du coût. Mais je pense que ces implémentations de graphes de chevauchement sont maintenant suffisamment sophistiquées pour que je les utilise personnellement à la place d'un assembleur de graphes De Bruijn. Et donc le compromis se concentre vraiment sur la vitesse et l'espace par rapport à la précision.

Nous pouvons donc regarder quelques exemples d'assembleurs et regarder leurs performances. Mais avant que je fasse cela et que nous quittions les graphes De Bruijn, y a-t-il d'autres questions sur les assembleurs de graphes De Bruijin ?

PUBLIC : Quelle est la durée moyenne de k ?

LE PROFESSEUR : Nous allons en parler. Le k est typiquement quelque part autour de 60-- quelque chose comme ça-- Quelque part dans ce quartier. C'est en fait... ça doit être étrange, non ? Donc 61, 57... quelque chose comme ça. Bonne question. Vous avez d'autres questions sur les assembleurs de graphes De Bruijin ?

Donc, encore une fois, revenant sur notre architecture, nous avons ces lectures. Nous devons produire des contigs. Dans le cas des graphiques de chevauchement, nous allons tracer les graphiques de chevauchement. Dans le cas des graphes de De Bruijn, nous allons tracer le graphe de De Bruijn.

Pour l'échafaudage, nous pouvons utiliser les paires de lecture pour reconstituer les échafaudages. Et voici une comparaison des performances de ces différents assembleurs. Ainsi, le premier assembleur--SGA--est un assembleur de style consensus à disposition par chevauchement. Velvet/Abyss et SOAPdenovo sont tous des assembleurs basés sur des graphes De Bruijn. Ce sont donc tous des assembleurs contemporains que les gens utilisent pour assembler des génomes.

Une mesure importante pour les assembleurs est quelque chose appelé N50, qui est la taille d'un contig ou d'un échafaudage où, à cette longueur ou plus, 50% des bases sont présentes dans des échafaudages de cette longueur. Ainsi, par exemple, pour SGA, ils disent que la taille de l'échafaudage N50 est de 26,3 kilobases, ce qui signifie que dans les échafaudages d'une longueur de 26,3 kilobases ou plus, la moitié des bases de l'assemblage se trouvent.

Donc, plus le N50 est grand, plus les échafaudages qui couvrent les choses sont grands. Et vous voulez des échafaudages ou des contigs de plus en plus grands afin d'avoir moins d'espaces dans votre assemblage. Ainsi, le nombre N50 est une métrique de comparaison principale lorsque l'on pense aux assembleurs.

Ainsi, dans ce cas particulier, pour SGA, la métrique de chevauchement était que les lectures devaient se chevaucher d'au moins 75 bases ou plus. Et ce sont des lectures de 100 paires de bases. Vous pouvez voir les détails sur les données lues sur la ligne du bas là-bas. Donc, tant que les lectures se chevauchent de 75 bases, elles ont été regroupées dans le graphique.

Et les assembleurs de graphes de De Bruijn avaient chacun leur propre nombre optimal pour k. Et pour régler ces paramètres, vous exécutez l'assembleur sur une plage de k valeurs. Et vous voyez quelle valeur k a produit l'assemblage avec le N50 le plus élevé. Et vous choisissez ce k.

Quelqu'un peut-il penser à une raison pour laquelle bien que ceux-ci soient tous à peu près dans le même stade, différents assembleurs peuvent avoir des valeurs k différentes étant donné que la technologie sous-jacente est assez similaire? Des suppositions sur ce qui se passe ici?

Eh bien, nous savons que les différences entre les assembleurs sont vraiment enracinées dans la façon dont ils traitent les graphes et la façon dont ils les simplifient. Et donc, il faut imaginer que les différences se situent dans le post-traitement du graphe une fois celui-ci construit et que certains assembleurs aiment les k plus grandes. Alors que d'autres peuvent tolérer des valeurs k plus petites.

Et vous pouvez voir si l'on regarde les statistiques de fonctionnement de ceux-ci, que les performances de SGA si vous regardez les bases de référence couvertes par des contigs supérieurs à un kilobase sont à peu près comparables à tous les autres assembleurs. Mais ses performances de décalage sont bien meilleures. C'est ce que les autres assembleurs produisent-- eh bien, je le reprends à l'exception de SOAPdenovo. Mais il corrige très bien les lectures en proposant la séquence correcte.

Les dernières lignes racontent cependant l'histoire du temps d'exécution, c'est-à-dire que l'assembleur par consensus de chevauchement prend 41 heures de temps CPU pour l'assemblage du génome de C. elegans. Alors que les autres assembleurs, l'assembleur De Bruijn tournent beaucoup plus vite.

Donc la chose que je voulais souligner aujourd'hui, c'est qu'une fois que vous avez le graphique final, qu'il s'agisse d'un graphique de chevauchement ou d'un graphique de De Bruijn, qui représente des manières possibles de reconstituer le puzzle, c'est toujours un art de pouvoir pour construire un assembleur qui utilise des heuristiques appropriées pour tracer le graphe pour arriver à une séquence de génome.

Et je pense qu'une autre leçon est que les répétitions sont très problématiques. Avec des lectures courtes, nous ne pouvons vraiment pas résoudre exactement les répétitions. Par conséquent, lorsque nous pensons à n'importe quel génome de référence auquel nous avons affaire, si nous considérons la taille des lectures qui ont été utilisées pour assembler ce génome, alors nous devons être attentifs à ce que cela nous dit pour savoir si le La structure de répétition que nous observons dans le génome est vraiment une interprétation précise de ce qui se passe dans le génome lui-même.

Et enfin, je pense que nous avons parlé aujourd'hui du problème de l'assemblage de génomes à partir d'un ensemble de lectures qui représentent un individu uniforme et unique mais avec des possibilités de différences d'allèles entre maman et papa dans un organisme diploïde. Cependant, le séquençage environnemental où l'on prélève de l'eau de mer ou d'autres échantillons et séquence tous les organismes qui s'y trouvent, puis tente d'assembler ces organismes de novo admet la possibilité qu'il existe de nombreux génomes différents que vous envisagez.

Et cela, bien sûr, crée un tout nouvel ensemble de problèmes de recherche, qui, je pense, ne sont pas résolus en partie à cause des liens de lecture auxquels nous sommes actuellement confrontés. Y a-t-il des questions finales sur l'assemblage? D'accord, super. Eh bien, nous nous reverrons alors jeudi où nous parlerons de ChIP-seq et d'analyse IDR. D'ici là, passez un bon mercredi. Merci beaucoup.


Les références

Booch, G., Rumbaugh, J. et Jacobson, I. (1997). Le guide de l'utilisateur du langage de modélisation unifié: Addison-Wesley.

Brachman, R.J., McGuinness, D.L., Patel-Schneider, P.F., Resnick, L.A. et Borgida, A. (1991). Vivre avec CLASSIC : quand et comment utiliser un langage de type KL-ONE. Principes des réseaux sémantiques. J. F. Sowa, éditeur, Morgan Kaufmann: 401-456.

Brickley, D. et Guha, R.V. (1999). Spécification du schéma du cadre de description des ressources (RDF). Recommandation proposée, World Wide Web Consortium: http://www.w3.org/TR/PR-rdf-schema.

Chimère (2000). Environnement d'ontologie de chimère. www.ksl.stanford.edu/software/chimaera

Duineveld, A.J., Stoter, R., Weiden, M.R., Kenepa, B. et Benjamins, V.R. (2000). WonderTools ? Une étude comparative des outils d'ingénierie ontologique. Revue internationale d'études humaines et informatiques 52(6): 1111-1133.

Farquhar, A. (1997). Tutoriel Ontolingua. http://ksl-web.stanford.edu/people/axf/tutorial.pdf

Gimez-Pérez, A. (1998). Partage et réutilisation des connaissances. Manuel des systèmes experts appliqués. Liebowitz, rédacteur en chef, CRC Press.

Gruber, T.R. (1993). Une approche de traduction à la spécification d'ontologie portable. Acquisition de connaissances 5: 199-220.

Gruninger, M. et Fox, M.S. (1995). Méthodologie pour la conception et l'évaluation des ontologies. Dans: Actes de l'atelier sur les questions ontologiques de base dans le partage des connaissances, IJCAI-95, Montréal.

Hendler, J. et McGuinness, D.L. (2000). Le langage de balisage d'agent DARPA. Systèmes intelligents IEEE 16(6): 67-73.

Humphreys, B.L. et Lindberg, D.A.B. (1993). Le projet UMLS : faire le lien conceptuel entre les utilisateurs et les informations dont ils ont besoin. Bulletin de l'Association des bibliothèques médicales 81(2): 170.

McGuinness, D.L., Abrahams, M.K., Resnick, L.A., Patel-Schneider, P.F., Thomason, R.H., Cavalli-Sforza, V. et Conati, C. (1994). Tutoriel sur le système de représentation des connaissances classique. http://www.bell-labs.com/project/classic/papers/ClassTut/ClassTut.html

McGuinness, D.L., Fikes, R., Rice, J. et Wilder, S. (2000). Un environnement pour la fusion et le test de grandes ontologies. Principes de représentation et de raisonnement des connaissances : Actes de la septième conférence internationale (KR2000). A. G. Cohn, F. Giunchiglia et B. Selman, éditeurs. San Francisco, Californie, Morgan Kaufmann Publishers.

McGuinness, D.L. et Wright, J. (1998). Modélisation conceptuelle pour la configuration : une approche basée sur la logique de description. Intelligence artificielle pour la conception, l'analyse et la fabrication d'ingénierie - numéro spécial sur la configuration.

Musen, MA (1992). Dimensions du partage et de la réutilisation des connaissances. Informatique et recherche biomédicale 25: 435-467.

Ontolingua (1997). Manuel de référence du système Ontolingua. http://www-ksl-svc.stanford.edu:5915/doc/frame-editor/index.html

Price, C. et Spackman, K. (2000). Termes cliniques de la SNOMED. BJHC&IM-British Journal of Healthcare Computing & Information Management 17(3): 27-31.

Protégé (2000). Le projet protégé. http://protege.stanford.edu

Rosch, E. (1978). Principes de catégorisation. Cognition et catégorisation. R. E. et B. B. Lloyd, éditeurs. Hillside, NJ, Éditeurs Lawrence Erlbaum: 27-48.

Rothenfluh, T.R., Gennari, J.H., Eriksson, H., Puerta, A.R., Tu, S.W. et Musen, MA (1996). Ontologies réutilisables, outils d'acquisition de connaissances et systèmes de performance : solutions PROT G -II à Sisyphus-2. Revue internationale d'études humaines et informatiques 44: 303-332.

Rumbaugh, J., Blaha, M., Premerlani, W., Eddy, F. et Lorensen, W. (1991). Modélisation et conception orientées objet. Englewood Cliffs, New Jersey : Prentice Hall.

Uschold, M. et Gruninger, M. (1996). Ontologies : principes, méthodes et applications. Examen de l'ingénierie des connaissances 11(2).

[1] Nous mettons les noms de classe en majuscules et commençons les noms de créneaux par des lettres minuscules. Nous utilisons également une police de machine à écrire pour tous les termes de l'ontologie d'exemple.

[2] Nous pouvons également voir les classes comme des prédicats unaires&# 151questions qui ont un argument. Par exemple, “Est-ce que cet objet est un vin ?” Les prédicats unaires (ou classes) contrastent avec les prédicats binaires (ou slots)—les questions qui ont deux arguments. Par exemple, “La saveur de cet objet est-elle forte ?” “Quelle est la saveur de cet objet ?”

[3] Certains systèmes spécifient simplement le type de valeur avec une classe au lieu d'exiger une déclaration spéciale de slots de type d'instance.

[4] Nous avons choisi de ne représenter que les ports rouges dans notre ontologie : les ports blancs existent mais ils sont extrêmement rares.

[5] Ici, nous supposons que chaque organe anatomique est une classe puisque nous aimerions également parler de la « 1ère côte gauche de Jean ». Les organes individuels des personnes existantes seraient représentés en tant qu'individus dans notre ontologie.