Informations

Comprendre les statistiques F en génétique des populations

Comprendre les statistiques F en génétique des populations


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je lis l'article classique de Weir et Cockerham 1984 sur l'estimation de $F_{ST}$. Au début (première page, colonne de droite), ils définissent 3 statistiques.

  • $F$ est la corrélation des gènes au sein des individus (« consanguinité »)

  • $ heta$ est la corrélation des gènes de différents individus dans la même population ("coascendance")

  • $f$ est la corrélation des gènes au sein des individus au sein des populations.

Ils précisent également que les 3 statistiques sont liées par

$$f = (F- hêta)(1- hêta)$$

Je ne comprends pas très bien ces 3 statistiques et surtout je ne comprends pas pourquoi cette relation est vraie. Pouvez-vous m'aider?


Je suis un peu bancal sur le sujet, mais je pense que l'information la plus importante est qu'ils re-paramétrent l'analyse hiérarchique de la variation de Wright (1951), « statistiques F », « partitionnement hiérarchique de la variation » ou « population paramètres", selon à qui vous demandez. Les paramètres correspondent comme suit (en bas de p. 1358) : Fit=F, Fis=f, Fst=θ.

La relation se pose compte tenu de certaines hypothèses. De manière cruciale ici, si Fis (ou f) est une mesure d'écart par rapport au principe de Hardy-Weinberg et que toutes les populations s'écartent de manière identique de HWP, alors Fit = 1 - Hi/Ht. Il s'ensuit que, 1 - Fit = Hi/Ht. De plus, nous pouvons réécrire ceci, de sorte que, Hi/Ht = (Hi/Hs)(Hs/Ht).

Ensemble, vous pouvez (peut-être) voir que, 1-Fit = (1−Fis)(1−Fst). Substitution, 1-F = (1-f)(1-θ).

(Je me rends compte que ce n'est pas une réponse complète, mais vous pouvez la réarranger avec un peu d'algèbre pour obtenir l'équation de Weir & Cockerham, je pense).

[Mise à jour du 25 octobre 2016] : cela donne finalement f = (F-θ)/(1-θ). Je pense que la question publiée (ci-dessus) contient une faute de frappe - en particulier un opérateur de division manquant. Peut-être que quelqu'un a raté le trait sur une machine à écrire dans le papier original ?


A quoi sert la génétique des populations ?

La médaille Thomas Hunt Morgan de la Genetic Society of America est décernée à un membre individuel de la GSA pour l'ensemble de ses réalisations dans le domaine de la génétique. Depuis plus de 40 ans, le récipiendaire de 2015, Brian Charlesworth est un chef de file de la génétique évolutionniste théorique et empirique, apportant des contributions substantielles à notre compréhension de la façon dont l'évolution agit sur la variation génétique. Certains des domaines dans lesquels les recherches de Charlesworth ont eu le plus d'influence sont l'évolution des chromosomes sexuels, les éléments transposables, les mutations délétères, la reproduction sexuée et l'histoire de la vie. Il a également développé la théorie influente de la sélection de fond, selon laquelle l'élimination récurrente des mutations délétères réduit la variation au niveau des sites liés, fournissant une explication générale de la corrélation entre le taux de recombinaison et la variation génétique.

Je suis reconnaissant à la Genetics Society of America de m'avoir décerné la médaille Thomas Hunt Morgan et de m'avoir invité à contribuer à cet essai. J'ai passé près de 50 ans à faire de la recherche en génétique des populations. Cette branche de la génétique utilise la connaissance des règles de l'hérédité pour prédire comment la composition génétique d'une population changera sous les forces de l'évolution et compare les prédictions aux données pertinentes. Au fur et à mesure que nos connaissances sur l'organisation et le fonctionnement des génomes ont augmenté, l'éventail des problèmes auxquels sont confrontés les généticiens des populations a augmenté. Nous sommes, cependant, une partie relativement petite de la communauté génétique, et parfois il semble que notre domaine est considéré comme moins important que les branches de la génétique concernées par les propriétés des cellules et des organismes individuels.

Je profite de cette occasion pour expliquer pourquoi je crois que la génétique des populations est utile à un large éventail de biologistes. L'importance fondamentale de la génétique des populations réside dans les connaissances de base qu'elle fournit sur les mécanismes de l'évolution, dont certains sont loin d'être intuitivement évidents. Beaucoup de ces idées sont venues du travail de la première génération de généticiens des populations, notamment Fisher, Haldane et Wright. Leurs modèles mathématiques ont montré que, contrairement à ce que croyaient la majorité des biologistes dans les années 1920, la sélection naturelle opérant sur la variation mendélienne peut provoquer des changements évolutifs à des taux suffisants pour expliquer les modèles historiques d'évolution. Cela a conduit à la synthèse moderne de l'évolution (Provine 1971). Personne ne peut prétendre comprendre comment fonctionne l'évolution sans une compréhension de base de la génétique des populations classique, ceux qui courent le risque de commettre des erreurs telles qu'affirmer qu'un changement évolutif rapide est le plus susceptible de se produire dans les petites populations fondatrices (Mayr 1954).

Au fur et à mesure que nos connaissances sur l'organisation et le fonctionnement des génomes ont augmenté, l'éventail des problèmes auxquels sont confrontés les généticiens des populations a augmenté. Nous sommes, cependant, une partie relativement petite de la communauté génétique, et parfois il semble que notre domaine est considéré comme moins important que les branches de la génétique concernées par les propriétés des cellules et des organismes individuels.

La synthèse moderne dure depuis 80 ans, donc cet argument ne convaincra probablement pas les généticiens moléculaires sceptiques que la génétique des populations a beaucoup à offrir au biologiste moderne. Je donne deux exemples du rôle utile que peuvent jouer les études de génétique des populations. Premièrement, l'une des découvertes les plus notables des 40 dernières années a été la découverte que les génomes de la plupart des espèces contiennent des familles d'éléments transposables (ET) avec la capacité de faire de nouvelles copies qui s'insèrent ailleurs dans le génome (Shapiro 1983). Cela a conduit à deux écoles de pensée sur la raison pour laquelle ils sont présents dans le génome. L'un a affirmé que les TE sont maintenus parce qu'ils confèrent des avantages à l'hôte en produisant des mutations utiles pour l'adaptation (Syvanen 1984), l'autre a estimé qu'ils sont des parasites, maintenus par leur capacité à se répliquer dans le génome malgré les effets de fitness potentiellement délétères des insertions de TE (Doolittle et Sapienza 1980 Orgel et Crick 1980).

La deuxième hypothèse peut être testée en comparant les prédictions génétiques des populations avec les résultats des enquêtes TE au sein des populations. Au début des années 1980, Chuck Langley, moi-même et plusieurs collaborateurs avons essayé de faire exactement cela, en utilisant des populations de Drosophila melanogaster (Charlesworth et Langley 1989). Les modèles ont prédit que la plupart Drosophile Les ET doivent être trouvés à de faibles fréquences de population sur leurs sites d'insertion. C'est parce que D. melanogaster les populations ont de grandes tailles effectives (Ne). Ne est essentiellement le nombre d'individus qui contribuent génétiquement à la prochaine génération. Grand Ne signifie qu'une très faible pression de sélection peut maintenir des éléments délétères à basse fréquence. C'est une conséquence de l'une des découvertes les plus importantes de la génétique classique des populations : le destin d'une variante dans une population est le produit de Ne et la force de la sélection (Fisher 1930 Kimura 1962). Si, par exemple, Ne est de 1000, une mutation qui réduit la valeur adaptative par rapport au type sauvage de 0,001 sera éliminée de la population avec une quasi-certitude.

En utilisant les outils bruts alors disponibles (cartographie de restriction des régions génomiques clonées et in situ hybridation de sondes TE marquées à des chromosomes polytènes), nous avons constaté que presque tous les TE sont effectivement présents à de faibles fréquences dans la population (Charlesworth et Langley 1989). La plupart des exceptions à cette règle ont été trouvées dans les régions génomiques dans lesquelles il y a peu de croisements (Maside et al. 2005). Ceci est cohérent avec la proposition de Chuck selon laquelle un contributeur majeur à l'élimination des TE de la population est la sélection contre la descendance aneuploïde créée par le croisement entre les TE homologues à différents endroits du génome (Langley et al. 1988). C'est maintenant une découverte familière que les génomes ou régions génomiques non recombinants ont tendance à être pleins de TE et d'autres types de séquences répétitives, les raisons génétiques de la population pour cela, discutées par Charlesworth et al. (1994), ne sont peut-être pas si familiers.

Les méthodes génomiques modernes fournissent des moyens beaucoup plus puissants pour identifier les insertions TE. Des enquêtes démographiques récentes utilisant ces méthodes ont confirmé les résultats plus anciens : la plupart des ET Drosophile sont présents à de faibles fréquences, et il existe des preuves statistiques pour la sélection contre les insertions (Barron et al. 2014). Ceci est cohérent avec l'existence de mécanismes moléculaires élaborés pour réprimer l'activité des TE, tels que la voie de l'ARN interagissant avec Piwi (piARN) des animaux (Senti et Brennecke 2010). Dans quelques cas, les TE ont atteint des fréquences élevées ou une fixation, et il existe des preuves convaincantes qu'au moins certains de ces événements sont associés à une meilleure forme physique causée par les insertions de TE elles-mêmes (Barron et al. 2014). Ces cas ne contredisent pas l'hypothèse parasitaire intragénomique du maintien des TE. Les mutations favorables induites par les TE sont trop rares pour contrebalancer l'élimination des insertions délétères à moins que de nouvelles insertions ne remplacent continuellement celles qui sont perdues.

De la théorie du vieillissement à la dégénérescence des chromosomes Y en passant par la dynamique des éléments transposables, notre compréhension des bases génétiques de l'évolution est plus profonde et plus riche grâce aux nombreuses contributions de Charlesworth dans ce domaine. —Charles Langley, Université de Californie, Davis

Mon autre exemple est une découverte en génétique des populations sur un processus biologique fondamental : la protéine PRDM9 impliquée dans l'établissement de points chauds de recombinaison chez l'homme. Cela a été rendu possible par la révolution de la génétique des populations provoquée par la théorie de la coalescence (Hudson 1990), qui est un outil puissant pour examiner les propriétés statistiques d'un échantillon d'une population sous l'hypothèse de la neutralité sélective. L'idée de base est simple : si nous échantillonnons deux génomes haploïdes homologues non recombinés (par exemple., ADN mitochondrial) d'une grande population, il y a une probabilité de 1/(2Ne) qu'ils sont dérivés du même génome parental de la génération précédente c'est à dire., ils fusionnent (Ne est la taille effective de la population pour la région du génome en question). S'ils ne parviennent pas à fusionner dans cette génération, il y a une probabilité de 1/(2Ne) qu'ils fusionnent une génération plus loin, et ainsi de suite. Si m les génomes sont échantillonnés, il existe un arbre bifurquant qui les relie à leur ancêtre commun. La taille et la forme de cet arbre sont très aléatoires, de sorte que les composants génétiquement indépendants du génome connaissent des arbres différents, même s'ils partagent le même Ne. Les propriétés de variabilité de séquence dans l'échantillon peuvent être modélisées en jetant des mutations au hasard sur l'arbre (Hudson 1990).

La recombinaison fait que différents sites du génome connaissent des arbres différents, mais les sites étroitement liés ont des arbres beaucoup plus similaires que les sites indépendants. Au niveau de la variabilité des séquences, une liaison étroite entraîne des associations non aléatoires entre des variants neutres - un déséquilibre de liaison (LD). L'étendue de la LD parmi les variants neutres sur différents sites est déterminée par le produit de Ne et la fréquence de recombinaison entre eux c (Ohta et Kimura 1971 McVean 2002). Richard Hudson a proposé une méthode statistique pour estimer Nec à partir de données sur des variants sur plusieurs sites du génome (Hudson 2001) qui ont été implémentées dans un programme informatique largement utilisé LDhat par Gil McVean et ses collègues (McVean et al. 2002). Des applications à de grands ensembles de données sur la variabilité des séquences humaines ont montré que le génome regorge de points chauds et de points froids de recombinaison, ce qui est cohérent avec les précédentes études de génétique moléculaire de loci spécifiques (Myers et al. 2005). La plupart des recombinaisons se produisent dans les points chauds et très peu entre eux, ce qui explique le fait qu'il existe une LD presque complète sur des dizaines voire des centaines de kilobases chez l'homme. L'identification d'un grand nombre de points chauds a conduit à la découverte d'un motif de séquence lié par une protéine à doigt de zinc, PRDM9, à peu près au même moment où les généticiens de souris ont également découvert que PRDM9 favorise la recombinaison (McVean et Myers 2010 Baudat et al. 2014). Ces découvertes ont conduit à de nombreuses observations intéressantes, telles que des associations entre les variants de PRDM9 chez l'homme et la variation individuelle des taux de recombinaison, générant un programme de recherche en cours d'un grand intérêt scientifique (Baudat et al. 2014).

Avec l'utilisation toujours croissante des données génomiques, je suis convaincu que de nombreuses autres interactions fructueuses entre la génétique moléculaire et la génétique des populations auront lieu. Un message à retenir est qu'il faut faire davantage pour intégrer la formation aux approches démographiques, moléculaires et informatiques afin de fournir à la prochaine génération de chercheurs le large éventail de connaissances dont ils auront besoin.


Systématique moléculaire et génétique des populations des invasions biologiques : vers une meilleure compréhension de la gestion des espèces invasives

Dr J. Le Roux, Centre d'excellence pour la biologie des invasions, Université de Stellenbosch, Natural Sciences Building, Matieland 7602, Afrique du Sud. Courriel : [email protected] Rechercher d'autres articles de cet auteur

Département des sciences des plantes tropicales et des sols, Université d'Hawaï à Manoa, Honolulu, Hawaï, États-Unis

Département des plantes tropicales et des sciences du sol, Université d'Hawaï à Manoa, Honolulu, Hawaï, États-Unis

Adresse actuelle : Centre d'excellence pour la biologie des invasions, Université de Stellenbosch, Natural Sciences Building, Matieland 7602, Afrique du Sud

Dr J. Le Roux, Centre d'excellence pour la biologie des invasions, Université de Stellenbosch, Natural Sciences Building, Matieland 7602, Afrique du Sud. Courriel : [email protected] Rechercher d'autres articles de cet auteur

Département des plantes tropicales et des sciences du sol, Université d'Hawaï à Manoa, Honolulu, Hawaï, États-Unis

Connexion institutionnelle
Connectez-vous à la bibliothèque en ligne Wiley

Si vous avez déjà obtenu l'accès avec votre compte personnel, veuillez vous connecter.

Acheter un accès instantané
  • Consultez le PDF de l'article et les éventuels suppléments et chiffres associés pendant une durée de 48 heures.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article PDF et des éventuels suppléments et figures associés.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article/chapitre PDF et des éventuels suppléments et figures associés.
  • L'article/le chapitre peut être imprimé.
  • Article/chapitre téléchargeable.
  • L'article/le chapitre peut ne pas être redistribué.

Résumé

L'étude de la génétique des populations d'espèces envahissantes offre des opportunités d'étudier les processus évolutifs rapides à l'œuvre, et bien que l'écologie des invasions biologiques ait bénéficié d'une grande attention dans le passé, la récenteté des techniques moléculaires fait de leur application en écologie des invasions une approche assez nouvelle. Malgré cela, la biologie moléculaire s'est déjà avérée puissante pour déduire des aspects non seulement pertinents pour le biologiste évolutionniste mais aussi pour ceux concernés par la gestion des espèces envahissantes. Ici, nous passons en revue les différents marqueurs moléculaires couramment utilisés dans de telles études et leur(s) application(s) pour répondre à différentes questions en écologie de l'invasion. Nous passons ensuite en revue la littérature actuelle sur les études de génétique moléculaire visant à améliorer la gestion et la compréhension des espèces envahissantes en résolvant les problèmes taxonomiques, en élucidant les sources géographiques des envahisseurs, en détectant l'hybridation et l'introgression, en suivant la dispersion et la propagation et en évaluant l'importance de la diversité génétique dans l'invasion. Succès. Enfin, nous faisons quelques suggestions pour les futurs efforts de recherche en écologie moléculaire des invasions biologiques.


Postes de doctorat en génétique des populations

Veuillez vous inscrire à Life Science Network pour voir tous les détails de l'emploi.
Si vous avez déjà un compte Life Science Network, LinkedIn ou Google :

En savoir plus sur les emplois du Réseau des sciences de la vie ici.

Employeur

Description de l'emploi

Au cours des dernières années, Vienne est devenue l'un des principaux centres de génétique des populations. La Vienna Graduate School of Population Genetics a été fondée pour offrir aux doctorants une opportunité de formation leur permettant de s'appuyer sur cette excellente expertise sur site.

Nous invitons les candidatures d'étudiants très motivés et exceptionnels, passionnés par la recherche évolutive et possédant une formation dans l'une des disciplines suivantes : génétique évolutive, génétique fonctionnelle, génétique des populations théorique ou expérimentale, bioinformatique, mathématiques, statistiques.

  • Évolution à partir de mutations de novo - influence des taux de mutation élevés.
  • Évolution de la signalisation neuronale spécifique au sexe.
  • Evolution du génome chez les ancolies.
  • Inférence de signatures de sélection à partir de données de séries chronologiques.
  • Dynamique à long terme des populations locales de drosophiles.
  • Génétique moléculaire de l'épigénétique.
  • L'écologie des semences.
  • Variation structurelle et évolution du génome.
  • Adaptation à la température chez la drosophile : adaptation phénotypique.
  • Les sources de diversité façonnant le rayonnement adaptatif.
  • Comprendre l'adaptation polygénique.

Seules les candidatures complètes (formulaire de candidature, CV, lettre de motivation, certificats universitaires, indication des deux sujets préférés dans un seul pdf) reçues avant le 16 mai 2021 seront prises en considération. Deux lettres de recommandation doivent être envoyées directement par les arbitres.

Selon le projet, les doctorats seront décernés soit en génétique, en mathématiques ou en statistiques. Les doctorants recevront un salaire mensuel basé sur actuellement 2.237,60 avant impôts selon les règlements du Fonds autrichien pour la science (FWF).


Dynamique et régulation des populations

Le modèle logistique de la croissance démographique, bien que valable dans de nombreuses populations naturelles et un modèle utile, est une simplification de la dynamique de la population du monde réel. Le modèle implicite est que la capacité de charge de l'environnement ne change pas, ce qui n'est pas le cas. La capacité de charge varie chaque année. Par exemple, certains étés sont chauds et secs alors que d'autres sont froids et humides dans de nombreuses régions, la capacité de charge en hiver est beaucoup plus faible qu'elle ne l'est en été. En outre, les événements naturels tels que les tremblements de terre, les volcans et les incendies peuvent modifier un environnement et donc sa capacité de charge. De plus, les populations n'existent généralement pas isolément. Ils partagent l'environnement avec d'autres espèces, rivalisant avec elles pour les mêmes ressources (compétition interspécifique). Ces facteurs sont également importants pour comprendre comment une population spécifique va croître.

La croissance démographique est régulée de diverses manières. Ceux-ci sont regroupés en facteurs dépendants de la densité, dans lesquels la densité de la population affecte le taux de croissance et la mortalité, et les facteurs indépendants de la densité, qui causent la mortalité dans une population quelle que soit la densité de la population. Les biologistes de la faune, en particulier, veulent comprendre les deux types car cela les aide à gérer les populations et à prévenir l'extinction ou la surpopulation.


Aperçu des maladies rares et courantes de la sélection naturelle

On s'attendrait à ce que les gènes associés aux maladies mendéliennes ou complexes soient soumis à des pressions sélectives inégales. Nous pouvons donc utiliser des signatures de sélection pour prédire l'implication des gènes dans la maladie humaine [11, 12, 32, 37, 115, 163]. Les troubles mendéliens sont généralement graves, compromettant la survie et la reproduction, et sont causés par des mutations délétères rares et hautement pénétrantes. Les gènes de la maladie mendélienne devraient donc correspondre au modèle d'équilibre mutation-sélection, avec un équilibre entre le taux de mutation et le taux d'élimination des allèles à risque par sélection purificatrice [12]. L'utilisation de modèles de génétique des populations est moins simple lorsqu'il s'agit de prédire les gènes impliqués dans le risque de maladie complexe. Les modèles d'évolution adaptative basés sur la sélection positive ou équilibrante s'appliquent à quelques traits ou troubles mendéliens, notamment, mais pas exclusivement, ceux liés à la résistance au paludisme (revue dans [76, 98]). Cependant, les schémas héréditaires complexes observés pour les maladies courantes, notamment la pénétrance incomplète, l'apparition tardive et les interactions gène-environnement, rendent plus difficile le déchiffrement du lien entre le risque de maladie et la forme physique [12].

Sélection purificatrice, variantes rares et troubles sévères

Selon la théorie de la génétique des populations, les mutations fortement délétères sont rapidement éliminées de la population par sélection purificatrice, tandis que les mutations légèrement délétères restent généralement présentes, bien qu'à de faibles fréquences, en fonction de la taille de la population et des effets de fitness. Les études à l'échelle du génome fournissent de plus en plus de preuves à l'appui de ces prédictions, car les gènes « essentiels » - identifiés comme tels sur la base d'une association avec des maladies mendéliennes ou des preuves expérimentales d'organismes modèles - sont enrichis en signes de sélection purificatrice [32, 37, 115, 164]. Il a également été démontré que la sélection purificatrice est répandue dans la variation régulatrice, agissant contre des variantes ayant des effets importants sur la transcription, des régions non codantes conservées du génome et des gènes qui sont au centre des réseaux d'interaction régulatrice et protéine-protéine [8, 10, 165–171 ].

Les mutations associées à des maladies mendéliennes ou à des effets délétères sur le phénotype de l'organisme sont généralement rares et présentent une ségrégation familiale, mais de telles mutations peuvent également être restreintes à des populations spécifiques [11]. Cette restriction, dans certains cas, peut être due à un avantage sélectif fourni par l'allèle de risque de maladie (par exemple, l'allèle drépanocytaire dans les populations exposées au paludisme [98]), mais elle reflète principalement un écart par rapport à l'équilibre mutation-sélection. De petites tailles de population ou des événements démographiques spécifiques peuvent augmenter de manière aléatoire la fréquence de certains allèles à risque de maladie, car trop peu de temps s'est écoulé pour purifier la sélection pour les éliminer de la population, comme observé chez les Canadiens français, les Juifs ashkénazes ou les Finlandais [11, 66, 67].

Selon ces principes de génétique des populations, la recherche de gènes ou d'éléments fonctionnels évoluant sous forte sélection purificatrice permet d'identifier les gènes d'importance majeure pour la survie, dont les mutations sont susceptibles d'altérer la fonction et de conduire à des phénotypes cliniques sévères. Dans ce contexte, la réponse immunitaire et les fonctions de défense de l'hôte apparaissent comme les cibles privilégiées de la sélection purificatrice [37, 95, 102]. Par exemple, une étude récente basée sur des séquences de génomes entiers du 1000 Genomes Project a estimé dans quelle mesure la sélection purificatrice a agi sur

1500 gènes d'immunité innée. Les gènes de cette classe, pris dans leur ensemble, se sont avérés avoir évolué sous une sélection purificatrice globalement plus forte que le reste du génome codant pour les protéines [95]. Cette étude a également évalué la force des contraintes sélectives dans les différents modules de l'immunité innée, en organisant ces contraintes dans une hiérarchie de pertinence biologique et en fournissant des informations sur le degré auquel les gènes correspondants étaient essentiels ou redondants [95].

La génétique des populations a également facilité l'identification des gènes du système immunitaire et des voies de signalisation qui remplissent des fonctions essentielles et non redondantes dans la défense de l'hôte, dont les variantes sont associées à des maladies infectieuses graves et potentiellement mortelles (pour des exemples, voir [94, 95, 101 , 106], et pour les revues [29, 103, 172, 173]). Ceci est bien illustré par les cas de STAT1 et TRAF3 ils appartiennent au 1 % de gènes présentant les signaux les plus forts de sélection purificatrice à l'échelle du génome [95], et des mutations dans ces gènes ont été associées à de graves maladies virales et bactériennes, à une susceptibilité mendélienne aux maladies mycobactériennes et au virus de l'herpès simplex 1 encéphalite [174, 175]. Utilisant le paradigme de l'immunité et du risque de maladie infectieuse, ces études mettent en évidence l'intérêt de la génétique des populations en complément des études génétiques cliniques et épidémiologiques, pour déterminer la pertinence biologique des gènes humains. dans la nature et en prédisant leur implication dans la maladie humaine [29, 103, 173, 176].

Adaptation génétique, variantes courantes et maladie complexe

La relation entre la sélection et le risque de maladie complexe est moins claire que pour les troubles mendéliens, mais des modèles commencent à émerger. Les gènes associés à une maladie complexe présentent des signes de sélection purificatrice moins envahissante que les gènes de maladie mendélienne [32, 173], et sont généralement enrichis en signaux de sélection positive [23, 28, 32, 37, 110, 122, 169]. Il existe également de plus en plus de preuves suggérant que les adaptations génétiques peuvent modifier la susceptibilité aux maladies complexes, et la distribution de la population des allèles de susceptibilité commune est peu susceptible de résulter de processus neutres seuls [12, 91, 177-179]. Par exemple, on pense que la différence de sensibilité à l'hypertension et aux troubles métaboliques entre les populations résulte d'une adaptation passée à différentes pressions environnementales [91, 179, 180]. Une autre étude a caractérisé la structure du risque génétique complexe pour 102 maladies dans le contexte de la migration humaine [178]. Les différences entre les populations dans le risque génétique de maladies telles que le diabète de type 2, la cirrhose biliaire du foie, les maladies inflammatoires de l'intestin, le lupus érythémateux disséminé et le vitiligo ne pouvaient pas être expliquées par une simple dérive génétique, fournissant la preuve d'un rôle pour l'adaptation génétique passée [178] . De même, Grossman et ses collègues ont trouvé des chevauchements entre leurs régions candidates sélectionnées positivement et les gènes associés à des traits ou à des maladies dans GWAS [28], y compris la taille, et plusieurs régions associées à des risques de maladies infectieuses et auto-immunes, y compris la tuberculose et la lèpre.

Comme la sélection purificatrice, la sélection positive est répandue parmi les gènes liés à l'immunité et à la défense de l'hôte [24, 37, 95, 109, 112, 115, 181]. Des exemples notables de gènes liés à l'immunité évoluant de manière adaptative, à travers différentes formes de sélection positive ou équilibrante, et signalés comme étant associés à des traits ou des maladies complexes comprennent :TLR1 et TLR5, qui ont des signaux de sélection qui semblent être liés à des diminutions de la signalisation NF-kB en Europe et en Afrique, respectivement [28, 94, 95] de nombreux gènes impliqués dans la résistance au paludisme en Afrique et en Asie du Sud-Est [98, 100] interféron de type III gènes chez les Européens et les Asiatiques, liés à des niveaux plus élevés de clairance virale spontanée [101, 182] GRAND et IL21, qui ont été impliqués dans l'infectiosité et l'immunité de la fièvre de Lassa chez les Africains de l'Ouest [181] et des composants de la voie de signalisation NF-kB et de l'activation de l'inflammasome liés à la résistance au choléra dans une population du delta du Gange [97]. Ces cas de sélection liés aux maladies infectieuses et bien d'autres (voir [29-31, 96, 103] pour des revues et des références) indiquent que les pressions imposées par les agents de maladies infectieuses ont été primordiales parmi les différentes menaces auxquelles sont confrontés les humains [183] . Ils soulignent également la valeur des approches de génétique des populations pour élucider les variantes et les mécanismes sous-jacents au risque de maladie complexe.

Modifications des pressions sélectives et variantes avantageuses/délétères

La plupart des variantes rares et courantes associées à la susceptibilité à la maladie dans les populations modernes ont émergé par des processus de sélection neutres [184]. Cependant, de plus en plus de preuves suggèrent que, suite à des changements dans les variables environnementales ou le mode de vie humain, les allèles qui étaient auparavant adaptatifs peuvent devenir « inadaptés » et associés à un risque de maladie [12, 13, 29, 30, 105]. Par exemple, selon l'hypothèse populaire du « génotype économe » basée sur des données épidémiologiques, la forte prévalence du diabète de type 2 et de l'obésité dans les sociétés modernes résulte de la sélection d'allèles associés à un stockage efficace des graisses et des glucides pendant les périodes de famine dans le passé. L'augmentation de l'abondance alimentaire et un mode de vie sédentaire ont rendu ces allèles préjudiciables [185]. La preuve la plus solide que la sélection passée peut conduire à une mauvaise adaptation et à une susceptibilité aux maladies actuelles est fournie par les troubles infectieux et inflammatoires [12, 29-31, 77, 105]. Selon l'hypothèse de l'hygiène, la diminution de la diversité des microbes auxquels nous sommes exposés, suite à l'amélioration de l'hygiène et à l'introduction d'antibiotiques et de vaccins, a entraîné un déséquilibre de la réponse immunitaire, avec des allèles qui nous ont aidés à lutter contre l'infection dans le passé maintenant associé à un risque plus élevé d'inflammation ou d'auto-immunité [105].

Des études de génétique des populations ont fortement soutenu l'hypothèse de l'hygiène, en montrant que les variantes génétiques associées à la susceptibilité à certaines maladies auto-immunes, inflammatoires ou allergiques, telles que la maladie inflammatoire de l'intestin, la maladie cœliaque, le diabète de type 1, la sclérose en plaques et le psoriasis, afficher de forts signaux de sélection positifs [29, 30, 106, 186-188]. Par exemple, il a été démontré que les gènes conférant une sensibilité aux maladies inflammatoires sont enrichis en signaux de sélection positifs, les loci sélectionnés formant un réseau d'interaction protéine-protéine hautement interconnecté, suggérant qu'une fonction moléculaire partagée était adaptative dans le passé mais affecte maintenant la sensibilité à diverses maladies inflammatoires [187]. On pense qu'une plus grande protection contre les agents pathogènes est le moteur le plus probable de la sélection passée, mais il a été suggéré que d'autres caractéristiques, telles que les conditions anti-inflammatoires in utero, la couleur de la peau et les réponses hypoxiques, pourraient expliquer l'avantage sélectif passé des variantes, contribuant aux fréquences plus élevées d'allèles à risque de maladie chronique dans les populations actuelles [30]. Des études moléculaires, cliniques et épidémiologiques supplémentaires sont nécessaires pour étayer cette hypothèse, mais ces observations mettent en évidence, plus généralement, les compromis évolutifs entre la sélection passée et le risque de maladie actuel dans le contexte des changements des pressions environnementales et du mode de vie humain.


4. Discussion

Évaluation de la diversité génétique et de la structure de la population de g. cola au Bénin est important pour la gestion et la conservation de l'espèce. Cette étude fournit la toute première évaluation moléculaire de g. cola la diversité et la structure de la population grâce à un ensemble de données SNP à l'échelle du génome. Dans cette étude, 12 585 marqueurs DArTseq SNP informatifs ont été identifiés sur 100 g. cola adhésions. Les valeurs PIC ont été utiles pour étudier le niveau de polymorphismes parmi les accessions. Le PIC moyen de 0,3 indique que les marqueurs sont modérément informatifs. Le PIC moyen est également proche de la valeur obtenue pour les marqueurs SNP identifiés à l'aide du GBS dans l'étude de la diversité du riz [29] et du blé [30]. Une précédente étude sur g. cola au Nigeria utilisant des marqueurs RAPD a rapporté une valeur PIC de 0,93 [31]. La nature bi-allélique des marqueurs DArT-SNP pour lesquels la valeur maximale de PIC est de 0,5, par rapport aux marqueurs RAPD multi-alléliques avec la valeur maximale de PIC de 1 [32] peut expliquer la différence de valeurs de PIC observée dans les deux systèmes de marqueurs . Des niveaux faibles à modérés d'hétérozygotie observée (0,223-0,248) dans les populations analysées dans cette étude indiquent un déficit élevé en hétérozygotes. En revanche, une très forte hétérozygotie a été observée chez g. cola adhésions du Nigéria [31]. La faible hétérozygotie peut être due à un événement de goulot d'étranglement grave qui s'est produit pendant la domestication et la sélection [33]. Au Bénin, g. cola se trouve uniquement dans les jardins familiaux, les fermes et les jachères et peut donc avoir été soumis à une sélection volontaire ou involontaire. Les résultats de cette étude sont cohérents avec d'autres études rapportant une réduction de la diversité génétique des cultures domestiquées par rapport à leurs ancêtres sauvages [29, 34]. Un déficit en hétérozygotes a été observé chez de nombreuses espèces menacées telles que Cycad balansae [35], Glyptostrobus pensilis [36], Pulsatilla patens [18]. Furthermore, the results of this study also reveal very high levels of inbreeding (FEST = 0.781–0.848). This could be attributed to self-pollination in g. cola populations [18]. En effet, g. cola is a dioecious species and the ability of g. cola to mate with half sibs may have resulted in inbreeding among closely related individuals. Low genetic diversity and inbreeding depression have been observed in many studies on threatened species as a consequence of a decrease in population size. [18, 37]. This is likely the case in the studied populations of g. cola in Benin, which confirms the recent report of the species' disappearance in the wild [2] with a limited number of accessions found in some populations.

Population differentiation is important for understanding the relative effect of evolutionary gene flow, mating system, selection, adaptation, and genetic drift on populations [38]. Pairwise genetic differentiation estimates (FST) values is a measure of population substructure and is useful in examining the overall genetic differentiation/divergence among populations. The FST values below 0.05 indicate low genetic differentiation, while values between 0.05–0.15, 0.15–0.25, and above 0.25 indicate moderate, high, and very high genetic differentiation respectively [39]. In the present study, pairwise FST showed low but significant (p < 0.05) differentiation among the studied populations. It was also observed that genetic variation was mainly found within populations (97.86%). This could be due to the small distribution range of g. cola in Benin and the short distances between the studied populations, which facilitate gene flow between populations. En outre, g. cola populations in Benin are under heavy anthropogenic exploitation [2], and human activities significantly affect the dynamics of genetic differentiation [40]. Discriminant analysis of principal components (DAPC) and the UPGMA analyses partitioned the 100 g. cola individuals into two principal genetic clusters. Hierarchical clustering analysis performed on g. cola accessions in Nigeria also revealed two clusters [31]. However, in the present study, an admixture of almost all the populations was noted within the two clusters. The presence of admixture within the two genetic clusters implied the lack of any discernable population structure [41], thus further indicating that interbreeding or sharing of alleles has occurred between the populations. An admixture analysis was performed with the program admixture, which reduces the false-positive rates, corrects for bias toward spurious admixture, and allows identification of different mating systems in structured as well as unstructured populations [42]. A finding of K = 1 suggests the accessions in this study are actually part of the large, non-contiguous, single population with low genetic differentiation and high gene flow.


Réclamation DMCA

Si vous pensez que le contenu disponible via le site Web (tel que défini dans nos conditions d'utilisation) enfreint un ou plusieurs de vos droits d'auteur, veuillez nous en informer en fournissant un avis écrit (« Avis d'infraction ») contenant les informations décrites ci-dessous au responsable désigné. mandataire ci-dessous. Si Varsity Tutors prend des mesures en réponse à un avis d'infraction, il tentera de bonne foi de contacter la partie qui a rendu ce contenu disponible au moyen de l'adresse e-mail la plus récente, le cas échéant, fournie par cette partie à Varsity Tutors.

Votre avis d'infraction peut être transmis à la partie qui a rendu le contenu disponible ou à des tiers tels que ChillingEffects.org.

Veuillez noter que vous serez responsable des dommages (y compris les coûts et les honoraires d'avocat) si vous déclarez faussement qu'un produit ou une activité enfreint vos droits d'auteur. Ainsi, si vous n'êtes pas sûr que le contenu situé sur ou lié par le site Web enfreint vos droits d'auteur, vous devriez d'abord envisager de contacter un avocat.

Veuillez suivre ces étapes pour déposer un avis :

Vous devez inclure les éléments suivants :

Une signature physique ou électronique du propriétaire du droit d'auteur ou d'une personne autorisée à agir en son nom Une identification du droit d'auteur prétendu avoir été violé Une description de la nature et de l'emplacement exact du contenu que vous prétendez porter atteinte à votre droit d'auteur, en suffisant détail pour permettre aux tuteurs universitaires de trouver et d'identifier positivement ce contenu, par exemple, nous avons besoin d'un lien vers la question spécifique (pas seulement le nom de la question) qui contient le contenu et une description de quelle partie spécifique de la question - une image, un lien, le texte, etc. – votre plainte fait référence à votre nom, adresse, numéro de téléphone et adresse e-mail et une déclaration de votre part : (a) que vous croyez de bonne foi que l'utilisation du contenu que vous prétendez porter atteinte à vos droits d'auteur est non autorisé par la loi, ou par le propriétaire du droit d'auteur ou l'agent de ce propriétaire (b) que toutes les informations contenues dans votre avis d'infraction sont exactes, et (c) sous peine de parjure, que vous êtes soit le titulaire du droit d'auteur ou une personne autorisée à agir en son nom.

Envoyez votre plainte à notre agent désigné à :

Charles Cohn Varsity Tutors LLC
101, chemin S. Hanley, bureau 300
Saint-Louis, MO 63105


Motivation

This is, most of all, not a book about R. This is also not a “Population Genetics in R” textbook. It is a book about how we do population genetic analyses, for which R is a tool that allows us to reach beyond the limitations of point-and-click interfaces. As a field, Population Genetics has a broad set of textbooks describing the underlying theory. As a student, I cut my teeth on the texts of Hartl (1981), Hartl & Clark (1997) and have used other great texts such as Hamilton (2011) and Hedrick (2009) in the classroom to teach the subject for the last decade. In late 2015, there are a host of texts available to the student of population genetics—amazon lists 150 different books under the search term “Population Genetics textbook”—why do another one? What I have found is that while the theory behind this discipline has been well developed, its application has been largely neglected.

As a new graduate student, fresh out of my first population genetics course, I felt armed with the understanding of how microevolutionary processes influence the distribution of alleles within and among populations. What I wasn’t prepared for was sitting in front of the computer, looking at a few thousand individuals assayed for several different loci and actually ‘doing’ population genetics. All of those textbooks provide me with what is expected and the theory behind it, though often fall short on teaching me how I could apply those inferences to data I actually collect. If you are a theoretical population geneticist, those texts and your ability to integrate mathematical equations will provide you a research lifetime of work. However, if you are practitioner who uses population genetic tools to answer conservation, management, or ecologically inspired questions, the evolutionary expectations of population genetic processes will most likely not be as important as directly estimating inbreeding, exploring ongoing connectivity, or determining genetic granularity of existing populations. This is where this textbook is focusing, a seemingly uninhabited niche in the knowledge ecosystem of graduate level population genetics.

This text was developed out of a graduate course in Population Genetics that I’ve been teaching at Virginia Commonwealth University since 2005. This texts uses R and many additional libraries available within the R ecosystem to illustrate how to perform specific types of analyses and what kind of biological inferences we can gain from them. In the process, we cover materials that are commonly needed in the application of population genetic analysis such as spatial autocorrelation, paternity analysis, and the use of permutation while at the same time highlighting logistical challenges commonly encountered in analyzing real data such as incomplete sampling, missing data, and rarefaction.


31: Population Genetics and Evolution

Téléchargez la vidéo depuis iTunes U ou Internet Archive.

Sujets couverts: Population Genetics and Evolution

Instructeur: Prof. Martin Polz, Guest Lecturer

13 : Biologie moléculaire IV (c.

17 : Carbone et énergie Métab.

18 : Productivité et réseaux trophiques

19 : Régulation de la productivité

20 : Facteurs limitatifs et Bi.

27 : ADN recombinant III (co.

31 : Génétique des populations et.

36 : Applications écologiques

So, for today's lecture as you can see up there is molecular -- evolution, and ecology.

And what I mean by this, it's basically the study or what we try to figure out in molecular evolution and ecology is what genes or gene sequences can tell us about the evolution and ultimately also the ecology of organisms in the environment. And it's particularly relevant for thinking about microorganisms, prokaryotes and the environment.

And I hope I can actually convince you today of that.

This is interesting. The topics that I want to cover today is, first of all, I want to review a little bit what we know about life on Earth, sort of give an overview of the evolution of life on Earth. Then, I want to go into specific topic that's of particular relevance for the evolution of eukaryotes.

That's the endosymbiosis theory. And then I'll explain how we can use gene sequences to actually reconstruct events that have happened a very, very long time ago.

OK, so we'll look at what we call molecular phylogenies, with the use of gene sequences to reconstruct the evolutionary history of organisms on Earth. Derived from that, we'll look at what we call the tree of life. That's sort of the big picture overview of the evolutionary relationships of all organisms on the planet. And then finally, I'll introduce you to a topic called molecular ecology. Again, that's how we can use gene sequences to learn something about the diversity of microorganisms in the environment that lead us then, next time, when I come back on Monday, into this big topic of environmental genomics, how we can actually expand this analysis to learn much more about organisms in the environment. So, first of all, let's look at life on Earth. Does anybody know how old we think Earth is? Say again? Yeah, 4.5 to 4.6, I haven't my notes 4.6. So, Earth's thought to have originated about 4.6 billion years ago. When did the first solid rocks appear on earth? So, when was the surface kind of solidified? Quelqu'un sait ? About 3.9 billion years ago, OK?

And when do we think life started to develop on the planet?

Des idées? Faites une supposition. Deux? One? 3.5 billion years ago, OK? So, this is really remarkable.

We think it didn't, I mean, of course it took a long time because were talking about millions of years and hundreds of millions of years, but still, if you look at the big picture, it didn't actually take life that long to evolve on the planet. So, why do we think that is the case? What's the evidence for that? Well, we look into sedimentary rocks, so old rocks that arose from sediments, what you find around this time, you find that chemicals start to appear, organic molecules that really resemble organic molecules in modern life.

So, we have sort of chemical tracers, or chemical fossils.

So, tracers that indicate the presence of organisms. But what we also find is so-called micro-fossils, and I have a picture of that here where when you actually take rocks and actually slice them into very, very then slices, you can put them under specific microscopes.

And what you then find is that many rocks that are very, very old, have those kinds of inclusions in them.

And these things really resemble very much modern prokaryotic cells, modern bacterial cells, for example. And so, those micro-fossils are generally taken as an indication, also, that life is already present during those times. Now, when we take a quick sort of overlook of the evolution of life on the planet, again this graph here summarizes sort of the last 4. billion years or so when life originated. We see that there was a period of chemical evolution, and then somewhere here that region, it's, of course, not really well understood when that exactly happens, the origin of life is placed.

But I want to alert you to a couple of really, really critical steps here that are shown on this graph which we'll actually talk more about.

It is thought that life very early on is split into three major lineages: the bacteria, the archaea, in what is called here nuclear line. And I'll come back to that in a minute or so.

Then, a further major event which you may remember is oxygenic photosynthesis actually evolved -- -- which means that cyanobacteria evolved that started to produce oxygen as a byproduct of photosynthesis. And that really fundamentally changed the chemistry of the Earth. It actually became an oxidizing atmosphere. And what you see here is, once the oxygen concentration goes over a certain level, it allowed the development of an ozone shield. Now, what does that mean?

What was the critical significance of the presence of an ozone shield?

Does anybody know? What does it block out? Anybody remember that?

What's the big significance of the ozone hole over Antarctica for example? It allows UV radiation to heat the Earth's surface, and in fact if there were no ozone, the UV radiation would be so strong that there would be no life possible on land.

So, once the ozone shield actually developed, organisms could conquer, basically, the land's surface and settle on the land surface.

In this, then, is thought to be at least correlated with the development of endosymbiosis. And I'll explain what I mean by that. But it basically led to the origin of modern eukaryotes, so your ancestors essentially. But there was still a long time, obviously, until humans appeared. We have here the origin of animals and metazoans, and then the age of the dinosaurs is already a very small blip here on this graph. And humans don't even get featured on that because we are so recent. So, but what I want to show you here is that three major lineages evolved early on. These are the bacteria, archaea, and what we call a nuclear lineage. And the significance of those nuclear lineages is that it basically combined with bacteria to form the modern eukaryotic cell. So, the eukarya, or eukaryotes they're also called. And it was this combination that we called the endosymbiosis event. I want to explain this a little bit more, and then I'll show you finally why we actually know that those things are very likely to have occurred a long time ago.

Yes? It means the bacteria and the nuclear lineages combine to form a eukaryote, OK? And I'm actually going to explain this on the slide here. So, if you have any more questions after that, please let me know. So, again, this shows you this early evolution, this early split in two archaea, bacteria, and this sort of nuclear line. It is thought that this nuclear line, this was single celled organisms that increased in cell size, and then developed or partitioned the DNA into a nucleus, basically. So exactly how you find it in modern eukaryotic cells.

But then what happened is the cell took up a bacterial cell, and over time this bacterial cell became symbiont.

In fact it became the mitochondria. And so what this mitochondria now does in the moderate eukaryotic cell as you all know is it really took over the energy metabolism. So, the proto-eukaryotic cell took up a heterotrophic bacteria that form the mitochondria.

And this ultimately then gave rise to protozoa and to modern-day animals. But there was a secondary symbiotic event.

This cell, once it had taken up a heterotrophic bacterium, it took up an autotrophic bacterium, a cyanobacterium, an oxygenic photosynthesizer. And this actually that led to the development of modern algae and modern plants.

So what we can say is that mitochondria our ancient heterotrophic bacteria -- And the chloroplasts are ancient cyanobacteria, so, oxygenic, photosynthetic bacteria. And these obviously have coevolved to then form animals and finally your plants.

So now, obviously we are talking here about events that happened a very, very long time ago. And so, the big question is really how do we really know this? But this takes me to the third topic, which is that of molecular evolution. So, we can state the problem again, And that is very simply put, evolution is incredibly slow, OK? And therefore, its processes are not directly observable.

And we need to actually use inference techniques to reconstruct evolutionary processes. Now, what do we use when we want to reconstruct the evolutionary history of animals and plants usually?

N'importe qui? Fossils. Exactement. So you take a shovel, essentially, and dig down into the different layers.

And there's different techniques that you can actually determine the age of different sedentary rocks. For example, and then you can construct, if you're lucky, you'll find enough fossils of a particular lineage. You can reconstruct the evolution of the lineage. I'm sure you all have seen the example of the horse, for example, where we have actually quite good evidence when ancient horses look like.

And we can reconstruct the sequence of events that led to the evolution of modern-day horses. Now, you can imagine, though, that when we talk about such ancient events like these there really is no fossil record. OK, so what people have figured out, then, is that that was really a stroke of genius that came about in the late 60s, that DNA molecules can act as evolutionary chronometers.

OK, now what do I mean by that?

I mean that you can take DNA sequences or gene sequences from different kinds of organisms. Based on those gene sequences you can reconstruct the relationships to each other. You can determine whether two organisms are closely related or whether they are only very distantly related. And the underlying mechanism of that, is that mutations happen with a certain probability all the time.

So, the idea is that as time passed on, DNA molecules will change.

So they will accumulate, actually, mutations, and so this will lead to, and that the idea is that the amount of change in a particular DNA sequence is proportional to the time of separate evolution of two different lineages or two different organisms.

So, the amount is more or less proportional -- -- to time since the last common ancestry.

So, let me explain how this is actually done.

What you really need in order to do this, is you need genes that are related to each other, OK? So, genes, they need to be universally distributed. That meets all organisms that you want to compare need to have this type of gene. And, those genes need to have conserved function.

In these genes, we can then compare to each other, and I will explain how this is actually done. Any questions so far?

OK, so the example that I actually want to bring is the 16S ribosomal RNA genes.

We oftentimes abbreviate this rRNA. Now, does anybody remember what the ribosomal RNAs are and do? What's the ribosome? Yes?

Right, and what does it do? Exactly, it's the location where messenger RNA is translated into protein.

Now, the ribosomal RNAs are an integral part of the ribosome.

They play both a catalytic role as well as a structural role in the ribosome. And so, fundamentally, because this is such a fundamental organelle, all living organisms possess it.

So, all organisms have it. So this allows us to use these genes to really compare all living organisms to each other.

OK, so this is a very important point.

I wanted to show you a, OK, if it wakes up. There we go.

An example of these ribosomal RNA genes, now this is actually, what you see here is a secondary structure of the actual RNA, the ribosomal RNA. Now, these molecules have a secondary structure because they play a catalytic and structural role.

And so, the really amazing thing is when you look at the structure, the structure determines really the function of those molecules in different organisms. And then look at this.

We have here a bacterium, and here are an archaea. Now, if you think back to the first couple of slides, what I showed you is that those organisms have not shared a common evolutionary history for about four, or so, billion years, or 3 billion years, excuse me. But, if you just glance very quickly at the structures, you see that they look very similar to each other. So, there's an indication that the function is really very highly conserved of those molecules.

However, when you actually look at the sequences in detail, what you'll find is that there's different regions.

And I'd given some examples here denoted by A, B, C in those molecules. And these different regions of the molecules are really the key to its usefulness in figuring out the evolution and ecology of many organisms.

The region number A here, or denoted by A, a sequence stretches that are the same in all living organisms.

So they are universally conserved, which means that if you get a mutation in a gene in that particular region, you are dead. OK, that's why it's conserved essentially.

Then we have those regions B where the length is conserved, but the sequence is not. So, there are sequence change allowed, but the length needs to be conserved. And then there's the region C were neither length nor sequence is actually conserved, and where we get a lot of variation. So, let me write this down. We have three types of sequence stretches.

We have A, what I called the universally conserved sequences. We have B where length, but not sequence is conserved. And, we have C where neither length nor sequence is actually conserved.

And the first two stretches, the first two types of sequence stretches, are very important in figuring out the phylogeny or the evolutionary relationships amongst organisms. Whereas the sequence stretches number C because they vary so dramatically, are very important in identifying organisms.

And we'll talk more about this actually next time.

So what can we actually know do with those sequences?

Well, the first step is we need to generate an alignment.

OK, and this is actually shown here, where each row denotes a gene from a particular organism.

OK, so these are all abbreviated here.

These actually aren't ribosomal RNA genes, but other genes.

And that what you will see here is we can recognize those three different regions that I've pointed out before. You have the regions A which tell you which nucleotides line up with each other, so you use this sort of as an anchor because the sequences never vary amongst organisms. And that the sequence region B where you light up sequences that vary or stretches that vary in sequence but not in length. Now, why is this important?

It's important because you have in each column that nucleotides that have originated from a common ancestral nucleotide, and whose variation over time you can actually monitor.

Is everybody with that? Any questions? OK, great.

The second step, then, is the calculation of a similarity.

And this is shown here. Again, we have a very simplified alignment now of four different organisms. Here, we have the sequences that we want to compare. And what you'll see is that they're overall very similar, but there are different sort of nucleotides. And so, what we simply do is for each pair of sequence combinations, we calculate the sequence similarity value. So, what you see is that you have 12 nucleotides, and the first pair differs in three nucleotides. OK, so that tells us, or it's called actually a distance here, I'm sorry. Let me write this down here.

It's simply one minus the similarity, of course, but so basically a quarter of the nucleotides differ where it's between A and C, a third of the nucleotides difference on. OK, so you do this for each pair of sequences, excuse me. The third step, then, is to calculate the correction for multiple mutations affecting the same nucleotides.

Now, you can imagine that over time there's a probability that a particular nucleotide mutates, say, twice. So, in the first instance it may change from A to a G, , but then it changes to a C.

But when you look at the modern-day sequences, you don't know that this actually happened. And so there's ways to statistically estimate what the likelihood is that a sequence actually contains such multiple events.

OK, and this, we called, a corrective evolutionary distance then. And what you will note is that the corrected evolutionary distance is invariably larger than the actual observed one.

Now, what can we can do with those distances? We can constrain them into a best fit tree of relationships.

So, we can draw what we call is a best fit tree.

That's shown here. We have our four organisms, but when you look at those branches of the tree what you'll see is that they add up roughly to the correct evolutionary distance here.

So, between A and B we have 0. 3 and 0.08, which roughly gives you 0.3 here, OK, whereas between A and C the tree is constrain such that we have 0.31, and here 0. 5, and so overall you roughly get the distance here that we have calculated. And so what this means is that you ordered the organisms by their calculated evolutionary distance. And so you have now obtained, actually, a very intuitive picture of the relationship of organisms to each other where A and B are obviously the most closely related ones, and A and D are the most distantly related.

Is everybody with it? Any questions? OK, now, this best fit tree is what we call a phylogeny.

Now, excuse me, these techniques really revolutionized the study of evolutionary relationships, and one of the things that it allowed us to do is to construct universal phylogenetic trees or what we can also call the tree of life. And I will show you this on the next slide, and that I want to make a few general statements about this.

So first of all, when you analyze all known organisms, and obviously that would be a big task, but representative of all known organisms, what you'll find is that, indeed, we have three major lineages: the bacteria, the archaea, and the eukarya. OK, so we have what we call three domains of life: the archaea, bacteria, and the eukarya.

So, this really is the evidence that life really split very, very early on into those three lineages that I showed you before.

Interestingly, two of those major domains here are prokaryotic, OK? So, two of the domains are prokaryotes. Moreover, if you actually look at the types of organisms that are on here, you'll notice that even on the eukaryotic side of the tree, most of the organisms here are actually microbial. So, the single celled organisms: and that means that most of the life on the planet is microbial.

The vast diversity of organisms on the planet are microorganisms.

So, we can say that most life is microbial.

And when you, then, look at analysis of mitochondria, and chloroplasts which all have their own genetic machinery, and therefore also their own ribosomes you'll see that the mitochondrion, OK, and the chloroplasts both tree within the bacteria. So, we really have an amazing confirmation of this endosymbiont theory which actually developed in the absence of gene sequences by some Russian scientists in the early 20th century. So, we have that mitochondria and chloroplasts tree within bacteria, and this really supports the endosymbiont theory. So really, you could say eukaryotes are really just walking, and swimming, and flying incubators for bacteria, right? So, just hosts for microorganisms.

OK, so basically you can, what you should take home from this is the three domains of life. Two are prokaryotic, and even more so most of the diversity that we find is actually microbial, and then finally the endosymbiont theory is actually confirmed by those phylogenies. Now, what I want to cover in the remaining time, is how we can actually use now those sequences to learn something about organisms in the environment.

That's the topic of molecular ecology.

To introduce this, I just want to show you a couple slides that really sort of capture what the big problem is that we're facing here. Now, when we look at the abundance of prokaryotic cells in different types of environments, what we see is that there is an enormous number of different prokaryotes out there.

This summarizes, here, different types of environments. We have the marine environment, freshwater environment, sediment and soils, subsurface sentiments and animal guts.

And that this number here gives you the average number of prokaryotic cells either per milliliter or per gram. And it here we have the total number of cells obtained by multiplying the average number with the total volume of the particular environment.

So what you can see is that in the marine environment, we have an average half a million cells per milliliter of water, OK? It freshwater, we have about a million cells.

What is that telling you? There's a ton of prokaryotes out there. What you go swimming, you take a little gulp of water: you've probably eaten several million prokaryotes, that it's nothing to worry about because what this also tells us is that very, very few prokaryotes out there are really pathogens because otherwise you'd be sick all the time.

Now, in sediments and soils, in as little as a gram you have five times 10^9 prokaryotic cells almost. 5 billion prokaryotic cells are out there, and even in very, very deep sediments that reach down to 3,000 m, you have a substantial number of prokaryotic cells.

Well, and here's your guts, 10^5 times 10^6 gives you 10^11 per gram. So again, you're just a walking incubator for a very complex microbial community. Here's the global abundance. You see that steeps of surface sediments and the marine environment, probably in terms of numbers at least, the most important microbial environments. Now, faced with this enormous abundance of prokaryotes out there, very important question is how many of them are out there? Or, how diverse our prokaryotes in the environment? That's important if you want to figure out their function and the environment, and want to understand also their evolution. And what I want to show you here is that we've gone through an amazing development in our understanding of prokaryotic diversity in the environment over the last 10 to 15 years or so. Who knows about E.

. Wilson here? Une personne? So, he wrote a very famous book on biodiversity, which was published in 1988, where he tried to summarize, really, how diverse the known organisms are on the planet it also try to extrapolate to the total diversity.

And what you see is that he came up with about 1.4 million different species here, mostly dominated by insects. That's the big section here on this pie chart. The plants: very important.

And if you look, the prokaryotes feature with about 3, 00 different species. So, in 1988 we thought there were very few prokaryotic species out there. If you look about 10 years into the future and take the assessment here, and this just exemplifies how the thinking has changed, you see that we think now that there is about 11 million different species out there, and that the vast majority of them are prokaryotic, OK, 10 million. So, this big part of the pie chart is really the prokaryotic diversity. Now, what really has changed is that we've actually started to use molecular techniques to determine the diversity of prokaryotes in the environment.

So molecular ecology is really the use of molecular gene sequences obtained directly from the environment -- -- to learn about the diversity prokaryotic -- -- diversity out there. Now, this slide just quickly summarizes this. Basically, the idea is that you go out into the environment and collect either water or soil samples that, as I just showed you, invariably contain a lot of different prokaryotic cells. You then lyse the cells and purify their DNA. And so that you end up with a mixture of DNA that represents the organisms out there, and then you can use universal PCR primers to actually amplify ribosomal RNA genes from all the organisms that are present in your samples.

Now, why can you use universal PCR primers? Well, they target the regions number A that I showed you before.

Those regions in the genes are invariant amongst all organisms.

You guys all remember how the PCR works, right? We cover this.

OK? Yes? Non? Who doesn't? You don't? All right, come to the board. Just kidding. OK, you should look it up. I don't have time to cover this, unfortunately, but basically it's a technique that allows you to amplify specific types of genes millions to billion fold. And once you have done this, what you can do is that you can purify the genes on gels, and then separate them by cloning them into individual plasmids. And those plasmids have been inserted into E. coli cells, and the E.

coli cells are then individually grown up so that each culture contains only a single plasmid, and you can then sequence these ribosomal DNAs or ribosomal RNA genes from those clones.

And so, you have obtained a library of the ribosomal RNA genes from the environment. So, we use environmental ribosomal RNA gene libraries from which we then can actually compare how many different types of genes are out there.

So let me show you an example of this. What we have done recently, we've gone out in one of the first really comprehensive samplings of coastal bacteria plankton, which means the bacteria that are present free living in ocean water. And so, we've done this, we've collected all those clones, and then basically we constructed those phylogenetic trees that I showed you before that really allow us see how many different types are out there, and how closely related they are to one another. And what we found is that in this environment that you think might be very simple because it just the water column right? No, not much structure in there.

We found over 1500 bacterial 16S ribosomal RNA sequences to occur, so an enormous diversity of prokaryotes of bacteria in that particular environment. And the important point is that when you actually look at a collection of such studies that I just showed you, what you find is that the vast majority of microorganisms in the environment have never been cultured. So traditionally what we do of course to learn about microorganisms when you grow E.

coli, or so, you throw them onto culture plates.

You make lots of different cells, and that allows you to study some of their properties. But when you look, for example, at results from the ocean, this summarizes now coastal and open ocean environments, again, the bacteria plankton is those free-floating bacterial cells in the water.

And you compare this to what we've actually been able to culture from those environments. What you see is that you have some dominant groups here. They have all funny names, most of them, because they're just clones and clone libraries.

But these are the dominant groups that show up in clone libraries.

Here's their relative representation in different clone libraries from a variety of environments. And so here you have one very important one, the SAR11 group, or this one, the SAR86, that always show up in clone libraries.

But we've never see them in culture, so the important point to realize here is that what is actually happening is that whenever we go out, we find a great diversity of bacteria out there, but we have no idea what they actually do.

And this is one of the big questions that we need to answer to understand, really, how the planet actually works. What are those uncultured microorganisms out in the environment really doing, and what is their importance? And we'll talk about this next time.

We're going to talk about environmental genomics because essentially what we can do now, is we have techniques available that allow us to isolate and least large fragments of the genomes, sequence those, and look at what kinds of genes they have present.

And that allows us, then, to infer some of their function in the biogeochemical cycles in the environment.

OK, so with this I'm going to close today unless you have any more questions.


Voir la vidéo: Analysis of Variance ANOVA (Juin 2022).


Commentaires:

  1. Vojin

    Remarquablement, la phrase très précieuse

  2. Bowyn

    Vous ne pouviez pas vous tromper?

  3. Meztilrajas

    Remarquablement, l'opinion très drôle

  4. JoJojora

    Félicitations, excellent message

  5. Shaiming

    Très bon message! Merci pour le travail que vous avez fait!



Écrire un message