Informations

Mesure de la distance génétique : $F_{ST}$ par rapport à la distance de Nei

Mesure de la distance génétique : $F_{ST}$ par rapport à la distance de Nei


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pour autant que je sache, la distance génétique de Nei est assez ancienne par rapport à $F_{ST}$. Cependant, j'ai récemment lu d'autres articles qui utilisaient la distance génétique de Nei avec $F_{ST}$. Comme je ne connais pas très bien Nei, quels sont ses avantages par rapport à $F_{ST}$ ?

La distance génétique de Nei souffre-t-elle d'un biais de détermination ?


Relation entre trois mesures de différenciation génétique gST, réest et g’ST: à quel point nous sommes-nous trompés ?

Tableau S1 Études incluses dans cette méta-analyse.

Veuillez noter : Wiley-Blackwell n'est pas responsable du contenu ou de la fonctionnalité de tout support fourni par les auteurs. Toute question (autre que le matériel manquant) doit être adressée à l'auteur correspondant à l'article.

Nom de fichier La description
MEC_4185_sm_TableS1.doc113 Ko Élément d'information à l'appui

Remarque : L'éditeur n'est pas responsable du contenu ou de la fonctionnalité des informations fournies par les auteurs. Toute question (autre que le contenu manquant) doit être adressée à l'auteur correspondant à l'article.


UN TEST SIMPLE SUR LE CONTENU D'INFORMATION SUR LA TAILLE DES ALLÈLES

Le test indique si la taille des allèles fournit des informations sur la différenciation de la population compte tenu d'un ensemble de données, c'est-à-dire si les changements de taille des allèles résultant de mutations par étapes contribuent à la différenciation de la population. La contribution des mutations de type pas à pas à la différenciation génétique nécessite (1) que le processus de mutation soit au moins partiellement de type SMM et (2) que le taux de mutation, , soit suffisamment important par rapport à l'effet de dérive et de migration (par exemple., m sinon, de nouvelles mutations se propagent rapidement au-delà de leur population d'origine par migration). Le tableau 2 présente les hypothèses nulles qui peuvent être testées, présentant une hypothèse nulle générale ainsi que des hypothèses nulles spécifiques tenant compte d'hypothèses antérieures particulières.

Le principe du test est basé sur l'obtention d'une distribution d'une statistique sous l'hypothèse nulle (H0) que les différences dans la taille des allèles ne contribuent pas à la différenciation des populations. Par conséquent, nous utilisons une procédure de randomisation selon laquelle les différentes tailles d'allèles observées à un locus pour un ensemble de données donné sont aléatoirement permutées parmi les états alléliques. Pour mieux comprendre la procédure, on peut dissocier l'état allélique, identifié, par exemple, par une lettre (ex., a, b, c, d, et e s'il y a cinq allèles différents), et la taille de l'allèle, identifiée par un nombre (par exemple., 4, 5, 7, 8 et 11, chacun représentant le nombre de répétitions de séquence), étant donné qu'il existe une correspondance biunivoque entre l'état allélique et la taille de l'allèle. Avant la randomisation, la taille de l'allèle attribuée à chaque état allélique est la taille réelle de l'allèle (par exemple, un, 4 b, 5 c, 7 , 8 et e, 11). Tout au long de la procédure de randomisation, les génotypes sont définis en termes d'états alléliques et ne sont pas modifiés, mais les tailles d'allèles sont réaffectées au hasard parmi les états alléliques (par exemple, un, 7 b, 4 c, 11 , 5 et e, 8). Après une telle randomisation, deux gènes quelconques ayant à l'origine la même taille d'allèle restent identiques, bien que cela puisse être pour une autre taille d'allèle, alors que deux gènes portant à l'origine des allèles différents de petite différence de taille peuvent porter des allèles de grande différence de taille, ou réciproquement. Par conséquent, les informations d'identité d'allèle sont conservées intactes, mais pas les informations de taille d'allèle. Sous l'hypothèse nulle (tableau 2, cas 1), la procédure de randomisation ne devrait pas affecter l'attente d'une mesure de différenciation telle que RST. Au contraire, si la taille des allèles contribue à la différenciation génétique, la RST calculé après permutation de la taille des allèles (ci-après appelé pRST) dépendrait uniquement de l'identité/non-identité de l'allèle et aurait donc une espérance plus petite que la valeur calculée avant la randomisation. Le test peut ainsi être conçu en comparant les RST valeur (avant randomisation) à la distribution de pRST valeurs obtenues pour toutes les configurations possibles de permutations de taille d'allèle (ou un sous-ensemble représentatif d'entre elles, car le nombre total de configurations différentes devient rapidement énorme lorsque le nombre d'allèles dépasse 7 ou 8). A partir de cette comparaison, une probabilité que l'hypothèse nulle soit vérifiée peut être estimée comme la proportion de pRST valeurs supérieures à celles observées RST (test unilatéral). Notez que la moyenne pRST devrait égaler dans l'attente le FST calculés sur les mêmes données (sans tenir compte des biais statistiques potentiels), comme cela sera confirmé plus tard.

Sur un même locus, un tel test ne peut être appliqué que si un nombre suffisant d'allèles différents (m) sont dans l'ensemble de données, car le nombre de configurations de permutation différentes est égal à m!. Ainsi, cinq allèles (120 configurations différentes) semblent être un minimum pour réaliser un tel test avec un critère de taux d'erreur de type I de 5 ou 1%. Sur un multilocus RST estimation, le test peut être effectué en permutant les tailles des allèles au sein de chaque locus. Il est à noter que le test ne fait aucune hypothèse sur le modèle de mutation : Un résultat significatif (RST significativement >pRST) suggère que les mutations ont contribué à la différenciation génétique (par exemple., parce que m dans un modèle d'île) et que le processus de mutation suit au moins partiellement une SMM (le test reste valable en cas d'écarts par rapport à la SMM). La neutralité par rapport à la sélection naturelle est cependant supposée. Lorsque le test est significatif, FST est susceptible de fournir une estimation biaisée des paramètres de flux de gènes, mais il ne peut pas être conclu a priori cette RST serait nécessairement plus performant étant donné sa plus grande variance (qui est encore plus prononcée lorsque des mutations de plus d'une étape peuvent se produire Z hivotovsky et F eldman 1995) et étant donné le biais qu'il peut subir lorsque le processus de mutation s'écarte des hypothèses du GSM (E bénitier et Angers 1998). Un résultat non significatif (RST pas significativement différent de pRST) suggérerait que la taille de l'allèle n'est pas informative pour la différenciation de la population, car le processus de mutation n'est pas de type étape par étape et/ou parce que les mutations n'ont pas contribué à la différenciation (par exemple., parce que m dans un modèle d'île). Dans ce cas, FST devrait sûrement être préféré à RST (même si cela ne garantirait pas que FST fournit une estimation correcte du flux de gènes étant donné les nombreuses autres sources de biais liées aux modèles de population W hitlock et M c C auley 1999).

Hypothèses testées par des permutations de taille d'allèle appliquées sur RST

Quelles hypothèses peuvent être testées et avec quelles statistiques ? Des simulations permettent de valider le test de permutation de taille d'allèle et d'évaluer sa puissance. Mais il faut d'abord insister sur ce qui peut être testé (tableau 2).

La randomisation des tailles d'allèles crée des répliques d'un ensemble de données pour un processus de mutation suivant un KAM (ou IAM) car, dans ce modèle, la taille des allèles n'est pas pertinente et les échanger revient à répliquer les processus de mutation passés menant à l'ensemble de données actuel mais avec d'autres au hasard. allèles choisis après chaque événement mutationnel. Par conséquent, une application possible de la procédure de randomisation de la taille des allèles consiste à tester si le processus de mutation suit un KAM (tableau 2, cas 3). À cette fin, la randomisation des tailles d'allèles peut être appliquée à n'importe quelle statistique basée sur la taille d'allèle, non seulement R-statistiques mais aussi diverses distances génétiques pour les modèles de mutation par étapes tels que (δμ) 2 (par exemple., Goldstein et al. 1995b Shriver et al. 1995), ou simplement sur la variance totale de la taille des allèles. Il est cependant déjà bien établi que la grande majorité des loci microsatellites ne sont pas conformes à un KAM, et la question intéressante sur le processus de mutation des microsatellites est plutôt de savoir comment il s'écarte d'un SMM idéal (E stoup et A ngers 1998). Par conséquent, l'utilisation de la procédure de permutation de taille d'allèle pour tester le KAM n'est pas discutée davantage.

Une deuxième application de la procédure de permutation de taille d'allèle, en supposant ici a priori que les mutations suivent au moins partiellement un processus de type SMM, est de tester si la mutation a contribué à la divergence de la population (tableau 2, cas 2). En d'autres termes, nous pouvons tester si le taux de migration (m) entre les populations, ou la réciproque du nombre de générations (t) depuis la divergence de la population, est important par rapport aux taux de mutation (μ⪡ m ou 1/t, respectivement Tableau 2, cas 2a et 2b). Le test de permutation de la taille des allèles est le plus intéressant pour répondre à cette question, car il existe suffisamment de preuves que la plupart des microsatellites suivent un processus de type SMM (par exemple., E llegren 2000 X u et al. 2000 Z hu et al. 2000 R enwick et al. 2001). Cependant, à cette fin, la permutation de la taille des allèles ne peut être appliquée à aucune statistique basée sur la taille des allèles : elle fonctionne bien sur R-les statistiques, qui sont des ratios des composantes de la variance de la taille des allèles, mais pas sur les distances génétiques telles que le G oldstein et al. (1995a) (δμ) 2 statistique, qui est une composante inter-populations de la variance de la taille des allèles. La raison en est que les permutations aléatoires de tailles d'allèles suppriment non seulement la covariance intra-population entre les tailles d'allèles pour différents allèles, mais modifient également la variance de taille d'allèle sous SMM ou GSM, car la distribution de fréquence attendue des tailles d'allèles n'est pas uniforme (D onnelly 1999). Les statistiques exprimant une composante de la variance de la taille des allèles, telle que la statistique (δμ) 2 , seront toujours affectées par un changement de la variance de la taille des allèles, que les mutations aient ou non contribué à la différenciation. Au contraire, les statistiques basées sur un ratio de composantes de la variance, telles que RST, ne sera pas affecté si les composantes de la variance intra- et inter-populations sont multipliées par des facteurs ayant les mêmes attentes. Les simulations présentées ci-après montrent que c'est ce qui se produit lorsqu'il n'y a pas de covariance intra-population entre les tailles d'allèles pour différents allèles (c'est à dire., différenciation due à la dérive et non aux mutations pas à pas).

Pour montrer que le test de permutation de taille d'allèle est adéquat pour le RST statistique mais pas la statistique (δμ) 2 lors du test m μ ou 1/t ⪢ μ (sous le a priori l'hypothèse que le processus de mutation est similaire au tableau 2, cas 2), nous avons simulé une population d'accouplements aléatoires d'individus diploïdes (taille de la population N = 1000 individus) à l'équilibre mutation-dérive (μ= 0,001) sous le SMM. Le test de permutation de la taille des allèles (1000 randomisations) a ensuite été appliqué sur RST et (δμ) 2 calculé entre deux échantillons indépendants (taille de l'échantillon m = 100 individus) de cette population pour chacun des 200 loci simulés (les deux échantillons représentent donc des sous-populations indifférenciées). Les programmes informatiques utilisés pour les simulations et les calculs sont décrits ci-dessous. Nous rapportons le pourcentage de loci pour lesquels les tests étaient significatifs (%RHo) selon le critère de taux d'erreur de type I (α, la probabilité de rejeter l'hypothèse nulle lorsqu'elle est vraie). Parce que l'hypothèse nulle à tester (1/t ⪢μ) est satisfait par des simulations, une procédure de test valide doit garantir que %RHo =α sinon cela signifie que la procédure n'est pas adéquate pour tester cette hypothèse nulle. La figure 1 montre que la procédure de test de randomisation de la taille des allèles est en effet valide lorsqu'elle est appliquée sur RST mais pas sur (δμ) 2 .

Puissance du test sous SMM : Pour étudier la puissance du test lors du test si des mutations ont contribué à la différenciation des populations sous le SMM (tableau 2, cas 2), nous avons vérifié la procédure sur des ensembles de données artificielles avec des tailles d'échantillons réalistes dérivées de simulations Monte Carlo de populations constituées d'hermaphrodites diploïdes. Trois ensembles de situations démographiques ont été simulés : (1) un modèle insulaire à l'équilibre dérive-migration-mutation, (2) un modèle de deux populations isolées ayant divergé d'une population ancestrale commune à l'équilibre mutation-dérive, et (3) un modèle linéaire modèle de tremplin (flux de gènes restreint aux populations adjacentes) à l'équilibre dérive-migration-mutation. Le modèle insulaire était composé de 10 populations, composées de 100 individus chacune, et de nouvelles générations ont été obtenues en tirant des gènes au hasard dans la population avec une probabilité de 1 - m ou des autres populations avec probabilité m. Le modèle de population isolée était composé de deux populations d'accouplement aléatoire, composées de 500 individus chacune, et ayant divergé pendant t générations. Le modèle de tremplin était composé de 30 populations alignées, composées de 50 individus chacune, et de nouvelles générations ont été obtenues en tirant des gènes au hasard dans la population avec une probabilité de 1 - m ou des deux populations adjacentes avec probabilité m.

—Contrôle de la validité du test de permutation de taille d'allèle lorsqu'il est appliqué sur RST (□) ou (δμ) 2 (▵) statistiques calculées entre deux échantillons d'une population à l'équilibre mutation-dérive sous le SMM. Le pourcentage de loci avec l'hypothèse nulle rejetée (%RHo) est affiché en fonction du critère de taux d'erreur de type I (α), et la ligne pointillée montre la relation %RHo =α attendue sous l'hypothèse nulle pour une procédure de test valide . L'hypothèse nulle d'intérêt est de savoir si le taux de mutation est négligeable, étant donné que le processus de mutation est de type pas à pas (tableau 2, cas 2). Les résultats montrent que la procédure de permutation de taille d'allèle appliquée sur (δμ) 2 n'est pas adaptée pour tester cette hypothèse.

Les paramètres génétiques simulés étaient les suivants : Au stade initial toutes les populations étaient fixées pour un allèle 10 loci ont été simulés avec des mutations suivant un SMM et = 10 -3 à tous les loci sans contraintes de taille. Les simulations ont été exécutées pendant une durée suffisante pour atteindre un état stable pour les paramètres de diversité génétique totale et intra-population, puis un échantillon d'individus représentatifs d'études expérimentales courantes a été extrait et analysé. Pour obtenir des estimations précises, 200 répétitions ont été exécutées pour chaque ensemble de conditions. Les simulations ont été réalisées à l'aide du logiciel EASYPOP ver. 1.7.4 (Balloux 2001). Tests de permutation de la taille des allèles (avec 1000 randomisations) et calculs de FST et RST sur les échantillons extraits ont été réalisés avec le programme SPAGEDi (H ardy et V ekemans 2002). Locus unique et multilocus FST et RST ont été estimées d'après W eir et Cockerham (1984) et Michalakis et E xcoffier (1996), respectivement. Il faut noter que ce RST (un estimateur du paramètre appelé ρST par Rousset 1996) diffère quelque peu de la définition originale de S latkin (1995) (M ichalakis et E xcoffier 1996) mais convient mieux à la comparaison avec la FST estimateur de W eir et C ockerham (1984) (appelé θ par ces auteurs) et pour les estimations de paramètres démographiques (R ousset 1996). Ces deux FST et RST les estimateurs procèdent par une ANOVA hiérarchique standard où la variance observée (σ 2 ) de l'identité allélique par locus et par allèle (FST), ou la variance de la taille des allèles par locus (RST), est divisé en trois composantes (effets aléatoires) : parmi les populations ( a 2 ) , parmi les individus au sein de la population ( σ b 2 ) , et entre les gènes au sein de l'individu au sein de la population ( σ c 2 ) . FST et RST sont alors estimés comme σ a 2 ∕ ( σ a 2 + σ b 2 + σ c 2 ) (single-locus RST) ou Σ σ a 2 ∕ Σ ( σ a 2 + σ b 2 + σ c 2 ) , où les sommations s'appliquent à tous les loci (multilocus RST), tous les allèles d'un locus (single-locus FST), ou tous les allèles et loci (multilocus FST Excoffier 2001).

Pour le modèle insulaire, les simulations ont été effectuées sur 5000 générations avec des taux de migration parmi les populations variant de 10 -4 à 10 -1 (c'est à dire., m = 0,1-100μ) selon les courses. Global RST, FST, et pRST (pour 1000 randomisations) ont été calculés sur un échantillon total de 300 individus (30 individus de chaque population). Pour le modèle des populations isolées, une seule population de 1 000 individus a été simulée pendant 5 000 générations, puis elle a été divisée en deux sous-populations isolées de 500 individus qui ont été exécutées pendant 30 à 10 000 générations supplémentaires (c'est à dire., 1/t = 0,1-33μ). RST, FST, et pRST (pour 1000 randomisations) ont été calculés sur un échantillon total de 100 individus (50 individus de chaque sous-population). Pour le modèle de tremplin, 10 000 générations ont été simulées avec un taux de migration de 0,1 (0,05 entre deux populations adjacentes). Les analyses ont été effectuées sur un échantillon de 20 individus de chacune des 30 populations (taille totale de l'échantillon de 600 individus). Par paire FST/(1 - FST) et RST/(1 - RST) ont été calculés pour chaque paire de populations, et ces valeurs ont été moyennées sur toutes les paires séparées par 1, 2, 3. 20 étapes (20 classes de distance). Des tests de permutation de taille d'allèle ont été appliqués en moyenne par paire RST/(1 - RST) ratios par classe de distance à fournir pRST/(1 - pRST) valeurs par classe de distance (1000 permutations). Ici, par paire FST/(1 - FST) et RST/(1 - RST) ont été calculés parce que la théorie prédit une relation linéaire approximative avec la distance linéaire entre les populations dans les modèles d'isolement par distance unidimensionnels (R ousset 1997).

La validité de certains des résultats de simulation pourrait être vérifiée en les comparant aux attentes théoriques. Par exemple, après 5000 générations de simulation d'une seule population de N = 1000 individus (pour le modèle de population isolée), l'hétérozygotie moyenne et la variance moyenne de la taille de l'allèle étaient égales à He = 0,68 et V = 1,96, respectivement, avec un nombre moyen d'allèles par locus de 5,8 (intervalle, 3-11 allèles).Ces valeurs sont proches de leurs attentes à l'équilibre mutation-dérive (E stoup et C ornuet 1999) : Sous strict SMM, He = 1 - (1 + 8N) -0,5 = 0,67 et V = 2Nμ= 2. Dans le modèle insulaire avec 10 populations de 100 individus chacune ( = 10, N = 100), moyenne RST les valeurs étaient égales à 0,019, 0,197, 0,677 et 0,924 pour m = 10 -1 , 10 -2 , 10 -3 et 10 -4 , respectivement (Figure 2A), en accord avec les valeurs attendues approximativement égales à 1/(1 + 4Nm d/( - 1)) = 0,022, 0,184, 0,692 et 0,957, respectivement (Rousset 1996). Dans le modèle des populations isolées (N = 500), temps de divergence t peut être estimé à partir de la relation RST/(1 - RST) = t/2N (S latkin 1995 Rousset 1996), donnant des estimations de t = 97, 1132 et 11 301 pour les valeurs réelles de 100, 1000 et 10 000 générations, respectivement. Enfin, dans le modèle linéaire de tremplin (N = 50, m = 0,1), par paire RST/(1 - RST) les valeurs augmentaient linéairement avec la distance entre les populations (figure 2C), donnant une pente de régression égale à 0,054, en accord avec la valeur approximative attendue 1/(4Nm) = 0,050 pour le modèle linéaire en tremplin (R ousset 1997).

Les résultats de toutes les simulations confirment que la moyenne pRST valeurs (c'est à dire., valeur moyenne calculée après permutations aléatoires de la taille de l'allèle) sont très proches, bien que pas exactement égales, à la FST valeurs (figure 2). Par exemple, dans le modèle insulaire, la moyenne et l'écart type de la différence entre FST et signifie pRST les valeurs par locus étaient égales à 0,003 ± 0,007, 0,008 ± 0,012 et 0,010 ± 0,110 pour m = 10 -2 , 10 -3 et 10 -4 , respectivement. Par conséquent, signifie pRST les valeurs étaient en moyenne légèrement inférieures à FST valeurs bien que, pour un locus donné, la différence entre les deux puisse être assez importante, surtout sous des taux de migration très faibles. Pour les autres simulations, moyenne pRST les valeurs étaient généralement légèrement supérieures à FST (Figure 2, B et C). Nous avons également observé que l'écart entre FST et signifie pRST était beaucoup plus faible pour les estimations multilocus que pour les estimations monolocus.

Comme prévu, RST les valeurs sont similaires à FST valeurs à chaque fois m ⪢μ= 0,001 (modèle îlot), 1/t ⪢μ (modèle de populations divergentes), ou les populations sont proches (modèle de tremplin avec m ). Au contraire, RST devient considérablement plus grand que FST lorsque m (modèle îlot), 1/t ≤μ (modèle de populations divergentes), ou lorsque les populations sont séparées par plus de cinq étapes (modèle de tremplin Figure 2).

Pour évaluer la puissance du test de permutation de taille d'allèle, nous présentons sur la figure 2 (graphiques à droite) le pourcentage de tests statistiquement significatifs (%RHo) parmi 200 réplicats de simulation (en utilisant α=5%) selon (1) la migration taux m (modèle insulaire), (2) le temps de divergence t en nombre de générations depuis l'isolement (modèle isolé à deux populations), et (3) la distance en nombre d'étapes entre les populations (modèle tremplin). Ceci est fait pour les tests appliqués à chaque locus ainsi qu'à une estimation multilocus basée sur 10 loci.

—Résultats de la simulation pour (1) un modèle insulaire avec taux de migration m (A), (2) un modèle à deux populations isolé pour t générations (B) et (3) un modèle de tremplin linéaire de 30 populations (C). Les graphiques sur la gauche montrent RST (□), FST (○), et signifie pRST (⋄) valeurs (estimations multilocus moyennes basées sur 10 loci et 200 répétitions) selon m (UNE), t (B), ou le nombre d'échelons séparant les populations (C). En C, moyenné par paire RST/(1 - RST), FST/(1 - FST) et signifie pRST/(1 - pRST) les rapports sur toutes les paires séparées par un nombre donné d'étapes sont représentés. Les graphiques de droite illustrent la puissance des tests de permutation de taille d'allèle en donnant les pourcentages de tests significatifs (%RHo) sur RST estimations [ou moyenne par paire RST/(1 - RST) ratios] basés sur un seul locus (×) ou 10 loci (▵) (c'est à dire., estimation multilocus) et en considérant un critère de taux d'erreur de type I α de 5% (ligne pointillée). Les symboles (× et ) sur les axes horizontaux des graphiques A et B indiquent les valeurs auxquelles les erreurs quadratiques moyennes de FST et RST sont à peu près égaux.

Dans le modèle insulaire, %RHo s'approche de α pour des taux de migration relativement élevés (c'est à dire., m = 10 -1 -10 -2 = 10-100μ), conformément à notre a priori l'attente que nous ne devrions pas détecter un effet significatif lorsque m (Figure 2A). Au contraire, pour des taux de migration plus faibles, la mutation n'est plus négligeable par rapport à la migration et la proportion de tests significatifs augmente au-dessus de α, atteignant 88 et 100 % lorsque m = 10 -4 (m = 0,1μ) pour les tests sur un seul locus ou 10 loci, respectivement (figure 2A). Les tests basés sur 10 loci semblent en fait assez puissants pour des tailles d'échantillons typiques rencontrées dans les études expérimentales (300 individus ici), car 100% des tests étaient significatifs lorsque m =μ et déjà 24% quand m = 10μ. Les résultats des deux modèles de population isolés sont très similaires à ceux du modèle insulaire si m est remplacé par 1/t (Figure 2B). Ici, cependant, les tests semblent moins puissants que dans le modèle d'île simulée (par exemple., pour 10 loci, %RHo > 50% quand 1/t ≤μ dans le modèle de population isolée, et m ≤ 0,3μ dans le modèle insulaire), ce qui est probablement dû à la plus petite taille de l'échantillon (100 vs. 300 individus) et le plus faible nombre de populations échantillonnées (2 vs. dix). B alloux et G oudet (2002) ont en effet montré que la variance de RST augmente considérablement avec moins de populations échantillonnées. Dans le modèle de tremplin, le % RHo augmente avec la distance séparant les populations, mais atteint un plateau au-delà de huit étapes à ∼ 60 % pour les estimations basées sur 10 loci et seulement 20 % pour les estimations à locus unique (figure 2C). Étonnamment, %RHo est déjà significativement plus grand que α pour des populations séparées par un seul pas et échangeant des migrants à un taux élevé (m/2 = 0,05) par rapport au taux de mutation (μ= 0,001).

Utilité du test pour déterminer les statistiques les plus appropriées : Pour vérifier si le test fournit une ligne directrice adéquate pour choisir entre RST et FST lors de l'évaluation de la différenciation des populations, les erreurs quadratiques moyennes (EQM) de FST et RST ont été calculés. L'EQM est une mesure synthétique de l'efficacité d'un estimateur combinant biais et variance (EQM = biais 2 + variance). Il a déjà été utilisé pour comparer l'efficacité de FST et RST estimateurs (B alloux et G oudet 2002) ou estimations de flux génétiques basées sur FST ou RST (G aggotti et al. 1999). Les MSE ont été calculées comme Σ(je - e) 2 /m, où je est le FST ou RST estimation de la jee réplique, m est le nombre de répétitions (m = 200), et e est la valeur attendue compte tenu des paramètres démographiques. La valeur attendue est e = 1/(1 + 4Nmd/( - 1)) dans le cas du modèle en îlot (avec N = 100 et = 10), et e = t/(2N + t) dans le cas du modèle de population isolée (avec N = 500). Ce sont les valeurs attendues pour RST sous SMM et pour FST sous IAM (ou KAM) et un faible taux de mutation (S latkin 1995 R ousset 1996). Noter que e n'est pas l'attendu FST dans les conditions des simulations (SMM et relativement élevés), mais seulement une bonne approximation lorsque la mutation peut être négligée.

Pour le modèle insulaire et μ= 0,001 (SMM), avec un taux de migration variant de 0,0001 à 0,1, le rapport MSE(RST)/MSE(FST) variaient respectivement de 0,06 à 2,1 pour les estimations monolocus et de 0,02 à 2,3 pour les estimations multilocus basées sur 10 loci. Le taux de migration auquel MSE(RST) = MSE(FST) était entre m = 0,001 et 0,002 pour les estimations à locus unique et entre m = 0,003 et 0,005 pour les estimations multilocus. Comme on peut le voir sur la figure 2A, ces limites de taux de migration sous lesquelles RST fonctionne mieux que FST, et au-dessus duquel l'inverse se produit, correspondent étroitement au taux de migration sous lequel le test de permutation de taille d'allèle devient souvent significatif (c'est à dire., %RHo 30 %). Le même schéma est observé pour le modèle de populations isolées : pour t variant de 30 à 10 000 générations, MSE(RST)/MSE(FST) variait de 2,37 à 0,41 et de 4,00 à 0,01 pour les estimations monolocus et multilocus, respectivement, et MSE(RST) = MSE(FST) pour t = 2000 (c'est à dire., 2/μ) et t = 500 (c'est à dire., 0,5/μ) pour les estimations monolocus et multilocus, respectivement. Par conséquent, le test devient fréquemment significatif lorsque MSE(RST) est proche de MSE(FST) (Figure 2B).

Ces résultats suggèrent fortement que le test de permutation de taille d'allèle est bien adapté pour déterminer lequel des FST ou RST est le plus adéquat pour les inférences de paramètres démographiques, au moins sur la base du critère de MSE le plus bas. Cependant, il faut souligner que la statistique avec l'EQM la plus faible n'est pas nécessairement la statistique qui fournira l'EQM la plus faible dans l'estimation démographique, car les estimations démographiques ne sont généralement pas des fonctions linéaires de FST ou RST. Par exemple, dans le modèle de population isolée, le = t/N estimations qui peuvent être dérivées en utilisant τF = 2FST/(1 - FST) etR = 2RST/(1 - RST) donner MSE(τR) > MSE(τF) pour tous les temps de divergence simulés avec des estimations à un seul locus [τF peut également être estimé comme -ln(1 - FST) (R eynolds et al. 1983), mais cela conduit essentiellement aux mêmes résultats]. Cela se produit parce que chaque fois FST ou RST approche 1, le inféré prend rapidement des valeurs énormes, de sorte que l'impact de la plus grande variance de RST relatif à FST est grandement amplifié dans le τ inféré, bien que τR est beaucoup moins biaisé que τF pour τ≥ 1. La bonne nouvelle est que pour les estimations multilocus nous avons obtenu MSE(τR) = EQM(τF) pour t = 500 et MSE(τR) < MSE(τF) pour t > 500, comme précédemment trouvé pour MSE(RST) = MSE(FST). De même, pour le modèle insulaire, où Nm peut être estimé comme NmF = (1/FST - 1)/4 et NmR = (1/RST - 1)/4, le m valeurs correspondant à MSE(NmF) = MSE(NmR) étaient exactement égales à celles obtenues pour MSE(RST) = MSE(FST) pour les estimations à un seul et à plusieurs locus. Ainsi, l'utilité du test de permutation de taille d'allèle pour déterminer lequel des FST ou RST est la plus appropriée à des fins d'inférence semble être assez générale, sauf probablement avec une faible taille d'échantillon et/ou un faible nombre de loci, lorsque les inférences sont de toute façon douteuses parce que les variances associées sont trop grandes.

Exemples d'applications : Pour illustrer l'utilité et la puissance du test de permutation de la taille des allèles avec des données réelles, nous présentons trois exemples d'ensembles de données publiés que nous avons réanalysés. Ces données ont été recueillies pour évaluer la différenciation des populations et vérifier l'isolement par distance dans trois organismes différents. Nous avons calculé global ou par paires FST et RST statistiques comme décrit ci-dessus et appliqué les tests de permutation de taille d'allèle pour obtenir pRST valeurs. Ces analyses ont été réalisées avec SPGeDi.

Biomphalaria pfeifferi, un escargot récemment introduit à Madagascar : Biomphalaria pfeifferi, hôte intermédiaire d'un trématode parasite responsable de la bilharziose intestinale, est un escargot hermaphrodite d'eau douce réparti sur la majeure partie de l'Afrique, du Moyen-Orient et de Madagascar. Madagascar a été relativement récemment envahi par cet escargot, probablement à la suite de l'occupation humaine il y a quelques centaines d'années (C harbonnel et al. 2002a). De plus, selon une étude à grande échelle de la variation des microsatellites à travers Madagascar, des tests de goulot d'étranglement (C ornuet et L uikart 1996) et de mélange (B ertolle et E xcoffier 1998) suggèrent qu'au moins trois introductions indépendantes de sources génétiquement différenciées ont eu lieu (C harbonnel et al. 2002a). Une étude à petite échelle de la variation des microsatellites révèle également que les populations ont connu des goulots d'étranglement récurrents et que la migration a été fréquente au sein des bassins versants mais rare parmi eux (C harbonnel et al. 2002b). Cette dynamique de population et le taux d'autofécondation élevé de cet escargot expliquent la forte différenciation génétique entre les populations observée à Madagascar : FST = 0,80 et 0,58 pour les échelles large et petite, respectivement (C harbonnel et al. 2002a,b).

Dans ce contexte particulier, on peut formuler une hypothèse sur le contenu informationnel que pourraient porter les tailles des allèles des microsatellites. Compte tenu des introductions récentes postulées de cet escargot à Madagascar, nous pensons que la mutation n'a pas contribué à la différenciation entre les populations provenant de la même introduction mais a contribué à la différenciation entre les populations provenant d'introductions différentes (au moins si les populations sources avaient divergé sur suffisamment de temps ). Les lieux et le moment des introductions ne sont pas connus, mais les populations d'un même bassin versant sont susceptibles de provenir d'une seule introduction ou, si des génotypes provenant de différentes introductions se sont mélangés dans un bassin versant, la migration à l'intérieur du bassin versant a probablement empêché l'accumulation d'un modèle phylogéographique à cette échelle. Par conséquent, nous pouvons nous attendre RST être proche de FST pour des populations appartenant au même bassin versant et significativement plus grandes que FST pour les populations de différents bassins versants lorsque ces derniers ont été colonisés à l'origine par des individus issus d'introductions indépendantes.

Différenciation entre les populations de Biomphalaria pfeifferi à différentes échelles

Pour tester cette hypothèse, nous avons réanalysé les données des études à petite et à grande échelle de Charbonnel et al. (2002a,b). Global RST et FST valeurs ainsi que par paire RST et FST les valeurs entre les populations ont été calculées. En distinguant les paires de populations à l'intérieur ou entre les bassins hydrographiques, les valeurs par paires ont été régressées sur les distances spatiales (des tests de Mantel ont été utilisés pour évaluer la signification des pentes de régression) et les valeurs moyennes par paires ont été calculées pour un ensemble de classes de distance (définies de telle manière que chacun contenait ∼33 paires de populations). Un millier de permutations aléatoires des tailles d'allèles ont fourni une distribution de pRST valeurs, intervalles de confiance à 95 % couvrant le 25e au 975e valeurs ordonnées, et P valeurs testant si RST > pRST.

Multilocus RST les valeurs sont nettement supérieures à la moyenne pRST à grande échelle mais pas à une échelle locale (tableau 3). Appliqués à chaque locus, ces tests étaient également significatifs pour quatre des huit loci à grande échelle mais pour aucun à l'échelle locale.

L'analyse du multilocus par paires moyen FST et RST valeurs par classe de distance à grande échelle montre ce qui suit (Figure 3) :

La différenciation entre les populations occupant le même bassin versant est beaucoup plus faible qu'entre les populations de différents bassins versants, même pour des populations séparées par la même distance spatiale. Ceci est en accord avec le taux de migration plus élevé détecté dans les bassins versants que parmi eux (C harbonnel 2002b).

Un modèle d'isolement par la distance est détecté dans les bassins versants pour les deux FST et RST (Tests du manteau : P = 0,007 et 0,021, respectivement). Parmi les bassins versants, un tel modèle n'est pas détecté pour FST mais c'est pour RST (Tests du manteau : P = 0,18 et 0,002, respectivement).

Au sein des bassins versants, RSTne sont pas significativement plus élevés que pRST’s, alors que parmi les bassins versants, RSTsont nettement plus élevés que pRSTest pour tous les cours à distance sauf le premier.

Moyenne par paire pRST les valeurs sont toujours légèrement inférieures à celles par paires FST valeurs, mais ils suivent de près leur modèle de variation avec la distance spatiale.

En conclusion, à l'échelle locale, RST les valeurs sont proches de FST valeurs, et les tests de permutation de la taille des allèles ne révèlent aucune contribution significative des mutations progressives à la différenciation des populations. Au contraire, à grande échelle, RST les valeurs sont sensiblement plus élevées que FST les valeurs et les tests de permutation de la taille des allèles démontrent que les changements dans les tailles moyennes des allèles contribuent de manière significative à la différenciation des populations. Des tests importants sur RST des valeurs sont attendues si les populations ont divergé depuis suffisamment longtemps et/ou si les populations ont échangé des migrants à un taux similaire ou inférieur au taux de mutation. Les résultats sont donc très cohérents avec a priori attentes étant donné que (1) à grande échelle, ces deux conditions sont probablement remplies car les populations éloignées les unes des autres à Madagascar sont probablement issues d'introductions relativement récentes et indépendantes de populations continentales sources isolées depuis longtemps, et le taux de migration est faible entre les bassins versants, et (2) à l'échelle locale, en particulier au sein des bassins versants, aucune de ces conditions n'est susceptible d'être remplie.

—Moyenne par paire FST (○ et •), RST (□ et ▪), et moyenne pRST (⋄ et ♦) valeurs parmi les populations de Biomphalaria pfeifferi à travers Madagascar pour un ensemble de classes de distance, en distinguant les comparaisons entre les populations au sein des bassins versants (•, ▪, ♦) et entre les bassins versants (○, □, ⋄). Les lignes pointillées représentent la plage des 95 % de l'ordre central pRST valeurs (c'est à dire., après randomisation de la taille des allèles). Chaque classe de distance contient 32-35 paires de populations.

Fraxinus excelsior, un arbre européen répandu : Fraxinus excelsior (Oléacées, frêne commun) est une espèce d'arbre européenne largement pollinisée par le vent que l'on trouve principalement dans les plaines inondables et avec une distribution dispersée dans les forêts naturelles. La distribution des haplotypes d'ADN chloroplastique (ADNcp) à travers l'Europe suggère que F. excelsior était situé dans au moins trois refuges différents au cours de la dernière période glaciaire, un refuge putatif étant la région des Balkans (G. G. V endramin, données non publiées). H euertz et al. (2001) ont analysé le polymorphisme des microsatellites dans 10 populations bulgares (région des Balkans) de trois régions (321 individus). Les populations étaient séparées de 0,5 à 22 km à l'intérieur des régions et de 120 à 300 km entre les régions.

En l'absence de preuve de divergence à long terme entre les populations bulgares (aucune preuve de refuges différents), et étant donné que le flux de gènes devrait être relativement étendu chez une espèce pollinisée par le vent, nous pouvons nous attendre à ce que les mutations de type pas à pas n'aient pas contribué de manière significative à différenciation démographique en Bulgarie. Le jeu de données de Heuertz et al. (2001) a ainsi été réanalysé pour comparer les moyennes par paires FST et RST valeurs entre les populations, en distinguant les paires au sein et entre les régions bulgares, et en testant RST valeurs par permutations de taille d'allèle (1000 randomisations).

Les estimations multilocus moyennes par paires étaient égales à FST = 0.074, RST = 0,091 au sein des régions et FST = 0.097, RST = 0,180 parmi les régions (Figure 4). Ainsi, alors que la différenciation augmente légèrement de la petite à la grande échelle géographique selon les FST, il double presque selon RST. De plus, la moyenne par paire RST est beaucoup plus grand que FST entre les régions, mais à peine plus FST au sein des régions. Au sein des régions, observé RSTsont toujours dans la plage de 95 % de la valeur centrale pRST, mais parmi les régions, le multilocus RST l'estimation ainsi que l'estimation pour le locus FEM19 est plus grande que la plage de 95% de pRST (Figure 4), démontrant que des mutations par étapes ont contribué à la différenciation de la population à grande échelle géographique pour au moins un locus.

Plusieurs causes peuvent expliquer l'effet significatif de la taille des allèles sur la différenciation de la population entre les régions de Bulgarie, par exemple :

Le motif peut refléter l'isolement par la distance. Cependant, il semble peu probable que le taux de migration entre les régions soit faible par rapport au taux de mutation étant donné que le pollen est dispersé par le vent.

Le modèle peut être dû à la recolonisation postglaciaire à partir de différents refuges. Il n'y a, cependant, aucune preuve de refuges différents de l'ADN cytoplasmique hérité de la mère car le même haplotype unique se produit dans les trois régions (M. Heuertz, données non publiées).

Le modèle peut refléter l'introduction humaine de Fraxinus à partir de régions éloignées.

Le motif peut refléter l'hybridation se produisant localement entre F. excelsior et une espèce apparentée comme F. angustifolia ou F. pallisiae. Étant donné qu'un total de quatre espèces de frênes (les trois et F. ornus) se trouvent en Bulgarie et que différentes espèces sont présentes dans les mêmes forêts (M. H euertz , observation personnelle), cette dernière hypothèse mérite d'être approfondie. Dans tous les cas, l'observation qu'un effet significatif des mutations de type stepwise est observé à grande échelle mais pas à petite échelle reste très cohérente avec a priori attentes, car les populations voisines devraient échanger des gènes à un taux relativement élevé.

—Moyenne par paire RST, moyenne pRST, et FST valeurs entre les populations bulgares de Fraxinus excelsior pour les populations appartenant à la même région (A) ou à des régions différentes (B). Des valeurs sont données pour chaque locus et les estimations multilocus. Barres de pRST indiquer la moyenne pRST valeurs supérieures à 1000 permutations de taille d'allèle, et les intervalles correspondants donnent la plage de 95 % des valeurs centrales pRST valeurs.

Centaurea corymbosa, une plante herbacée rare et à répartition étroite : Centaurea corymbosa (Asteraceae) est une espèce herbacée vivace à vie courte répartie sur une aire de répartition très étroite (dans une zone de 3 km 2 d'un massif calcaire le long de la côte méditerranéenne française), où elle n'est présente que dans six petites populations (Colas et al. 1997). Il s'est spécialisé dans un habitat extrême : le sommet de falaises calcaires où peu d'autres espèces végétales survivent. Sur un terrain plus fertile, C. corymbosa est dépassé, de sorte que l'habitat convenable est très fragmenté, apparaissant comme de petites îles dispersées dans le paysage. Étant donné que l'espèce n'occupe qu'une petite fraction de ces « îles » (l'ensemble du massif s'étend sur 50 km 2 ), la capacité de colonisation doit être très limitée, probablement en raison de la capacité limitée de dispersion des graines et du système d'auto-incompatibilité qui empêche une nouveau venu potentiel de fonder par lui-même une nouvelle population (Colas et al. 1997 F réville et al. 2001). Modèles d'isozyme (Colas et al. 1997) et microsatellite (F réville et al. 2001) montrent des niveaux élevés de différenciation entre les populations, avec FST = 0,35 et 0,23, respectivement, malgré l'aire de répartition étroite de l'espèce (2,3 km entre les deux populations les plus éloignées). Une différenciation élevée à une si petite échelle ne peut pas être attribuée au système d'accouplement car l'espèce est auto-incompatible. Cela résulte très probablement de la petite taille des populations et du faible flux génétique entre les populations. Cela pourrait aussi être une conséquence de goulots d'étranglement plus ou moins récurrents lors de la création de nouvelles populations (même si le renouvellement devrait être relativement lent, étant donné qu'aucune extinction ou fondation de population n'a été observée depuis 1994, lorsque C. corymbosa les populations ont commencé à être étudiées de près et les données de l'herbier montrent que cinq des six populations étaient connues il y a plus de 100 ans).

Dans ce contexte, il est intéressant de se demander si le flux de gènes entre les populations est suffisamment faible pour permettre une divergence par mutations. Le plus élevé observé FST valeur aux loci des allozymes qu'aux loci des microsatellites pourrait en effet être causée par des taux de mutation élevés des microsatellites, à condition que μ≥ m. F réville et al. (2001) ont souligné que cette hypothèse était également étayée par le fait que FST les valeurs des deux loci microsatellites les plus polymorphes (12B1 et 21D9, tableau 4), ceux susceptibles d'avoir les taux de mutation les plus élevés, étaient inférieures à celles des deux loci avec des niveaux intermédiaires de polymorphisme (13D10 et 28A7, tableau 4).

La procédure de randomisation de la taille des allèles est adéquate pour répondre à cette question. Par conséquent, mondiale RST, pRST, et FST ont été calculés pour les loci des microsatellites comme décrit ci-dessus, et RST a été comparée à la distribution de 1000 pRST valeurs. Les tests de permutation n'ont détecté aucun RST valeur significativement >pRST (Tableau 4). Cela suggère donc que la différenciation est causée principalement par la dérive et que le flux de gènes, m, et/ou l'inverse du temps de divergence, 1/t, sont grandes par rapport au taux de mutation, . Ce résultat implique également que FST devrait être un meilleur estimateur que RST de différenciation des populations pour cette espèce. En effet, compte tenu de la petite taille des populations (Colas et al. 1997, 2001), la dérive devrait être élevée. Par exemple, si les populations avaient des tailles effectives de ∼100 individus (il y a en fait beaucoup de variance entre les populations) et se conformaient à un modèle insulaire (il y a en fait des effets d'isolement par distance), une valeur de m = 0,006 expliquerait le FST, une valeur supérieure aux taux de mutation typiques des microsatellites (10 -3 -10 -4 ). En supposant que ces populations soient en place depuis suffisamment longtemps pour permettre potentiellement la différenciation par mutations (changement de la taille des allèles), l'absence d'une telle différenciation induite par les mutations suggère également que le taux de migration est supérieur au taux de mutation, de sorte que les nouvelles mutations variantes réparties sur toutes les populations.

Différenciation entre les populations de Centaurée corymbosa, estimé par global RST, moyenne pRST, et FST valeurs par locus et pour une moyenne multilocus

Des tests non significatifs pourraient également être dus à un manque de puissance, le test doit donc être appliqué à des loci microsatellites supplémentaires pour confirmer ces résultats (actuellement, seuls quatre loci sur six avaient un nombre suffisant d'allèles pour effectuer des tests de permutation). Un écart par rapport à un SMM à certains loci pourrait également réduire la puissance du test. Par exemple, le locus dinucléotidique 28A7 a six allèles avec des tailles suivant une séquence d'une étape de répétition plus un allèle d'au moins six répétitions plus petites que les autres. Bien que ce modèle ne soit pas nécessairement incompatible avec un SMM pur (par exemple., Donnelly 1999), cela pourrait suggérer qu'une mutation de grand effet a créé l'allèle outsider.


Matériaux et méthodes

Etude de simulation

Génération de génotypes individuels :

Nous avons d'abord généré des génotypes individuels à l'aide de ms (Hudson 2002), en supposant un modèle insulaire de structure de population (Wright 1931). Pour chaque scénario simulé, nous avons considéré huit dèmes, chacun constitué d'individus haploïdes. Le taux de migration (m) a été fixé pour atteindre la valeur souhaitée de (0,05 ou 0,2), en utilisant l'équation 6 de Rousset (1996) conduisant à, par exemple., pour et pour Le taux de mutation a été fixé à donnant Nous avons considéré des tailles d'échantillon fixes ou variables à travers les dèmes. Dans ce dernier cas, la taille de l'échantillon haploïde m a été tiré indépendamment pour chaque dème à partir d'une distribution gaussienne avec une moyenne de 100 et un écart-type 30, ce nombre a été arrondi à l'entier supérieur le plus proche, avec un minimum de 20 et un maximum de 300 haploïdes par dème. Nous avons généré un très grand nombre de séquences pour chaque scénario et échantillonné des polymorphismes nucléotidiques uniques (SNP) indépendants à partir de séquences avec un seul site de ségrégation. Chaque scénario a été répliqué 50 fois (500 fois pour la Figure 3 et la Figure S2).

Séquencement de piscine :

Pour chaque ensemble de données simulées en ms, nous avons généré des données Pool-seq en tirant des lectures à partir d'une distribution binomiale (Gautier et al. 2013). Plus précisément, on suppose que pour chaque SNP, le nombre de lectures de type allélique k en piscine je suit : (14) où est le nombre de gènes de type k dans le jee pool, est le nombre total de gènes dans le pool je (taille de la piscine haploïde), et est la couverture totale simulée pour la piscine je. Dans ce qui suit, nous considérons soit une couverture fixe, avec pour tous les pools et loci, soit une couverture variable entre les pools et les loci, avec

Erreur de séquençage :

Nous avons simulé des erreurs de séquençage se produisant à un rythme typique des séquenceurs Illumina (Glenn 2011 Ross et al. 2013). Nous avons supposé que chaque erreur de séquençage modifie le type allélique d'une lecture à l'un des trois autres états possibles avec une probabilité égale (il y a donc quatre types alléliques au total, correspondant à quatre nucléotides). Notez que seuls les marqueurs bialléliques sont conservés dans les ensembles de données finaux. Notez également que, puisque nous avons initié cette procédure avec des marqueurs polymorphes uniquement, nous négligeons les erreurs de séquençage qui créeraient de faux SNP à partir de sites monomorphes. Cependant, de tels SNP devraient être rares dans les ensembles de données réels, car les marqueurs avec un faible nombre de lectures minimum (MRC) sont généralement filtrés.

Erreur expérimentale :

Des quantités non équimolaires d'ADN de tous les individus d'un pool et une variation stochastique de l'efficacité d'amplification des ADN individuels sont des sources d'erreurs expérimentales dans Pool-seq. Pour simuler les erreurs expérimentales, nous avons utilisé le modèle dérivé de Gautier et al. (2013). Dans ce modèle, on suppose que la contribution de chaque gène j à la couverture totale de la jee pool suit une loi de Dirichlet : (15) où le paramètre ?? contrôle la dispersion des contributions de gènes autour de la valeur attendue si tous les gènes ont contribué de manière égale au pool de lectures. Pour plus de commodité, nous définissons l'erreur expérimentale ?? comme coefficient de variation de c'est à dire., (voir Gautier et al. 2013). Lorsque ?? tend vers 0 (ou de manière équivalente, lorsque ?? tend vers l'infini), tous les individus contribuent également au pool et il n'y a pas d'erreur expérimentale. Nous avons testé la robustesse de nos estimations aux valeurs de ?? entre 0,05 et 0,5. Le cas pourrait correspondre, par exemple, à une situation où (pour ) cinq individus contribuent plus de lectures que les cinq autres individus.

Autres estimateurs

Par souci de clarté, un résumé de la notation des estimateurs utilisés tout au long de cet article est donné dans le tableau 2.

Cet estimateur de est implémenté par défaut dans le progiciel PoPoolation2 (Kofler et al. 2011). Il est basé sur une définition du paramètre comme la réduction globale de l'hétérozygotie moyenne par rapport à la population totale combinée (voir, par exemple., Nei et Chesser 1983) : (16) où est l'hétérozygotie moyenne au sein des sous-populations, et est l'hétérozygotie moyenne dans la population totale (obtenue en regroupant toutes les sous-populations pour former une seule unité virtuelle). Dans PoPoolation2, est la moyenne non pondérée des hétérozygoties au sein de la sous-population : (17) (en utilisant la notation du tableau 1). Notez que dans PoPoolation2, est limité au cas de deux sous-populations seulement ( ). Les deux ratios dans la partie droite de l'équation 17 sont vraisemblablement empruntés à Nei (1978) pour fournir une estimation non biaisée, bien que nous n'ayons trouvé aucune justification formelle pour l'expression dans l'équation 17 pour les données Pool-seq. L'hétérozygotie totale est calculée comme (en utilisant la notation du tableau 1) :

Il s'agit de l'estimateur alternatif fourni dans le progiciel PoPoolation2. Il est basé sur une interprétation de Kofler et al. (2011) de Karlsson et al.L'estimateur de 's (2007) de , comme : (19) où et sont les fréquences de paires identiques de lectures dans et entre les pools, respectivement, calculées par simple comptage des paires IIS. Il s'agit d'estimations de la probabilité IIS pour deux lectures dans le même pool (qu'elles soient séquencées à partir du même gène ou non), et de la probabilité IIS pour deux lectures dans des pools différents. Notez que la probabilité IIS est différente de l'équation 1, qui, d'après notre définition, représente la probabilité IIS entre des gènes distincts dans le même pool. Cette approche confond donc les paires de lectures au sein de pools qui sont identiques car elles ont été séquencées à partir d'un seul gène à partir de paires de lectures qui sont identiques car elles ont été séquencées à partir de gènes IIS distincts mais pourtant distincts.

PRF13:

Cet estimateur de a été développé par Ferretti et al. (2013) (voir leurs équations 3, 10, 11, 12 et 13). Ferretti et al. (2013) utilisent la même définition que dans l'équation 16 ci-dessus, bien qu'ils estiment les hétérozygoties au sein et entre les pools comme des « diversités moyennes de nucléotides par paires », qui, d'après leurs définitions, sont formellement équivalentes aux probabilités IIS. En particulier, ils estiment l'hétérozygotie moyenne au sein des pools comme (en utilisant la notation du tableau 1) : (20) et l'hétérozygotie totale parmi les populations comme :

Analyses des données Ind-seq

Pour la comparaison des ensembles de données Ind-seq et Pool-seq, nous avons calculé sur des sous-échantillons de 5000 loci. Ces sous-échantillons ont été définis de manière à ne retenir que les loci polymorphes dans toutes les conditions de couverture, et les mêmes loci ont été utilisés pour l'analyse des données Ind-seq correspondantes. Pour ce dernier, nous avons utilisé soit l'estimateur de Nei et Chesser (1983) basé sur un rapport d'hétérozygotie (voir l'équation 16 ci-dessus), ci-après désigné par soit l'estimateur par analyse de variance développé par Weir et Cockerham (1984), ci-après désigné par

Tous les estimateurs ont été calculés à l'aide de fonctions personnalisées dans l'environnement logiciel R pour le calcul statistique, version 3.3.1 (R Core Team 2017). Toutes ces fonctions ont été soigneusement vérifiées par rapport aux progiciels disponibles pour s'assurer qu'elles fournissaient des estimations strictement identiques.

Exemple d'application : C. asper

Dennenmoser et al. (2017) ont étudié la base génomique de l'adaptation aux conditions osmotiques chez le chabot épineux (C. asper), un poisson euryhalin abondant dans le nord-ouest de l'Amérique du Nord. Pour ce faire, ils ont séquencé l'ensemble du génome de pools d'individus provenant de deux populations estuariennes (Capilano River Estuary, CR Fraser River Estuary, FE) et de deux populations d'eau douce (Pitt Lake, PI Hatzic Lake, HZ) dans le sud de la Colombie-Britannique (Canada) . Nous avons téléchargé les quatre fichiers BAM correspondants à partir du Dryad Digital Repository (http://dx.doi.org/10.5061/dryad.2qg01) et les avons combinés en un seul fichier mpileup à l'aide de SAMtools version 0.1.19 (Li et al. 2009) avec les options par défaut, à l'exception de la profondeur maximale par BAM qui a été définie sur 5 000 lectures. Le fichier résultant a ensuite été traité à l'aide d'un script awk personnalisé pour appeler les SNP et calculer le nombre de lectures, après avoir rejeté les bases avec un score de qualité d'alignement de base (BAQ) <25. Une position était alors considérée comme un SNP si : (1) seuls deux nucléotides différents avec un nombre de lectures >1 étaient observés (les nucléotides avec lecture étant considérés comme une erreur de séquençage) (2) la couverture était comprise entre 10 et 300 dans chacun des quatre alignements fichiers (3) la fréquence des allèles mineurs, telle que calculée à partir du nombre de lectures, était dans les quatre populations. L'ensemble de données final se composait de 608 879 SNP.

Notre objectif ici était de comparer la structure de population déduite des estimations par paires de l'utilisation de l'estimateur (équation 12) avec celle de PP2. Pour déterminer lequel des deux estimateurs est le plus performant, nous avons ensuite comparé la structure de population déduite et à celle déduite du modèle hiérarchique bayésien implémenté dans le progiciel BayPass (Gautier 2015). BayPass permet l'estimation robuste de la matrice de covariance à l'échelle des fréquences alléliques à travers les populations pour les données Pool-seq, qui est connue pour être informative sur l'histoire de la population (Pickrell et Pritchard 2012). Les éléments de la matrice estimée peuvent être interprétés comme des estimations de différenciation par paires et spécifiques à la population (Coop et al. 2010) et fournissent donc une description complète de la structure de la population qui utilise pleinement les données disponibles.

Disponibilité des données

Un package R appelé poolfstat, qui implémente des estimations pour les données Pool-seq, est disponible sur le Comprehensive R Archive Network (CRAN) : https://cran.r-project.org/web/packages/poolfstat/index.html.

Les auteurs déclarent que toutes les données nécessaires pour confirmer les conclusions présentées dans cet article sont entièrement représentées dans l'article, les figures et les tableaux. Matériel supplémentaire (y compris les figures S1 à S4, les tableaux S1 à S3 et une dérivation complète du modèle dans le fichier S1) disponible sur Figshare : https://doi.org/10.25386/genetics.6856781.


3. Matériels et méthodes

(i) Collectes de semences et protocole de germination

A l'été 2004, nous avons récolté des fruits de plantes de neuf populations le long des côtes tunisiennes (tableau 1). La taille de ces populations varie de près de 60 individus à bien plus de 500 individus. Dix graines par famille ont été semées dans une boîte de Pétri sur papier filtre humidifié. La germination a été réalisée dans des conditions de laboratoire (dans l'obscurité à 20–25°C). Quatre jours plus tard, quatre semis choisis au hasard par famille ont été plantés dans des pots séparés et randomisés dans une serre non chauffée. Dix familles par population (c'est-à-dire 40 plants par population) ont été cultivées dans des conditions environnementales uniformes et utilisées pour une étude génétique quantitative. Sur chaque groupe de 40 semis, 30 ont été utilisés pour l'analyse des allozymes.

Tableau 1. Cakile maritima populations tunisiennes. Leur région climatique et leur code alphanumérique

(ii) Flottabilité et viabilité des semences

Le trait de flottabilité (capacité de flottaison) indique le potentiel des espèces à être dispersées par l'eau. Il est donné comme la proportion de graines flottant après une période de temps définie. A cet effet, 100 graines de C. maritima ont été placés dans une bouteille fermée contenant 500 ml d'eau de mer en octobre 2005. Le nombre de graines qui ont coulé a été enregistré au fil du temps. En février 2006, dix des graines flottantes ont été semées sur du sable filtré et irriguées avec de l'eau du robinet pour tester leur viabilité.

(iii) Mesures morphologiques

Deux ensembles de traits morphologiques ont été considérés comme des traits discriminants entre les populations : les traits végétatifs (morphotype des feuilles (forme des feuilles (LFF)) et longueur des feuilles (LFL)) et les traits de reproduction (date d'émergence des fleurs (FED), longueur des pétales (PTLT), largeur des pétales. (PTW), la couleur des pétales (PTC), la longueur du pistil (PSL), le type de fruit (FRT), la taille des fruits (longueur du segment supérieur (LUP) et longueur du segment inférieur (LLW) et nombre de graines (SN)). Les caractéristiques des feuilles ont été classées de 1 à 10, 1 étant les feuilles à bords entiers, 10 les feuilles aux bords les plus profondément pennatifiés et les intermédiaires classés par des graduations entre ces extrêmes (Fig. 1).Les feuilles sélectionnées pour la détermination du morphotype ont également été utilisées pour mesures de la longueur. La taille des fruits a été mesurée séparément pour les segments supérieur et inférieur et a été classée en trois modalités discriminantes : sans corne, intermédiaire et avec corne, quantifiées par une série de 0, 1 et 2, respectivement (Fig. 2). Longueur des feuilles, longueur des pétales et largeur, longueur du pistil et la taille des fruits ont été mesurées par un pied à coulisse électronique. Des mesures de couleur et de taille ont été effectuées sur un pétale choisi au hasard de chaque individu.

Fig. 1. Morphotypes foliaires dans Cakilé disposés comme une séquence standard, 1-10, pour l'évaluation sur le terrain de la variation des feuilles.

Fig. 2. Silicules modales de Cakilé (0 : fruit sans cornes 1 : fruit intermédiaire 2 : fruit avec cornes).

(iv) Analyse des données

Une analyse de variance emboîtée (ANOVA) incluant la population et la famille (nichée dans la population) en tant qu'effets aléatoires a été menée pour chaque trait quantitatif. Le niveau de différenciation de la population dans les caractères quantitatifs a été mesuré avec Qst (Spitze, Reference Spitze 1993), qui est analogue à Fst mesuré en utilisant des loci marqueurs allozymes. Pour estimer Qst, δb 2 est obtenu directement à partir de la variance de la population δp 2 , c'est-à-dire (δb 2 =δp 2 ), alors que la variance familiale δF 2 doit être converti en δw 2 par multiplication avec un coefficient (c) qui dépend de la relation des individus au sein des familles (δw 2 =c??F 2 ). Pour les demi-frères, les pleins-frères et les individus clonés, c est de 4, 2 et 1 (sous l'hypothèse d'absence de dominance et d'épistasie), respectivement. Lorsque les populations sont en déséquilibre Hardy-Weinberg (Fis≠0), le niveau de différenciation des caractères quantitatifs pourrait être exprimé comme suit : (Yang et al., Référence Yang, Yeh et Yanchukt 1996) où Qst a l'expression (Spitze, Référence Spitze 1993) et d'autres (Lande, Référence Lande 1992 Latta, Référence Latta 2004).

V W est estimée à quatre fois la composante interfamiliale de la variance V famille sous l'hypothèse que les effets maternels étaient faibles et qu'au sein des familles à pollinisation libre étaient apparentés en tant que demi-frères (Yang et al., Référence Yang, Yeh et Yanchukt 1996), tandis que V B est simplement la composante de la variance entre les populations. Les valeurs approximatives d'erreur standard (SE) de Qst ont été obtenues par la technique « delta » (Stuart & Ord, Reference Stuart et Ord 1987). Cette méthode, utilisée par Podolsky & Holtsford (Référence Podolsky et Holtsford 1995), fournit des estimations SE fiables des composantes de la variance génétique pour fixer des limites de confiance (CL) aux paramètres génétiques (Hohls, Référence Hohls 1996).

(v) Expérience d'allozyme

Pour l'analyse des allozymes, une étude d'électrophorèse a été utilisée pour estimer la variabilité génétique au sein et entre C. maritima populations. Environ 200 mg de tissu foliaire ont été prélevés sur chaque plante (1 mois), broyés sous azote liquide et mélangés à 100 l de tampon d'extraction (PVP-tampon de broyage au phosphate de potassium, pH 7), comme décrit par Thrall et al. ( Référence Thrall, Andrew et Burdon 2000), et ont été centrifugés à 19 000 g pendant 20 minutes. La matière broyée a été absorbée sur des mèches de papier filtre Whatman 3MM et stockée dans un congélateur ultra-froid (-70°C) jusqu'à l'analyse. Une électrophorèse horizontale sur gel d'amidon a été réalisée pour sept systèmes enzymatiques révélant un minimum de 13 loci : peroxydase (Px EC 1.11.1.7), isocitrate déshydrogénase (IDH EC 1.1.1.42), glutamate oxaloacétate transaminase (GOT EC 2.6.1.1), shikimate déshydrogénase (SDH EC 1.1.1.25), la leucine aminopeptidase (LAP EC 3.4.11.1), la 6-phosphogluconate déshydrogénase (6-PGD EC 1.1.1.44) et la malate déshydrogénase (MDH EC 1.1.1.37). Les compositions des tampons gel et électrodes ont été décrites dans Soltis et al. (Référence Soltis, Haufler, Darrow et Gastony 1983) et les méthodes utilisées pour colorer les bandes d'allozymes ont été décrites dans Michaud et al. (Référence Michaud, Lumaret et Romane 1992) pour Px et dans Cardy et al. (Référence Cardy, Stuber et Goodman 1980) pour IDH, GOT, LAP, SDH, 6-PGD et MDH. Pour la phosphatase acide (ACPH EC 3.1.3.2), des gels de polyacrylamide à zones verticales ont été préparés selon Laemmli (Référence Laemmli 1970) et ont été colorés selon Selander et al. (Référence Selander, Smith, Yang, Johnson et Gentry 1971). Les loci ont été numérotés de manière séquentielle, le locus ayant le plus de migration anodique étant désigné comme locus 1. L'interprétation génétique pour tous les loci était simple.

(vi) Analyse des données

Dans chacun des 13 loci étudiés en C. maritima, les fréquences génotypiques et alléliques ont été évaluées à partir d'une étude des phénogrammes sur gel. Trois coefficients, mesurant la variation génétique, ont été calculés à l'aide de BIOSYS-1 : (i) le pourcentage de loci polymorphes (P) selon le critère 0,95 (un locus est considéré comme polymorphe si l'allèle le plus fréquent a une fréquence inférieure à 95 % dans toutes les populations analysées) (ii) le nombre moyen d'allèles par locus (UNE) et (iii) l'hétérozygotie attendue (He) sous l'équilibre de Hardy-Weinberg (Nei, Référence Nei 1978). Ces trois coefficients ont été estimés pour chacune des populations échantillonnées. La moyenne et l'écart-type des coefficients mentionnés précédemment ont ensuite été calculés sur toutes les populations échantillonnées. La structure génétique au sein et entre les populations a également été évaluée à l'aide de Wright (Référence Wright 1965) F-statistiques Fit, Fis et Fst. La fréquence des hétérozygotes pour chaque locus polymorphe dans chaque population a été testée pour un écart significatif par rapport aux attentes de Hardy-Weinberg avec une analyse χ 2 (Li & Horvitz, Reference Li et Horvitz 1953) (BIOSYS-1). L'estimation de Nm (le nombre de migrants par génération) était basée sur Fst (Wright, Référence Wright 1951) (Genetix 4.02). Pour tester si les différences génétiques des populations suivaient le modèle d'isolement par la distance, nous avons établi la relation entre les valeurs de différence génétique Fst entre paires de populations et leur distance géographique à l'aide du test de Mantel (Genetix 4.02). Afin d'examiner la distance génétique et la distance géographique, les analyses de clustering UPGMA ont été menées (BIOSYS-1).

(vii) Corrélation matricielle

L'association entre matrices morphologiques, génétiques, vitesse du courant marin et distance géographique a été examinée avec le test de Mantel (1967). Le test de Mantel utilise des permutations aléatoires de lignes et de colonnes matricielles pour tester si les corrélations entre les matrices de distance sont plus élevées que prévu par hasard (Sokal & Rohlf, Reference Sokal et Rohlf 1995). Nous avons comparé les matrices de distance génétiques et morphologiques entre elles avec des matrices géographiques individuellement, puis nous avons comparé Nm estimé à partir de Fst et Qst à la vitesse du courant marin. La population par paires de la vitesse du courant marin a été mesurée en utilisant la dérive des navires. La mesure de la dérive du navire de la vitesse du courant de surface consiste en la différence vectorielle entre la vitesse d'un navire déterminée à partir de deux repères de position et la vitesse moyenne estimée du navire dans l'eau pendant le même intervalle de temps, généralement de 12 à 24 h. La différence vectorielle est considérée comme étant due à un courant de surface. L'absence de connexité a été marquée comme 0.

(viii) Tests d'affectation

Pour tester si les courants marins, comme décrit dans la Fig. 5, dirigent la direction du flux génétique, il sera intéressant d'utiliser les tests d'affectation. Ces méthodes sont des outils puissants pour détecter les événements d'immigration récents même lorsque la différenciation globale de la population est faible (Rannala & Mountain, Reference Rannala and Mountain 1997 Waser & Strobeck, Reference Waser et Strobeck 1998 Castric & Bernatchez, Reference Castric et Bernatchez 2004). En fait, les tests d'assignation sont particulièrement utiles pour retracer la dynamique contemporaine des populations naturelles sans nécessiter d'hypothèses d'équilibre basées sur des processus génétiques à long terme (Manel et al., Référence Manel, Gaggiotti et Waples 2005). Comme le modèle de classification erronée des individus au sein d'une population peut être utilisé pour déterminer la direction de la migration, les tests d'attribution pourraient être une méthode utile pour examiner l'influence des courants marins sur le flux génétique. La probabilité qu'un individu échantillonné au sein d'une population donnée soit un migrant originaire d'une autre population a été déterminée en utilisant une méthode bayésienne (logiciel Geneclass2) (Piry et al., Référence Piry, Alapetite, Cornuet, Paetkau, Baudouin et Estoup 2004).


Discussion

Les approches de clustering permettent la partition d'un échantillon d'individus en groupes génétiquement distincts sans a priori définition de ces groupes. La plupart des progrès récents de la méthodologie de clustering ont été réalisés à l'aide de modèles statistiques bayésiens [3, 20, 5, 21, 22]. Les méthodes bayésiennes attribuent les individus à des groupes en fonction de leurs génotypes et de l'hypothèse que les marqueurs sont en Hardy-Weinberg et en équilibre de liaison au sein de chaque sous-population.

Dans cette étude, une nouvelle méthode a été utilisée pour déduire la structure cachée dans une population, basée sur la maximisation de la distance génétique et ne faisant aucune hypothèse sur HWE et LE, et nous montrons qu'elle donne une bonne performance sous différents scénarios simulés et avec un vrai jeu de données. Par conséquent, cela pourrait être un outil utile pour déterminer des groupes génétiquement homogènes, en particulier dans les situations où le nombre de grappes est élevé, avec une structure de population complexe et où HWD et/ou LD sont présents.

Les résultats de la simulation indiquent que la méthode BAPS est la moins précise car elle nécessitait un grand nombre de marqueurs génotypés pour atteindre la bonne partition, surtout lorsque la population avait atteint l'équilibre mutation-migration-dérive. Pour les scénarios d'origine/de base, les performances de MGD et de STRUCTURE étaient similaires (bonnes) quel que soit le paramètre de comparaison, bien que la nouvelle méthode présentait un léger avantage (voir Tableau 3 et Figure 2).

Nous avons montré que les écarts par rapport aux hypothèses implicites des méthodes bayésiennes sur l'équilibre de Hardy-Weinberg et de liaison au sein des populations affectent leur précision, en particulier pour BAPS, conduisant à un nombre surestimé de grappes et à une proportion réduite de groupements corrects. Ces observations sont en accord avec Kaeuffer et al. [35] qui ont montré qu'une valeur élevée du coefficient de corrélation LD augmente la probabilité de détecter un clustering parasite avec STRUCTURE. La randomisation des allèles (et aussi la randomisation des génotypes et des haplotypes dans une certaine mesure) rétablit à la fois HWE et LE. Dans ces situations, les deux méthodes évaluent correctement le nombre de grappes et donnent une proportion accrue de regroupements corrects. Au contraire, MGD est plus précis dans les situations de déséquilibre et ses performances ne changent pas de manière significative après la randomisation, démontrant l'indépendance de la nouvelle méthode par rapport à l'existence ou non de HWE et LE. À partir des résultats présentés ici, une alternative pour tester l'exactitude des résultats de toute méthode de regroupement serait de comparer les résultats obtenus après la randomisation des informations moléculaires au sein de chaque sous-population prédéfinie lorsque ces informations sont disponibles.

La précision des trois méthodes est excellente pour F STaussi bas que 0,03. Ceci est en accord avec les résultats de Latch et al. [10], qui ont prouvé que STRUCTURE et BAPS discernent extrêmement bien la sous-structure de la population à F ST= 0,02 - 0,03. Cependant, dans nos simulations, seule STRUCTURE détermine le nombre correct de clusters à F ST= 0,01. Néanmoins, il existe une controverse sur le niveau de différenciation minimum nécessaire pour qu'une population soit considérée comme génétiquement structurée. Waples et Gaggiotti [36] ont suggéré que si F STest trop réduit (par exemple. F ST= 0,01), alors il ne peut probablement pas être associé à des preuves statistiquement significatives d'écarts par rapport à la panmixie. Dans ces situations, il n'est pas clair si la solution la plus appropriée pour le MGD (ainsi que les autres méthodologies de regroupement) consiste à séparer différentes sous-populations ou à maintenir les sous-populations en tant que population indifférenciée.

Les scénarios simulés prenant en compte différents taux d'autofécondation ont indiqué à la fois une augmentation de la différenciation entre les sous-populations (c'est à dire. plus haut F STvaleurs) et une augmentation du déséquilibre de Hardy-Weinberg (F ESTpasse de 0,01 à 0,81). Cependant, l'augmentation de F STles valeurs (de 0,27 à 0,42) ne sont pas aussi élevées que celles du F ESTvaleurs indiquant que le déséquilibre de Hardy-Weinberg ne peut être masqué par l'effet du niveau de différenciation. De plus, l'augmentation de F STles valeurs devraient aider à distinguer les différents groupes et, par conséquent, le HWD devrait atteindre au moins la limite la plus basse de son effet.

Nos résultats obtenus avec la méthode MGD à partir de l'ensemble de données humaines sont, en général, similaires à ceux obtenus avec STRUCTURE [34] et également en concordance avec une étude plus récente de 525910 SNP [37], bien que certaines divergences existent avec les résultats de Li et al. [38] en utilisant 650000 SNP. Rosemberg et al. [34] ont indiqué plusieurs solutions de clustering pour K = 7 avec STRUCTURE. Cependant, les résultats obtenus avec MGD pour K = 7 sont en parfait accord avec les sept régions géographiques. Une inspection minutieuse des résultats permet de détecter des grappes où les individus regroupés ont de multiples sources d'ascendance, en particulier ceux du Moyen-Orient et de l'Asie centrale et du Sud. Cette situation (c'est à dire. l'ascendance mixte estimée) pourrait être due soit à un mélange récent, soit à une ascendance partagée avant la divergence de deux populations, mais sans flux génétique ultérieur entre elles. Il a été indiqué que la variation génétique humaine mondiale est fortement influencée par la géographie [39-41]. De plus, Serre et Pääbo [42] ont indiqué que les clusters obtenus par Rosenberg et al. [34] ont été générés par des échantillonnages hétérogènes et que ceux-ci disparaîtraient si davantage de populations étaient analysées.

Dans cette étude, un modèle insulaire simple avec des tailles de population constantes et une migration symétrique invariante a été considéré, ce qui est peu probable dans les systèmes naturels. Les performances de STRUCTURE ont été récemment évaluées [23] en simulant divers scénarios de dispersion et il semble bien fonctionner avec des structures de population plus complexes que le modèle d'île finie (modèle d'île hiérarchique, modèle de zone de contact). Dans cette étude, les performances de la méthode MGD étaient meilleures que celles des approches bayésiennes dans les scénarios simulés avec un nombre plus élevé de clusters et une structure de population plus complexe. Cependant, des investigations supplémentaires sont nécessaires pour déterminer la capacité de la méthode MGD à traiter d'autres types de structure de population.

Le temps de calcul peut être une limitation de la nouvelle méthode, en particulier lorsqu'il s'agit de grandes quantités de marqueurs.Cependant, il convient de noter que l'analyse de clustering n'est pas effectuée très souvent et que les résultats ne sont généralement pas nécessaires de toute urgence. Par conséquent, il peut être intéressant d'attendre les résultats obtenus avec la méthode la plus précise.

Si la distance génétique calculée à partir de la co-ascendance moléculaire a été évaluée comme alternative, alors l'utilisation d'autres distances génétiques précédemment publiées dans la littérature [24] pourrait être étudiée comme paramètre pour maximiser à la fois les marqueurs moléculaires codominants et dominants. De plus, la distance minimale Nei [25] pourrait être inappropriée lorsque l'on travaille avec différents marqueurs, par exemple lors du mélange des données obtenues avec des marqueurs avec différents niveaux d'hétérozygotie (par exemple. mélange de données microsatellites et SNP). De plus, une procédure de pondération [43, 44] pourrait également être mise en œuvre en tenant compte de la taille de la sous-population, du nombre de loci ou du nombre d'allèles. Nonobstant, la nature de la nouvelle méthode (c'est à dire. la maximisation de la distance génétique) permet l'utilisation de toute mesure qui pourrait mieux s'adapter aux données moléculaires disponibles, au-delà de la distance Nei.

L'informativité des marqueurs a un effet clair sur l'efficacité des méthodes de clustering, en particulier pour BAPS. Augmenter le nombre de marqueurs (scénario 1 contre 2, 3 contre 4, 5 contre 6 et 7 contre 8) donne presque toujours de meilleurs résultats : le nombre correct de clusters est estimé dans plus de cas et le pourcentage de regroupements corrects est plus haut. En parallèle, en comparant un nombre similaire de marqueurs mais avec des degrés de polymorphisme différents (scénario 2 vs 5, microsatellites vs SNP) les marqueurs bialléliques donnent de moins bonnes performances. Néanmoins, lors de l'utilisation d'un nombre raisonnable de marqueurs (50 microsatelites et 300 SNP), MGD et STRUCTURE, au moins, offrent une grande précision. Cependant, en comparant les résultats obtenus avec STRUCTURE, il est surprenant que cette méthode ait montré moins de précision avec 10 microsatellites qu'avec 50 microsatellites.

Bien que dans le présent travail la méthode ait été développée pour des marqueurs co-dominants, quelle que soit l'approche (co-ascendance moléculaire ou fréquences alléliques), la méthodologie peut également être facilement étendue aux marqueurs moléculaires dominants en remplaçant la matrice de co-ascendance moléculaire par une matrice de n'importe quelle matrice disponible. mesure de similarité pour les marqueurs dominants [45] ou l'estimation des fréquences alléliques des récessifs (voir [46] et les références qui s'y trouvent) puis en utilisant les distances génétiques typiques.

La formulation actuelle de la méthode ne tient pas explicitement compte de la présence d'individus mélangés. Pour ce faire, un ensemble différent de probabilités doit être attribué à chaque locus de chaque individu (dans l'approche des fréquences alléliques) permettant à chaque locus d'être attribué à différents groupes. L'augmentation du temps de calcul et la capacité de l'algorithme d'optimisation à traiter un plus grand espace de solutions méritent des investigations plus poussées.

Un fichier compilé du code utilisé pour déduire le nombre de grappes et l'affectation des individus à chaque grappe dans un échantillon donné à partir de la matrice de co-ascendance moléculaire ou des fréquences alléliques sera disponible sur le site Web http://www.uvigo. es/webs/c03/webc03/XENETICA/XB2/Jesus/Fernandez.htm.


RÉSULTATS

Détection de l'hybridation avec des mesures de diversité génétique des populations par rapport à l'écologie communautaire

Sur les quatre paramètres génétiques des populations et les trois indices de diversité des espèces, tous calculés selon une approche multilocus, un seul (HN) a détecté un changement dans la diversité génétique des populations hybrides ( Fig. 1 ). Par rapport aux populations de betteraves marines sauvages, les populations hybrides présentaient des HN (Mann&# x02013Whitney U = 16, z = 𢄢.09, P = 0,037). Cependant, nous n'avons pas détecté de différences dans d'autres métriques multilocus de la diversité génétique, y compris le pourcentage de loci polymorphes (U = 40, z = 0.04, P = 0,10), nombre d'allèles par locus polymorphe (U = 40, z = 0.04, P = 0,10), nombre total d'allèles (U = 30, z = 𢄠.84, P = 0,40), Shannon–Weiner’s H (U = 23, z = 𢄡.47, P = 0,14), Simpson’s (U = 26, z = 𢄡.20, P = 0,23), ou McIntosh’s E (U = 47, z = 𢄡.41, P = 0.16).

Contrairement aux résultats multilocus, les comparaisons de locus uniques utilisant des métriques de diversité des espèces étaient plus informatives. Par rapport aux populations sauvages de betteraves marines, les populations hybrides présentaient une plus grande diversité Shannon&# x02013Weiner (H, à 11 des 12 loci, signe test : P = 0,003, par exemple, Fig. 2 ), plus grand Simpson&# x02019s (à 10 des 12 loci, P = 0,02), et plus grand McIntosh&# x02019s E valeurs (à 11 des 12 loci, P = 0,003). De plus, les comparaisons de la diversité d'un seul locus à l'aide de métriques génétiques de population traditionnelles étaient moins sensibles que les métriques d'écologie communautaire aux changements dans la diversité ou la composition des allèles. Par rapport aux populations sauvages de betteraves marines, les populations hybrides présentaient plus d'allèles (à 10 des 12 loci, P = 0,02), mais les populations hybrides ne différaient pas significativement des populations sauvages en pourcentage de loci polymorphes (diminué à neuf des 12 loci, P = 0,073) ou nombre d'allèles par locus polymorphe (augmenté à huit des 12 loci, P = 0.19).

Estimations moyennes de la diversité de Shannon à locus unique pour 12 loci (lignes séparées) en moyenne sur 10 hybrides sauvages ou huit hybrides putatifs Bêta vulgaire subsp. maritima populations. Les 12 loci sont ici représentés avec des abréviations : AAT (aspartate amino transférase, EC 2.6.1.1), ACO (aconitase EC 4.2.1.3), GDH (glutamate déshydrogénase EC 1.4.1.2), LAP (leucine aminopeptidase EC 3.4.11.1), MDH1, MDH2 (NAD + malate déshydrogénase EC 1.1.1.37), PGM1, PGM2 (phosphoglucomutase EC 5.4.2.2), SKD (shikimate déshydrogénase EC 1.1.1.25), TPI1, TPI2 (triose phosphate isomérase EC 5.3.1.1) et UDP (uridine diphosphoglucose pyrophosphorylase EC 2.4.1.1). Les estimations d'erreurs ne sont pas affichées pour plus de clarté.

Les conséquences de l'hybridation sur la diversité génétique

Sur les 12 loci, les populations putatives de betteraves hybrides ne possédaient qu'un quart des allèles rares trouvés dans les populations sauvages (χ 2 = 22,5, df = 1, P < 0,001 Fig. 3 ). Sur la base du coefficient de similitude de Jaccard, les populations hybrides étaient 10,8 % (±SE = 0,6 %) plus semblables aux cultivars de bettes que les populations sauvages (un échantillon t test: t = 18.66, df = 47, P < 0,001). De plus, les populations hybrides étaient 3,7% (±SE = 1,1%) plus similaires aux cultivars de betterave sucrière que les populations sauvages (t = 3.45, df = 47, P = 0,001). Enfin, sur la base de comparaisons par paires, les populations hybrides étaient significativement plus similaires à la bette que les cultivars de betterave à sucre (appariés t test: t = 𢄦.62, df = 47, P < 0,001).

Nombre moyen d'allèles qui ne contribuent pas de manière significative à la diversité génétique (c. Bêta vulgaire subsp. maritima populations.


Résultats et discussion

Pour illustrer l'applicabilité de notre approche, nous l'appliquons à deux ensembles de données précédemment publiés qui ont été analysés dans [37] et [17], respectivement.

Données sur le coléoptère

Le premier ensemble de données a été utilisé dans le cadre d'une étude phylogéographique de l'espèce de coléoptère Brachyderes rugatus rugatus sur La Palma (Îles Canaries) [37]. Dans cette étude, 138 coléoptères individuels ont été échantillonnés. Les 18 emplacements d'échantillonnage sont illustrés à la figure ​ Figure3. 3 . En utilisant les données de séquence du gène mitochondrial COII (pour plus de détails, voir [37]), les 138 échantillons ont ensuite été regroupés en 69 haplotypes, et une phylogénie des haplotypes basée sur le critère de parcimonie a été construite à l'aide du programme TCS [38]. Cette phylogénie est présentée dans la Figure ​ Figure4 4 .

Lieux et régions d'échantillonnage pour les données sur les coléoptères. Une carte de La Palma avec des emplacements d'échantillonnage indiqués par des points noirs [37]. Les emplacements d'échantillonnage où les haplotypes d'un phylogroupe particulier (cf. Figure 4) ont été trouvés sont représentés par les courbes en pointillés. Notez que le lieu d'échantillonnage Altos de Jedey est le seul où des haplotypes de deux phylogroupes distincts (à savoir 1 et 2) ont été trouvés. Les six groupes de lieux d'échantillonnage correspondant aux six régions R1, R2, . R6 discutés dans le texte sont également indiqués.

Phylogénie des haplotypes pour les données sur les coléoptères. Le réseau d'haplotypes présenté dans [37] pour les haplotypes collectés à La Palma. Notez que tous les bords ont une longueur 1. Les points colorés (noir, rouge et vert) représentent les haplotypes échantillonnés et les points blancs intermédiaires hypothétiques. Les cases en pointillés correspondent aux trois phylogroupes, 1-3, identifiés dans [37]. Les haplotypes trouvés dans la région R2 sont surlignés en rouge, ceux trouvés dans R6 en vert et ceux trouvés dans R3 sont indiqués par des cercles bleus.

Selon cette phylogénie, les haplotypes ont été divisés en 3 phylogroupes, comme indiqué sur la phylogénie et dans la figure ​ Figure3. 3 . Sur la base de ces regroupements, il a été conclu pour Brachyderes rugatus rugatus que (i) il existe une région de contact secondaire, ou melting-pot, dans le sud de l'île au chevauchement des régions 1 et 2, et (ii) qu'il existe une région ancestrale ou hot-spot dans la région contenant les trois emplacements d'échantillonnage en haut à droite de la région 2. Notez que dans [37] le support de la conclusion (i) a été fourni en effectuant le test donné dans [8] pour détecter les zones de contact secondaire, qui implique essentiellement le calcul de la distance moyenne entre les centres géographiques des clades à des niveaux de nidification croissants dans une phylogénie sur les haplotypes d'intérêt.

Pour déterminer si notre nouvelle méthode appuyait les conclusions (i) et (ii) ou non, nous avons d'abord regroupé les emplacements d'échantillonnage en 6 régions. R1, . R6 comme le montre la figure ​ Figure3. 3 . Nous avons utilisé ces régions plutôt que les emplacements d'échantillonnage individuels, car le nombre d'échantillons prélevés à chaque emplacement était très faible (entre 2 et 8). Lors de la constitution des groupes, des emplacements géographiquement proches ont été regroupés. Nous avons également considéré d'autres regroupements basés sur la proximité géographique (données non présentées) et le résultat était similaire, bien que moins prononcé lorsque le nombre de regroupements était réduit (le plus petit nombre de regroupements utilisés était de 3). Nous avons ensuite mesuré la diversité (à l'aide de la mesure PD) et la connectivité haplotype pour les haplotypes trouvés dans chaque région Rjepar rapport aux distances phylétiques données par la phylogénie de la figure ​ Figure4, 4 , comme décrit dans la section Méthodes.

Les résultats pour les 6 régions sont résumés dans le tableau ​ Tableau1. 1 . Dans ce tableau, nous présentons la taille du sous-ensemble Oui des haplotypes trouvés dans la région (colonne 2), les valeurs PD(Oui), PDmin(|Oui|), PDmax(|Oui|) (colonnes 3-5), et le score de diversité normalisé PD*(Oui) (colonne 6) comme défini dans la section Méthodes. De même, nous présentons les valeurs CH(Oui), CHmin(|Oui|), CHmax(|Oui|) et CH*(Oui) (colonnes 7-10).

Tableau 1

RégionNombre d'haplotypes dans la régionLa diversitéConnectivité haplotype
PDPDminPDmaxPD*CHCHminCHmaxCH*
R6214725870.35143250.50
R3112810670.32161270.58
R2183320810.2173250.18
R47146550.1651270.15
R5182920810.1553250.09
R15104480.1471280.22

Scores de diversité et de connectivité des haplotypes pour les régions géographiques de La Palma indiquées dans la figure 3, classés selon les scores de diversité phylogénétique normalisés, PD*, tel que défini dans le texte principal. Les colonnes étiquetées avec PDmin, PDmax, CHmin et CHmax contiennent le score minimum/maximum sur tous les sous-ensembles contenant le même nombre d'haplotypes que ceux trouvés dans la région.

Comme on peut le voir dans le tableau ​ Tableau1, 1 , les deux régions avec le plus PD*score sont R6 et R3, qui ont aussi une bien plus grande CH* score que n'importe laquelle des quatre autres régions. Cela appuie la conclusion (i), c'est-à-dire que R6 est probablement un melting-pot. En effet, dans la Figure ​ Figure4 4 les haplotypes trouvés dans la région R6 sont surlignés en vert, et on peut voir qu'ils se regroupent en deux groupes. Cela indique également pourquoi nous avons obtenu un CH* note pour cette région. De même, la haute PD* et CH* notes pour la région R3 suggère que cette région est également un creuset, une conclusion qui est cohérente avec les résultats de [37] où il est suggéré que dans R3 les expansions de l'aire de répartition vers le sud et le nord-ouest se chevauchaient partiellement.

Concernant la conclusion (ii), nous voyons que parmi les régions restantes R2 a clairement le plus haut PD* score et beaucoup plus bas CH* score que R6 et R3. Ce modèle de scores, c'est-à-dire une diversité relativement élevée et une faible connectivité haplotype, est plus favorable à un scénario de point chaud qu'à un scénario de fusion, en accord avec la conclusion (ii). En examinant la figure ​ Figure4, 4 , nous voyons que les haplotypes dans R2 (surlignés en rouge) sont relativement étalés sur la phylogénie des haplotypes, d'où le faible score de connectivité des haplotypes.

Données de pin

Le deuxième ensemble de données que nous considérons fait partie d'une étude de l'histoire phylogéographique de l'espèce Pinus pinaster autour de la Méditerranée [17]. Des échantillons ont été prélevés dans 10 emplacements, comme indiqué sur la figure ​ Figure5. 5 . Les données de séquence constituées de neuf marqueurs de répétition de séquence simple chloroplastiques ont donné lieu à 34 haplotypes différents (pour plus de détails, voir [17]). Pour ces 34 haplotypes, une matrice de distance a été calculée en utilisant la différence haplotypique par paire (c'est-à-dire, pour deux haplotypes quelconques, la somme de la différence entre la taille de l'allèle sur les neuf loci).

Emplacements d'échantillonnage pour les données de pin. Emplacements d'échantillonnage pour l'ensemble de données dans [17].

Pour comprendre la structure phylogéographique de ces données, dans [17] la distribution de fréquence des distances par paires entre haplotypes, parfois aussi appelée la spectre de diversité génétique (GDS) [12], a été calculé. Nous avons recalculé cela et représenté le résultat dans la figure ​ Figure6. 6 . En particulier, sur la base de considérations - telles que la forme du GDS pour les sites des Landes et de Pantelleria - il a été émis l'hypothèse que les Landes et Pantelleria sont des points chauds, bien qu'il ait également été indiqué que l'hypothèse qu'ils soient des creusets ne pouvait être exclu [[17], p.462]. En effet, dans une étude phylogéographique étendue plus récente de Pinus pinaster [39] il a été conclu que Landes était plus susceptible d'être un melting-pot.

Spectre de la diversité génétique. Le spectre de diversité génétique (GDS) pour (a) l'emplacement des Landes et (b) l'emplacement de Pantelleria sur la figure 5. Pour chaque distance possible, le nombre de paires d'haplotypes qui sont à cette distance les uns des autres est représenté.

En utilisant la même matrice de distance, nous avons calculé les scores de diversité et de connectivité des haplotypes pour chacun des 10 emplacements d'échantillonnage, comme expliqué dans la section Méthodes (en utilisant la mesure UN D pour la diversité). Ceux-ci sont présentés dans le tableau ​ Tableau2. 2 . Notez que, contrairement à [17], nos scores ne prennent pas en compte la fréquence à laquelle un haplotype a été trouvé dans un endroit particulier mais plutôt quels haplotypes ont été trouvés.

Tableau 2

Lieu d'échantillonnageNombre d'haplotypes dans la régionLa diversitéConnectivité haplotype
UN DUN DminUN DmaxUN D*CHCHminCHmaxCH*
Landes62.450.337.140.3161100.56
Pantelleria91.670.375.660.2531100.22
Leiria80.730.366.060.0611100.00
Sardaigne90.700.375.660.0621100.11
Maroc80.690.366.060.0611100.00
la Corse80.680.366.060.0611100.00
Ligurie50.640.318.060.0421110.10
Monaco60.330.337.140.0011100.00
Toscane50.310.318.060.0011110.00
Alcacier50.310.318.060.0011110.00

Scores de diversité et de connectivité des haplotypes pour les emplacements d'échantillonnage illustrés à la figure 5, classés en fonction du score de diversité moyen normalisé de la distance carrée (UN D*). Les colonnes étiquetées avec UN Dmin, UN Dmax, CHmin et CHmax contiennent le score minimum/maximum sur tous les sous-ensembles contenant le même nombre d'haplotypes que ceux trouvés dans la région.

Comme on peut le voir dans le tableau ​ Tableau2, 2 , les deux emplacements avec le plus UN D* les scores de diversité sont Landes et Pantelleria. Au vu de la CH* scores pour ces localités, cela soutient le scénario du melting-pot, notamment pour la localité des Landes. Notez que la bimodalité du GDS pour la localisation landaise est également indicative de deux clusters d'haplotypes ayant de faibles distances internes et des distances entre clusters élevées, ce qui pourrait également être considéré comme une signature soutenant un scénario de melting-pot. Cependant, la forme du GDS pour l'emplacement de Pantelleria est un peu moins distinctive et donc, dans ce cas du moins, l'approche de connectivité haplotype fournit des informations supplémentaires utiles.


Concepts et définitions

Commençons par une brève revue de la diversité des espèces (alias diversité communautaire, biodiversité ou diversité écologique) pour expliquer les deux éléments essentiels du concept de diversité en général, ce qui devrait faciliter l'introduction de nos mesures de diversité et de similarité SNP ci-dessous. La diversité des espèces fait référence à la diversité écologique des espèces dans une communauté écologique, mais le concept de diversité est également applicable à la diversité génétique (par exemple. Nei 1973, Wehenkel et al., Bergmann et al.) 13,23,24 ou d'autres entités telles que la diversité du métagénome (Ma et Li) 20 . Conceptuellement, la diversité possède deux éléments essentiels : la variété et le variabilité de variétés (Gaston Chao et al.) 10,25 . Par exemple, les deux éléments de la diversité des espèces sont les espèces (variété) et la variabilité de l'abondance des espèces. Pour quantifier le concept de diversité des espèces, on recense une communauté (généralement par échantillonnage), compte les abondances de chaque espèce dans la communauté, et obtient pje = (l'abondance relative des espèces je) = (le nombre d'individus de l'espèce je)/(le nombre total d'individus de toutes les espèces de la communauté), et compte également le nombre d'espèces de la communauté (S). L'ensemble de données d'une telle enquête (échantillonnage) est un vecteur d'abondance des espèces sous la forme de (p1, p2, …, pje, …ps). Pour un tel vecteur d'abondances relatives (fréquences), une approche pour le caractériser consiste à ajuster une distribution statistique, connue sous le nom de distribution d'abondance des espèces (SAD) en écologie communautaire. Les SAD les plus largement utilisés incluent les distributions en série logarithmique, log-normale et en loi de puissance.Au lieu de cela, le SAD est fortement agrégé (asymétrique ou non aléatoire), tout comme la distribution SNP non aléatoire mentionnée précédemment dans la section d'introduction. Bien que le SAD décrive pleinement la fréquence d'abondance des espèces et capture donc de manière adéquate toutes les caractéristiques de la diversité des espèces, l'utilisation d'un SAD pour mesurer la diversité ne parvient pas à présenter des mesures intuitives pour synthétiser les deux éléments de la diversité (c'est à dire., variété et variabilité). Une autre approche pour ajuster le SAD consiste à utiliser diverses métriques de diversité (également appelées mesures ou indices). De nombreuses métriques de diversité pour mesurer la diversité des espèces ont été proposées, l'entropie de Shannon étant la plus connue.

Les métriques de la diversité appartiennent à ce que l'on appelle agrégat fonctions, qui combinent plusieurs valeurs en une seule valeur (Beliakov et al., Jacques) 6,7 . La moyenne arithmétique (moyenne) est la fonction d'agrégation la plus couramment utilisée, mais c'est une mesure plutôt médiocre pour mesurer la diversité en raison de la distribution hautement non aléatoire des abondances d'espèces. Au lieu de cela, la fonction d'agrégation basée sur l'entropie convient pour mesurer la diversité. L'entropie de Shannon, qui a été attribuée à Claude Shannon, le co-fondateur de la théorie de l'information (Shannon, Shannon & Weaver) 8,26, mais Shannon n'avait jamais étudié biodiversité lui-même. Ce qui s'est passé, c'est que les écologistes ont emprunté l'idée à la théorie de l'information de Shannon, dans laquelle l'entropie de Shannon mesure le contenu de l'information ou de l'incertitude dans les systèmes de communication. Bien sûr, l'entropie de Shannon est en effet suffisamment générale pour mesurer la biodiversité car la diversité est essentiellement hétérogénéité, et l'hétérogénéité et l'incertitude peuvent toutes deux être mesurées par le changement d'information, c'est à dire., l'information réduit l'incertitude.

En utilisant l'entropie de Shannon comme exemple, la diversité des espèces (H), plus précisément la régularité des espèces, peut être calculée avec la formule suivante,

S est le nombre d'espèces dans la communauté, et pje est l'abondance relative de chaque espèce dans la communauté. En termes de variété-variabilité notion de définition de la diversité, la variété est l'espèce et variabilité est l'abondance de l'espèce évidemment. En fait, la notion de variété-variabilité peut être utilisée pour définir la diversité pour tous les systèmes (pas même limités aux systèmes biologiques) qui peuvent être abstraits comme les deux éléments de variété et de variabilité, y compris la diversité SNP, comme exposé ci-dessous.

Définitions des diversités SNP

En utilisant une analogie, un chromosome qui a plusieurs lieux est semblable à une communauté écologique de nombreuses espèces, et chaque lieu peut avoir un nombre différent de SNP. Avec la notion de variété-variabilité pour définir la diversité, le locus est le variété (similaire aux espèces d'une communauté), et le nombre de SNP à chaque locus est le variabilité (similaire à l'abondance des espèces dans une communauté). En supposant S est le nombre de lieux avec n'importe quel SNP, et pje est le relatif abondance de SNP au locus je (c'est à dire., le nombre ou l'abondance des SNP au locus je divisé par le nombre total de SNP de tous les loci), alors la diversité des SNP peut être mesurée avec l'entropie de Shannon (Eq. 1). Strictement parlant, SNP peut également être appelé lieu diversité, puisque lieu est essentiellement l'« habitat » où résident les SNP. La figure 1 a illustré de manière conceptuelle la distribution des SNP sur un chromosome spécifiquement comment pje est défini et calculé.

Un diagramme conceptuel montrant la distribution des SNP sur un chromosome par rapport au chromosome de référence : le chromosome est similaire à une communauté écologique, et le nombre de SNP sur un locus génique est similaire à l'abondance des espèces dans une communauté écologique. Par exemple, il y a trois SNP sur le locus du gène 1, en supposant que le total des SNP sur le chromosome est N (ou 10 affichés avec les 3 premiers gènes affichés), alors l'abondance relative de SNP pour le gène-1 est égale à 3/N (ou 3/10 = 0,3 avec les 3 gènes affichés). De la même manière, p2, p3, … peuvent être calculés. Lorsque les abondances relatives de SNP sont disponibles, la diversité (nombres de collines) peut être calculée sur la base des définitions de diversité [Eqs. (2-15)]. Les codes R calculant les profils de diversité alpha, de diversité bêta (y compris de similarité) sont fournis dans l'OSI.

Bien que l'entropie de Shannon ait été largement utilisée pour mesurer la diversité des espèces, un consensus récent parmi les écologistes est que les nombres de Hill, qui sont basés sur l'entropie générale de Renyi, offrent les métriques les plus appropriées pour mesurer la diversité alpha et pour diviser de manière multiplicative la diversité bêta (Chao et al. 2012, 2014, Ellison 2010, Kaplinsky & Arnaout) 9,10,12,19 . Compte tenu des avantages des nombres de Hill par rapport aux autres indices de diversité existants, nous pensons que les nombres de Hill devraient également être un choix privilégié pour définir la diversité SNP.

SNP alpha-diversité

Les nombres de Hill ont été dérivés par Hill (1973) sur la base de l'entropie générale de Renyi (1961) 15,16. Nous proposons ici de l'appliquer pour définir l'alpha-diversité SNP, c'est à dire.,

g est le nombre de loci de gènes avec n'importe quel SNP, pje est l'abondance relative (c'est à dire., les fréquence d'apparition) des SNP au locus je, q = 0, 1, 2, … est le ordre nombre de diversité SNP, q est le SNP alpha-diversité à l'ordre de diversité q, c'est à dire., les numéros de Hill du q-ème ordre.

Le numéro de colline n'est pas défini pour q = 1, mais sa limite comme q approches à 1 existe sous la forme suivante:

L'ordre de la diversité (q) détermine la sensibilité du nombre de Hill à l'abondance relative (c'est à dire., la fréquence d'apparition) du SNP. Lorsque q = 0, la fréquence SNP ne compte pas du tout et 0 = G, c'est-à-dire., les Richesse SNP, semblable à la richesse en espèces dans le concept de diversité des espèces. Lorsque q = 1, 1 est égal à exponentiel de l'entropie de Shannon, et est interprété comme le nombre de SNP avec des fréquences typiques ou communes. Par conséquent, l'indice de Shannon est essentiellement un cas particulier de nombres de Hill à l'ordre de diversité q = 1. Quand q = 2, 2 est égal à l'inverse de l'indice de Simpson, c'est à dire.,

qui est interprété comme le nombre de SNP dominants ou très fréquents. Par conséquent, les deux indices de diversité les plus largement utilisés, l'indice de Shannon et l'indice de Simpson, sont les cas particuliers, et plus précisément, les fonctions des nombres de Hill.

En général, nous devons spécifier une entité (unité ou portée) pour définir et mesurer la diversité SNP. À des fins de démonstration dans cet article, nous choisissons le chromosome individuel comme entité pour définir la diversité des SNP, de la même manière que l'utilisation de la communauté pour définir la diversité des espèces. L'interprétation générale de la diversité de l'ordre q est que le chromosome contient q = X loci avec une fréquence SNP égale. Notez que l'entité pour définir la diversité SNP peut être d'autres unités appropriées telles que le génome entier d'un organisme ou d'un segment de chromosome.

La diversité SNP définie ci-dessus mesure la diversité des SNP sur une entité génétique individuelle (telle qu'un chromosome ou un génome), similaire au concept de diversité alpha dans la diversité des espèces communautaires, et nous l'appelons SNP alpha-diversité. Dans ce qui suit, nous définissons les contreparties des espèces bêta-diversité et gamma-diversité en écologie communautaire pour les SNP, c'est à dire., SNP bêta-diversité et SNP gamma-diversité.

Diversité gamma SNP

Alors que la diversité alpha SNP précédemment définie vise à mesurer la diversité SNP au sein d'une entité génétique (telle qu'un chromosome ou un génome), la diversité gamma SNP suivante est définie pour mesurer la le total Diversité SNP de pools, multiples (N) chromosomes d'une population (cohorte) de N des individus différents, un pour chaque individu mais avec la même numérotation chromosomique.

En supposant qu'il y ait N individus dans une population (cohorte), on définit le SNP gamma-diversité avec la formule suivante, similaire à l'espèce gamma-diversité en écologie (par exemple., Chao et al. Chiu et al.) 9,10,27 ,

où (overline<

_>) est la fréquence SNP sur le je-ième locus (je = 1, 2, …,G) dans la population regroupée de N individus (appelés N-population).

En comparant l'éq. (5) pour la diversité gamma avec Eq. (2) pour la diversité alpha révèle que la diversité gamma est le nombre de Hill basé sur le SNP la fréquence à je-ème locus dans le N-population. Similaire à Chao et al. 9,10 Chiu et al. 27 , dérivation pour la diversité gamma des espèces dans la communauté écologique, en supposant ouije est la fréquence SNP à je-ième lieu de j-l'individu, ouije+ est la valeur totale de SNP à je-ième locus contenu dans le N personnes, oui+j est le SNP total de j-ème individu, oui++ est le SNP total contenu dans N personnes, pje est la fréquence SNP à je-ième lieu de j-ème individu, wj est le poids du j-ème individu,

on peut facilement en déduire que,

Plug Eq. (6) pour (overline<

_>) dans la définition de Diversité gamma SNP [Éq. (5)], on obtient les formules suivantes pour calculer SNP gamma-diversité de N-population comme suit :

Diversité bêta SNP

En écologie communautaire, il existe deux schémas pour définir la diversité bêta : l'un est la partition additive et l'autre est la partition multiplicative de la diversité gamma en alpha-diversité et bêta-diversité supposées indépendantes. Consensus récent (par exemple., Jost Ellison Chao et al., Gotelli & Chao, Gotelli & Ellison) 9,10,11,12,28,29 ont recommandé l'utilisation de la partition multiplicative. Soit ( (<>^D_) ) et ( (<>^D_) ) sont les diversités alpha et gamma mesurées avec les nombres de Hill, respectivement, la diversité bêta est définie comme :

Nous adoptons exactement la même partition multiplicative des nombres de Hill dans la diversité des espèces pour mesurer la diversité bêta des SNP, sauf que les diversités alpha et gamma sont calculées avec la fréquence SNP (abondance relative), plutôt qu'avec les abondances des espèces.

Cette bêta-diversité SNP ( (<>^D_<eta >) ) dérivé de la partition multiplicative ci-dessus prend la valeur 1 si toutes les communautés sont identiques, et la valeur de N (le nombre d'individus dans la population) lorsque tous les individus sont complètement différents les uns des autres (c'est à dire., aucun SNP partagé).

Bien que l'Éq. (2) définit correctement la diversité alpha SNP, il nécessite quelques adaptations à appliquer pour la partition de la diversité gamma afin d'obtenir la diversité bêta avec Eq. (9). Similaire à la dérivation pour la diversité alpha des espèces comme démontré à Chiu et al. 27 , nous pouvons dériver les formules suivantes pour la diversité alpha des SNP dans N-cadre de population, c'est à dire.,

Le calcul de la bêta-diversité SNP peut alors être accompli avec les équations. (7-11), c'est à dire., Éqs. (7 et 8) pour la diversité gamma, (9) pour la diversité bêta et (10–11) pour la diversité alpha.

Nous définissons une série de nombres de Hill pour la diversité SNP à différents ordres de diversité q = 0, 1, 2, … comme Profil de diversité SNP, c'est-à-dire une série de nombres de Hill correspondant à différents niveaux de non-linéarité pondérés différemment avec la distribution de fréquence SNP.


IMPLICATIONS DE GESTION

Notre étude démontre qu'un échantillonnage génétique répété sur des échelles de temps biologiquement pertinentes (par exemple, des intervalles de 10 générations ou

5 ans pour le bilby) permettra aux parties prenantes d'évaluer si les pratiques de gestion établies sont suffisantes pour maintenir la diversité génétique à des niveaux comparables aux populations ancestrales. Lorsqu'une perte excessive d'hétérozygotie est préoccupante (c'est-à-dire que la diversité génétique est tombée à un niveau nettement inférieur à celui du ou des groupes fondateurs), la translocation d'individus de populations génétiquement divergentes à un taux de 1 à 10 migrants par 1– 2 générations devraient suffire pour atténuer les pires effets de la consanguinité, tout en veillant à ce que le flux de gènes ne perturbe pas complètement la distinction génétique entre les unités de gestion individuelles. Dans la mesure du possible, les programmes de translocation devraient introduire des individus issus de populations génétiquement divergentes qui occupent des environnements et des zones climatiques comparables.

Lorsque le nombre de fondateurs est élevé, il peut être avantageux de diviser les métapopulations captives ou clôturées pour la conservation en plusieurs unités de gestion ou sous-populations distinctes. Bien que cela puisse conduire à une perte d'hétérozygotie à court terme au niveau des unités de gestion individuelles, le croisement de représentants de différentes sous-populations pendant ou au cours d'une génération de translocation devrait être suffisant pour restaurer la diversité génétique aux niveaux d'avant la fragmentation, préserver le potentiel adaptatif de l'espèce dans son ensemble. Le maintien de la métapopulation sous forme de séries d'unités de gestion distinctes garantira également que les réserves génétiques existantes peuvent être utilisées pour les translocations futures, minimisant ainsi la probabilité d'événements de goulot d'étranglement dus aux mouvements répétés d'individus provenant des mêmes populations d'origine.


Voir la vidéo: Etäisyyden mittaaminen (Juin 2022).


Commentaires:

  1. Nejin

    qualité FU

  2. Panteleimon

    Bravo, je trouve cette phrase géniale

  3. Daikora

    On our site you can get your astrological horoscope both for a specific day and for a week in advance. We can say with precision which professions are suitable for you, and where you will succeed and your career growth.

  4. Tarick

    Tu as tout à fait raison. En ce rien, il n'y a une bonne idée. Je suis d'accord.

  5. Cadassi

    Je n'ai pas parlé ça.



Écrire un message