Informations

Quelle est la limite supérieure du nombre de mutations basées sur le SNP dans n'importe quelle protéine ?

Quelle est la limite supérieure du nombre de mutations basées sur le SNP dans n'importe quelle protéine ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je veux savoir s'il existe une limite supérieure de, combien de mutations ponctuelles une protéine peut avoir en raison d'une maladie ou de nsSNP ? Les études générales ne se concentrent principalement que sur une mutation à un ou deux sites de toute structure protéique.


Kune/Ks rapport

En génétique, le Kune/Ks rapport, aussi connu sous le nom ?? ou N/S rapport, [a] est utilisé pour estimer l'équilibre entre les mutations neutres, la sélection purificatrice et les mutations bénéfiques agissant sur un ensemble de gènes homologues codant pour des protéines. Il est calculé comme le rapport du nombre de substitutions non synonymes par site non synonyme (Kune), dans un laps de temps donné, au nombre de substitutions synonymes par site synonyme (Ks), à la même période. Ces dernières sont supposées neutres, de sorte que le rapport indique l'équilibre net entre les mutations délétères et bénéfiques. Valeurs de Kune/Ks significativement au-dessus de 1 sont peu susceptibles de se produire sans qu'au moins certaines des mutations soient avantageuses. Si les mutations bénéfiques sont supposées apporter peu de contribution, alors Ks estime le degré de contrainte évolutive.


Introduction

Il a été démontré que les enzymes immunosuppressives, qui contrôlent la teneur en acides aminés intracellulaires et extracellulaires tout en produisant simultanément des métabolites toxiques, participent à la régulation immunitaire en affectant les capacités de prolifération et de différenciation des cellules T. Leur contribution à l'évasion immunitaire du cancer a également été révélée, conduisant au développement de plusieurs inhibiteurs spécifiques de la première enzyme identifiée de cette famille, l'indoleamine 2,3 dioxygénase, désormais testée dans des essais cliniques.

Le membre le plus récemment décrit de cette classe d'enzymes, le gène 1 induit par l'interleukine 4 de la phénylalanine oxydase (IL4I1) est une protéine sécrétée, qui est fortement exprimée en infiltrant les macrophages dans les cancers humains et dans certains cas par les cellules malignes elles-mêmes. 1 Son rôle dans l'inhibition de la réponse antitumorale des lymphocytes T CD8+ a été démontré dans un modèle murin de mélanome. 2 L'IL4I1 présente une forte homologie avec les l-aminoacides oxydases (LAAO) des vertébrés inférieurs, qui ont généralement un Km plus faible pour le substrat d'acides aminés et une Vmax plus élevée. 3 Ces protéines utilisent le FAD comme cofacteur et fonctionnent comme des tétramères. 4

L'activité enzymatique peut être fortement perturbée par des modifications de séquences protéiques, qui peuvent affecter la conformation 3D du site catalytique, les interactions multimères, ainsi que l'accès au substrat et/ou la sortie du produit du site catalytique. Pour cette raison, des polymorphismes mononucléotidiques (SNP) ou des mutations dans un gène codant pour une enzyme immunosuppressive peuvent affecter l'activité catabolique des acides aminés de la protéine, amplifiant ou réduisant ainsi ses fonctions de modulation immunitaire.

Dans ce travail, nous avons compilé les données de SNP et de mutation décrites pour le IL4I1 gène. Nous avons sélectionné et cloné un SNP faux-sens et une mutation, et vérifié les conséquences fonctionnelles sur l'activité enzymatique de l'IL4I1. Une modélisation tridimensionnelle de leur influence sur la structure de l'enzyme a été réalisée dans le but de comprendre la base structurelle de leur effet sur l'activité enzymatique de l'IL4I1.


Mutations dans l'ADNc

Approches pour l'analyse des mutations de l'ADNc

Les mutations de l'ADNct à partir d'échantillons de biopsie liquide peuvent être détectées via deux approches différentes. Dans la première approche, des mutations uniques ou faibles peuvent être détectées à l'aide de techniques hautement sensibles avec une spécificité élevée et à un rythme plutôt rapide et rentable. 22 En 2016, le test de mutation Cobas EGFR v2 qui interroge par RT-PCR plusieurs mutations dans les exons 18, 19, 20 et 21 du récepteur du facteur de croissance épidermique (EGFR) a été le premier diagnostic compagnon basé sur une biopsie liquide à être approuvé par la Food and Drug Administration (FDA) des États-Unis et l'Agence européenne des médicaments pour la prescription d'inhibiteurs de l'EGFR chez les patients atteints de cancer du poumon non à petites cellules (NSCLC) dans les cas où le tissu de biopsie tumorale n'est pas disponible. 23 D'autres approches ciblées, basées principalement sur la PCR numérique (droplet digital [ddPCR] ou BEAMing dPCR), se sont avérées capables de détecter des mutations spécifiques connues, telles que les principales mutations motrices de la tumeur primitive ou des variants associés à la réponse aux médicaments. dans les types de tumeurs individuels, et montrent généralement une concordance élevée avec les résultats obtenus dans le tissu tumoral 24,25,26 et atteignent une détection de fréquence d'allèle variant ou mutant (VAF/MAF) aussi bas que 0,001% pour les technologies les plus avancées 27 (c'est-à-dire la fréquence d'une variation génétique particulière d'une séquence spécifique [par exemple allèle/mutation] par rapport aux autres variations génétiques de la même séquence). La détection et la caractérisation moléculaire complète de la maladie résiduelle minimale (MRD) sont d'une importance particulière dans le cadre d'un traitement adjuvant pour améliorer les résultats cliniques. ,30 et pourrait donc être utile dans le processus de stratification des patients pour un traitement adjuvant. La prochaine étape de la mise en œuvre de l'ADNct dans la routine clinique consiste à démontrer son utilité dans la sélection du traitement des patients. Par exemple, dans l'étude TARGET récemment publiée (enregistrée dans le NIHR Central Portfolio Management System sous la référence CPMS ID 39172), l'objectif principal était de faire correspondre les patients à un stade avancé à des essais cliniques de phase précoce sur la base de l'analyse de l'ADNc plasmatique des deux mutations somatiques. et des altérations du nombre de copies dans 641 gènes associés au cancer. 31 Un autre exemple est l'étude Circulating Tumor DNA Guided Switch (CAcTUS) (NCT03808441), qui détermine si le passage d'une thérapie ciblée à une immunothérapie basée sur une diminution des taux d'ADNc dans le sang améliorera les résultats chez les patients atteints de mélanome.

Des approches plus larges ont également été développées pour interroger plusieurs mutations en parallèle et vont de l'analyse de plusieurs dizaines de mutations, à une analyse à l'échelle du génome du cfDNA par séquençage de l'exome entier (WES) ou séquençage du génome entier (WGS). La plupart de ces approches utilisent le séquençage de nouvelle génération (NGS), mais la détection par spectrométrie de masse des amplicons PCR devient également disponible. 32 En plus d'augmenter la probabilité de détecter une mutation dans le cfDNA, ces approches plus larges permettent un génotypage plus complet de la tumeur, qui peut être utilisé pour évaluer l'hétérogénéité tumorale ou pour suivre l'évolution clonale de la tumeur sous traitement, ainsi que pour identifier une résistance potentielle mutations avant que la progression clinique ne soit observée. 10,33,34 Un autre exemple d'application d'approches non ciblées concerne également les patients cancéreux traités par immunothérapie, pour lesquels la charge de mutation (c'est-à-dire le nombre de mutations non synonymes trouvées dans une tumeur) est apparue comme un biomarqueur putatif de la réponse au traitement. . L'évaluation de la charge de mutation et la mesure de son évolution par analyse plasmatique ont également été évaluées comme une approche alternative à la détermination des tissus tumoraux. 35,36 Plus généralement, des revues complètes ont discuté de l'utilité clinique de l'ADNct dans la nouvelle ère de l'immunothérapie. 37,38

Cependant, il faut savoir que plus les panels sont grands, plus il est coûteux et difficile d'obtenir une sensibilité élevée pour l'appel de mutation.

Défis associés à la détection de mutations dans le cfDNA

Un problème clé dans l'analyse de l'ADNct est toujours la mesure dans laquelle les informations obtenues à partir de l'échantillon de biopsie liquide reflètent le tissu tumoral. Des facteurs techniques et biologiques peuvent affecter la concordance entre la tumeur et le plasma, générant des résultats faussement négatifs et faussement positifs dans l'analyse de l'ADNc.

Les résultats faussement négatifs pourraient s'expliquer par le faible volume de plasma produit (4 à 5 ml) à partir d'un échantillon de sang typique de 10 ml, ce qui limite le nombre total de copies du génome disponibles à analyser : les mutations au sein d'une tumeur peuvent être clonales ou sous-clonal, et la quantité de copies de génome disponibles est un facteur limitant pour la détection de variants de faible fréquence allélique. 39 De plus, la fraction tumorale du cfDNA varie entre les types de cancer ainsi qu'entre les patients atteints du même type de cancer. 40 Même au stade métastatique, certains patients peuvent produire une faible quantité d'ADNct, 41,42 et la question de savoir pourquoi certaines tumeurs subissent une excrétion limitée d'ADNct n'est toujours pas complètement résolue. À cet égard, la détection d'ADN dérivé d'une tumeur mitochondriale, en tant que source alternative d'ADNc, pourrait être une approche prometteuse, en raison des milliers de copies d'ADN mitochondrial par cellule. 43 La preuve de principe de cette approche a été fournie dans des modèles de xénogreffes orthotopiques de glioblastome dérivés de patients en 2019. 11 Des considérations sur les améliorations techniques des méthodes utilisées pour analyser le cfDNA pourraient également aider à dépasser la limite de détection. Les méthodes de séquençage ultra-profond peuvent réduire le pourcentage de faux négatifs et sont actuellement en cours d'évaluation pour différents types de cancer. 44,45,46,47 La sélection de la taille des fragments de cfDNA (voir ci-dessous) ou le choix d'une méthode alternative pour la préparation de bibliothèques comme les bibliothèques d'ADN simple brin pour NGS sont des solutions supplémentaires. 48

Les résultats faussement positifs sont un autre problème préoccupant lorsque plusieurs mutations sont interrogées par les plates-formes NGS. Le risque d'introduire des erreurs lors de la préparation de la bibliothèque et des étapes de séquençage ultérieures a conduit à la mise en œuvre de plusieurs méthodes d'enrichissement des mutations et de stratégies de suppression d'erreurs telles que l'introduction de codes-barres moléculaires ou de pipelines d'analyse bioinformatique des données. 22,39,49 La comparaison approfondie d'échantillons de tumeurs et de plasma appariés représente donc une condition préalable importante pour évaluer la précision diagnostique des plates-formes analytiques, en particulier pour les variantes avec des fractions alléliques proches de la limite de détection. 50,51,52 Différentes plates-formes commerciales NGS pourraient ne pas avoir la même limite de détection ou interroger les mêmes régions génomiques les unes que les autres, et le domaine bénéficierait de comparaisons croisées rigoureuses, telles que réalisées entre 2015 et 2019 par l'UE Innovative Medicines Initiative (IMI) du consortium CANCER-ID (www.cancer-id.eu) et soutenu par la nouvelle European Liquid Biopsy Society (ELBS www.elbs.eu) et d'autres réseaux (US Blood Profiling Atlas of Cancer www.bloodpac. org). Une comparaison croisée de quatre plates-formes commerciales NGS, toutes certifiées par le collège américain des pathologistes américains-Clinical Laboratory Improvement Amendments, a été réalisée en 2019 avec des échantillons appariés plasma-tumeur de cancers à un stade précoce qui présentent une quantité limitée d'ADNc. 53 Une variabilité importante en termes de sensibilité (38 à 89 %) et de valeurs prédictives positives (36 à 80 %) a été identifiée entre les différentes plateformes. Les faibles valeurs positives prédictives étaient principalement associées à des variants avec une fréquence allélique inférieure à 1% et pourraient s'expliquer par des facteurs techniques (sensibilité limitée, filtrage bioinformatique des données ou encore erreur flagrante d'identification). Néanmoins, les variantes de la lignée germinale excrètent des cellules normales et au cours de l'hématopoïèse clonale (par exemple, la présence de variations somatiques dans certains gènes liés au cancer comme TP53 qui ne conduisent pas nécessairement au cancer) constituent une autre source de facteurs de confusion qui doivent être pris en compte lors de l'interprétation des données. En appliquant un test de séquençage d'ADNct hautement sensible et spécifique sur une cohorte de 124 patients atteints de cancer métastatique et de 47 témoins sans cancer, avec un ADN de globules blancs apparié, Razavi et al. ont constaté que 53,2 % des mutations trouvées chez les patients cancéreux présentaient des caractéristiques compatibles avec l'hématopoïèse clonale. 47 Cette étude met donc en évidence le risque de faux résultats et la nécessité d'intégrer l'ADN des globules blancs comme contrôle lors de l'application de méthodes de séquençage ultrasensibles de l'ADNc. Globalement, il apparaît nécessaire que les laboratoires commentent ces différentes limites dans leurs rapports. 54

Si ces facteurs techniques et biologiques pouvaient être exclus, alors l'ADNct pourrait être utilisé pour évaluer l'hétérogénéité intratumorale, car il est désormais bien admis qu'une seule procédure de biopsie tumorale génère une représentation limitée de l'hétérogénéité temporelle et spatiale, alors que l'ADNct dans le plasma représenterait un pool de la tumeur entière ou des sites métastatiques. 55 Jusqu'à présent, les études cliniques comparant l'analyse plasmatique aux biopsies tissulaires multirégionales sont rares et limitées à quelques patients, en raison d'un risque accru d'effets secondaires cliniques indésirables liés à cette procédure invasive (voir Tableau 1). En ce sens, les études menées à l'aide de programmes d'autopsie rapide sont particulièrement intéressantes. 26 Certaines études ont montré que le niveau quantitatif de mutations trouvées dans l'ADNct reflète l'architecture du paysage mutationnel dans le tissu tumoral, avec des mutations tronculaires plus facilement détectables que des mutations privées. 10,56,57,58 Dans le contexte de la résistance acquise dans les cancers gastro-intestinaux, l'analyse des mutations de l'ADNct prélevé à la progression était plus informative que l'analyse correspondante des biopsies tissulaires. 34 Cependant, dans certains cas de patients atteints de mélanome, l'analyse de l'ADNct ne reflétait que partiellement l'hétérogénéité, avec une sous-représentation de certains sites métastatiques anatomiques comme les métastases cérébrales ou sous-cutanées. 12 Une meilleure compréhension des paramètres qui régissent la libération d'ADNct (c'est-à-dire la prolifération/le renouvellement, la sécrétion active, le type de cancer, la localisation ou la vascularisation tumorale) est donc nécessaire.


Discussion

Pour de nombreux mutants, l'utilisation du clonage positionnel traditionnel basé sur une carte est une approche extrêmement difficile pour l'identification de la base génétique de certains phénotypes. Ici, nous avons démontré l'utilité du séquençage massivement parallèle à l'aide d'un séquenceur ABI SOLiD pour repérer les mutations induites par l'EMS dans une souche de non-référence de Arabidopsis. En utilisant une approche génomique fonctionnelle, basée sur l'hypothèse qu'un gène composant l'horloge est susceptible d'être exprimé de manière rythmique, nous avons pu réduire davantage le nombre de SNP candidats. Enfin, en utilisant les informations SNP, nous avons pu exclure le gène d'horloge précédemment identifié PRR7 en générant des lignées rétrocroisées propres, identifiant un SNP dans le gène ÀNFXL-2 comme la cause probable de la ebi-1 phénotype. Ceci a été encore validé par la caractérisation d'un deuxième allèle de ebi, ebi-2. Notre approche démontre la faisabilité du séquençage de nouvelle génération comme outil de clonage positionnel de gènes dans un grand génome.

Le gène responsable de la ebi-1 phénotype, ÀNFXL-2, est un facteur de transcription à doigt de zinc, un homologue de la protéine NF-X1 humaine. Chez l'homme, NF-X1 se lie à la X-box trouvée dans les gènes du CMH de classe II [29]. Arabidopsis a deux homologues NF-X1, ÀNFXL-1 et ÀNFXL-2, dont on pense qu'ils agissent de manière antagoniste pour réguler les gènes impliqués dans le stress salin, osmotique et hydrique, avec AtNFXL-1 activant et AtNFXL-2 réprimant les gènes induisant le stress [30]. AtNFXL-1 a également été suggéré comme étant un régulateur négatif des gènes liés à la défense [31] et du stress thermique [32]. Ainsi, le phénotype d'horloge de la ÀNFXL-2 mutant fournit un lien intrigant entre l'horloge et les réponses aux stress biotiques et abiotiques. Ce lien a déjà été évoqué dans une revue récente [33] et dans l'identification d'un rôle possible de la protéine d'horloge GI dans la tolérance au stress froid [34].

Le séquençage du parent d'origine à partir duquel le mutant EMS était dérivé était essentiel au succès de ce projet. Lorsque Col-0 a récemment été re-séquencé à l'aide d'une souche de laboratoire, 1 172 SNP ont été identifiés entre la souche de laboratoire Col-0 et le génome de référence original de Col-0. Il est donc clair que le séquençage du parent d'origine plutôt que de s'appuyer sur une référence précédemment séquencée est la bonne approche. Deuxièmement, le fait que nous ayons utilisé une lignée rétrocroisée a réduit le nombre de mutations EMS que nous devions prendre en compte d'environ 1 200 à 109. Le grand nombre de SNP « piggy-back » fournit également un exemple frappant du nombre de des mutations (51) sont toujours présentes dans ce qui est considéré par la communauté comme une lignée « propre ».

Une approche alternative à la méthode de séquençage direct décrite ici a été rapportée [16, 17]. La technique repose sur la notation précise des individus mutants dans un F2 cartographie croisée entre divergents Arabidopsis accessions, puis combiner ces individus et séquencer l'ADN en vrac à l'aide du séquençage de nouvelle génération. La sortie des données de séquence fournit des informations sur la position de mappage et un certain nombre de SNP candidats. Bien que cette approche soit extrêmement précieuse, lorsque le phénotype est subtil et qu'il existe une grande quantité de variation de phénotype entre les individus (entraînant un nombre élevé de faux positifs), il est peu probable qu'elle soit utile. Pour le ebi-1 mutant, la cartographie n'était possible qu'en notant à nouveau les mutants potentiels isolés dans F2 à nouveau dans le F3.

Nos données indiquent clairement un biais de brin dans le processus de mutagenèse, résultant en de longues séries de transitions C à T ou G à A, plutôt qu'une mutation aléatoire de l'un ou l'autre brin comme prévu sur la base d'enquêtes antérieures au niveau de la population [22]. Il a été démontré que l'activité transcriptionnelle affecte l'efficacité de la réparation [35], bien que cela soit peu susceptible d'expliquer le biais, car sur les longues étendues du génome, les deux brins de l'ADN sont transcriptionnellement actifs. Une explication simple est que l'événement de mutagenèse se produit et que chaque brin d'ADN est répliqué et se sépare pour séparer les cellules filles. Cela suffirait à conférer un biais de brin et donc les longs tronçons de transitions identiques.

Cette approche combinée de séquençage de nouvelle génération et de génomique fonctionnelle peut être utilisée pour identifier des gènes auparavant insolubles dans les approches de cartographie conventionnelles. La méthodologie ne se limite pas à Arabidopsis ou aux SNP induits par l'EMS, mais pourraient être utilisés pour cloner positionnellement des gènes dans n'importe quel organisme avec un génome séquencé. À mesure que la précision et le débit augmentent, la technique devrait être possible dans des génomes plus grands et plus complexes.


Contenu

Les premières séquences du génome humain ont été publiées sous une forme provisoire presque complète en février 2001 par le Human Genome Project [15] et Celera Corporation.[16] L'achèvement de l'effort de séquençage du projet du génome humain a été annoncé en 2004 avec la publication d'un projet de séquence du génome, ne laissant que 341 lacunes dans la séquence, représentant un ADN hautement répétitif et autre qui ne pouvait pas être séquencé avec la technologie disponible au temps. [8] Le génome humain a été le premier de tous les vertébrés à être séquencé jusqu'à un tel quasi-achèvement, et en 2018, les génomes diploïdes de plus d'un million d'humains individuels avaient été déterminés à l'aide du séquençage de nouvelle génération. [17] En 2021, il a été signalé que le consortium T2T avait comblé toutes les lacunes. C'est ainsi qu'est né un génome humain complet sans lacunes. [18]

Ces données sont utilisées dans le monde entier en sciences biomédicales, en anthropologie, en médecine légale et dans d'autres branches de la science. De telles études génomiques ont conduit à des progrès dans le diagnostic et le traitement des maladies, et à de nouvelles connaissances dans de nombreux domaines de la biologie, y compris l'évolution humaine.

En juin 2016, les scientifiques ont officiellement annoncé HGP-Write, un plan de synthèse du génome humain. [19] [20]

Bien que « l'achèvement » du projet du génome humain ait été annoncé en 2001, [14] il restait des centaines de lacunes, avec environ 5 à 10 % de la séquence totale restant indéterminée. L'information génétique manquante se trouvait principalement dans les régions hétérochromatiques répétitives et à proximité des centromères et des télomères, mais aussi dans certaines régions euchromatiques codant pour les gènes. [21] Il restait 160 lacunes euchromatiques en 2015 lorsque les séquences couvrant 50 autres régions auparavant non séquencées ont été déterminées. [22] Ce n'est qu'en 2020 que la première séquence télomère à télomère vraiment complète d'un chromosome humain a été déterminée, à savoir le chromosome X. [23]

La longueur totale du génome humain de référence, qui ne représente la séquence d'aucun individu spécifique, dépasse 3 milliards de paires de bases. Le génome est organisé en 22 paires de chromosomes, appelées autosomes, plus la 23e paire de chromosomes sexuels (XX) chez la femelle et (XY) chez le mâle. Ce sont toutes de grandes molécules d'ADN linéaires contenues dans le noyau cellulaire. Le génome comprend également l'ADN mitochondrial, une molécule circulaire relativement petite présente en plusieurs exemplaires dans chaque mitochondrie.

Données du génome humain de référence, par chromosome [24]
Chromosome Longueur
(mm)
Base
paires
Variantes Protéine-
codage
gènes
Pseudo-
gènes
Le total
longue
ARNnc
Le total
petit
ARNnc
miARN ARNr snRNA snoARN Divers
ARNnc
Liens Centromère
position
(Mbp)
Cumul
(%)
1 85 248,956,422 12,151,146 2058 1220 1200 496 134 66 221 145 192 EBI 125 7.9
2 83 242,193,529 12,945,965 1309 1023 1037 375 115 40 161 117 176 EBI 93.3 16.2
3 67 198,295,559 10,638,715 1078 763 711 298 99 29 138 87 134 EBI 91 23
4 65 190,214,555 10,165,685 752 727 657 228 92 24 120 56 104 EBI 50.4 29.6
5 62 181,538,259 9,519,995 876 721 844 235 83 25 106 61 119 EBI 48.4 35.8
6 58 170,805,979 9,130,476 1048 801 639 234 81 26 111 73 105 EBI 61 41.6
7 54 159,345,973 8,613,298 989 885 605 208 90 24 90 76 143 EBI 59.9 47.1
8 50 145,138,636 8,221,520 677 613 735 214 80 28 86 52 82 EBI 45.6 52
9 48 138,394,717 6,590,811 786 661 491 190 69 19 66 51 96 EBI 49 56.3
10 46 133,797,422 7,223,944 733 568 579 204 64 32 87 56 89 EBI 40.2 60.9
11 46 135,086,622 7,535,370 1298 821 710 233 63 24 74 76 97 EBI 53.7 65.4
12 45 133,275,309 7,228,129 1034 617 848 227 72 27 106 62 115 EBI 35.8 70
13 39 114,364,328 5,082,574 327 372 397 104 42 16 45 34 75 EBI 17.9 73.4
14 36 107,043,718 4,865,950 830 523 533 239 92 10 65 97 79 EBI 17.6 76.4
15 35 101,991,189 4,515,076 613 510 639 250 78 13 63 136 93 EBI 19 79.3
16 31 90,338,345 5,101,702 873 465 799 187 52 32 53 58 51 EBI 36.6 82
17 28 83,257,441 4,614,972 1197 531 834 235 61 15 80 71 99 EBI 24 84.8
18 27 80,373,285 4,035,966 270 247 453 109 32 13 51 36 41 EBI 17.2 87.4
19 20 58,617,616 3,858,269 1472 512 628 179 110 13 29 31 61 EBI 26.5 89.3
20 21 64,444,167 3,439,621 544 249 384 131 57 15 46 37 68 EBI 27.5 91.4
21 16 46,709,983 2,049,697 234 185 305 71 16 5 21 19 24 EBI 13.2 92.6
22 17 50,818,468 2,135,311 488 324 357 78 31 5 23 23 62 EBI 14.7 93.8
X 53 156,040,895 5,753,881 842 874 271 258 128 22 85 64 100 EBI 60.6 99.1
Oui 20 57,227,415 211,643 71 388 71 30 15 7 17 3 8 EBI 10.4 100
ADNmt 0.0054 16,569 929 13 0 0 24 0 2 0 0 0 EBI N / A 100
le total 3,088,286,401 155,630,645 20412 14600 14727 5037 1756 532 1944 1521 2213

Analyse originale publiée dans la base de données Ensembl de l'Institut Européen de Bioinformatique (EBI) et du Wellcome Trust Sanger Institute. Longueurs de chromosomes estimées en multipliant le nombre de paires de bases par 0,34 nanomètres (distance entre les paires de bases dans la structure la plus courante de la double hélice d'ADN une estimation récente des longueurs de chromosomes humains basée sur des données mises à jour rapporte 205,00 cm pour le génome mâle diploïde et 208,23 cm pour les femmes, correspondant à des poids de 6,41 et 6,51 picogrammes (pg), respectivement [25] ). Le nombre de protéines est basé sur le nombre de transcrits d'ARNm précurseurs initiaux et n'inclut pas les produits d'épissage alternatif de pré-ARNm, ni les modifications de la structure de la protéine qui se produisent après la traduction.

Les variations sont des différences de séquences d'ADN uniques qui ont été identifiées dans les séquences individuelles du génome humain analysées par Ensembl en décembre 2016. Le nombre de variations identifiées devrait augmenter à mesure que d'autres génomes personnels sont séquencés et analysés. En plus du contenu génique présenté dans ce tableau, un grand nombre de séquences fonctionnelles non exprimées ont été identifiées dans tout le génome humain (voir ci-dessous). Les liens ouvrent des fenêtres vers les séquences chromosomiques de référence dans le navigateur de génome EBI.

Les petits ARN non codants sont des ARN d'au moins 200 bases qui n'ont pas de potentiel de codage des protéines. Ceux-ci incluent : les microARN, ou miARN (régulateurs post-transcriptionnels de l'expression des gènes), les petits ARN nucléaires ou snARN (les composants ARN des spliceosomes) et les petits ARN nucléolaires, ou snoARN (impliqués dans le guidage des modifications chimiques vers d'autres molécules d'ARN). Les ARN longs non codants sont des molécules d'ARN de plus de 200 bases qui n'ont pas de potentiel de codage des protéines. Ceux-ci comprennent : les ARN ribosomiques, ou ARNr (les composants ARN des ribosomes), et une variété d'autres ARN longs impliqués dans la régulation de l'expression des gènes, les modifications épigénétiques des nucléotides de l'ADN et des protéines histones, et la régulation de l'activité des protéines codant pour les protéines. gènes. De petits écarts entre le nombre total de petits ARNnc et le nombre de types spécifiques de petits ncNRA résultent du fait que les premières valeurs proviennent de la version 87 de l'Ensembl et la dernière de la version 68 de l'Ensembl.

Le nombre de gènes dans le génome humain n'est pas tout à fait clair car la fonction de nombreux transcrits reste incertaine. Ceci est particulièrement vrai pour l'ARN non codant. Le nombre de gènes codant pour les protéines est mieux connu mais il existe encore de l'ordre de 1 400 gènes discutables qui peuvent ou non coder des protéines fonctionnelles, généralement codées par de courts cadres ouverts de lecture.

Divergences dans les estimations du nombre de gènes humains entre différentes bases de données, en juillet 2018 [26]
Gencode [27] Ensemble [28] Réf [29] ÉCHECS [30]
gènes codant pour les protéines 19,901 20,376 20,345 21,306
Gènes lncRNA 15,779 14,720 17,712 18,484
ARN antisens 5501 28 2694
divers ARN 2213 2222 13,899 4347
Pseudogènes 14,723 1740 15,952
total des relevés de notes 203,835 203,903 154,484 328,827

Contenu de l'information Modifier

Le génome humain haploïde (23 chromosomes) est long d'environ 3 milliards de paires de bases et contient environ 30 000 gènes. [31] Étant donné que chaque paire de bases peut être codée sur 2 bits, cela représente environ 750 mégaoctets de données. Une cellule somatique (diploïde) individuelle contient le double de cette quantité, soit environ 6 milliards de paires de bases. Les hommes ont moins que les femmes parce que le chromosome Y est d'environ 57 millions de paires de bases alors que le X est d'environ 156 millions. Étant donné que les génomes individuels varient en séquence de moins de 1 % les uns des autres, les variations du génome d'un humain donné à partir d'une référence commune peuvent être compressées sans perte à environ 4 mégaoctets. [32]

Le taux d'entropie du génome diffère significativement entre les séquences codantes et non codantes. Elle est proche du maximum de 2 bits par paire de bases pour les séquences codantes (environ 45 millions de paires de bases), mais moins pour les parties non codantes. Il varie entre 1,5 et 1,9 bits par paire de bases pour le chromosome individuel, à l'exception du chromosome Y, qui a un taux d'entropie inférieur à 0,9 bits par paire de bases. [33]

Le contenu du génome humain est généralement divisé en séquences d'ADN codantes et non codantes. L'ADN codant est défini comme les séquences qui peuvent être transcrites en ARNm et traduites en protéines au cours du cycle de vie humain. Ces séquences n'occupent qu'une petite fraction du génome (<2%). L'ADN non codant est composé de toutes ces séquences (environ 98 % du génome) qui ne sont pas utilisées pour coder des protéines.

Certains ADN non codants contiennent des gènes pour des molécules d'ARN avec des fonctions biologiques importantes (ARN non codant, par exemple ARN ribosomique et ARN de transfert). L'exploration de la fonction et de l'origine évolutive de l'ADN non codant est un objectif important de la recherche génomique contemporaine, y compris le projet ENCODE (Encyclopedia of DNA Elements), qui vise à étudier l'ensemble du génome humain, en utilisant une variété d'outils expérimentaux dont les résultats sont indicatifs. d'activité moléculaire.

Parce que l'ADN non codant dépasse largement l'ADN codant, le concept de génome séquencé est devenu un concept analytique plus ciblé que le concept classique de gène codant pour l'ADN. [34] [35]

Les séquences codant pour les protéines représentent le composant le plus largement étudié et le mieux compris du génome humain. Ces séquences conduisent finalement à la production de toutes les protéines humaines, bien que plusieurs processus biologiques (par exemple, les réarrangements de l'ADN et l'épissage alternatif du pré-ARNm) puissent conduire à la production de beaucoup plus de protéines uniques que le nombre de gènes codant pour les protéines. La capacité modulaire complète de codage des protéines du génome est contenue dans l'exome et consiste en des séquences d'ADN codées par des exons qui peuvent être traduites en protéines. En raison de son importance biologique et du fait qu'il constitue moins de 2% du génome, le séquençage de l'exome a été le premier jalon majeur du projet du génome humain.

Nombre de gènes codant pour les protéines. Environ 20 000 protéines humaines ont été annotées dans des bases de données telles qu'Uniprot. [37] Historiquement, les estimations du nombre de gènes de protéines ont considérablement varié, allant jusqu'à 2 000 000 à la fin des années 1960, [38] mais plusieurs chercheurs ont souligné au début des années 1970 que la charge mutationnelle estimée des mutations délétères plaçait une limite supérieure de environ 40 000 pour le nombre total de loci fonctionnels (cela comprend les gènes codant pour les protéines et les gènes fonctionnels non codants). [39] Le nombre de gènes codant pour les protéines humaines n'est pas significativement plus grand que celui de nombreux organismes moins complexes, tels que le ver rond et la mouche des fruits. Cette différence peut résulter de l'utilisation extensive de l'épissage alternatif du pré-ARNm chez l'homme, qui offre la possibilité de construire un très grand nombre de protéines modulaires grâce à l'incorporation sélective d'exons.

Capacité de codage des protéines par chromosome. Les gènes codant pour les protéines sont répartis de manière inégale sur les chromosomes, allant de quelques dizaines à plus de 2000, avec une densité de gènes particulièrement élevée dans les chromosomes 1, 11 et 19. Chaque chromosome contient diverses régions riches et pauvres en gènes, qui peut être corrélé avec les bandes chromosomiques et le contenu en GC. [40] La signification de ces modèles non aléatoires de densité génétique n'est pas bien comprise. [41]

Taille des gènes codant pour les protéines. La taille des gènes codant pour les protéines dans le génome humain montre une énorme variabilité. Par exemple, le gène de l'histone H1a (HIST1HIA) est relativement petit et simple, dépourvu d'introns et codant pour un ARNm de 781 nucléotides de long qui produit une protéine de 215 acides aminés à partir de son cadre de lecture ouvert de 648 nucléotides. La dystrophine (DMD) était le plus grand gène codant pour une protéine dans le génome humain de référence de 2001, couvrant un total de 2,2 millions de nucléotides, [42] tandis qu'une méta-analyse systématique plus récente des données mises à jour du génome humain a identifié un gène codant pour une protéine encore plus grand, RBFOX1 (RNA binding protein, fox-1 homologue 1), couvrant un total de 2,47 millions de nucléotides. [43] Titine (TTN) a la séquence codante la plus longue (114 414 nucléotides), le plus grand nombre d'exons (363), [42] et l'exon unique le plus long (17 106 nucléotides). Comme estimé sur la base d'un ensemble organisé de gènes codant pour des protéines sur l'ensemble du génome, la taille médiane est de 26 288 nucléotides (moyenne = 66 577), la taille médiane des exons, 133 nucléotides (moyenne = 309), le nombre médian d'exons, 8 ( moyenne = 11), et la protéine codée médiane a une longueur de 425 acides aminés (moyenne = 553). [43]

Exemples de gènes codant pour des protéines humaines [44]
Protéine Chrome Gène Longueur Exons Longueur de l'exon Longueur d'intron Épissage alternatif
Protéine de susceptibilité au cancer du sein de type 2 13 BRCA2 83,736 27 11,386 72,350 Oui
Régulateur de conductance transmembranaire de la mucoviscidose 7 CFTR 202,881 27 4,440 198,441 Oui
Cytochrome b TA MTCYB 1,140 1 1,140 0 non
Dystrophine X DMD 2,220,381 79 10,500 2,209,881 Oui
Glycéraldéhyde-3-phosphate déshydrogénase 12 GAPDH 4,444 9 1,425 3,019 Oui
Sous-unité bêta de l'hémoglobine 11 HBB 1,605 3 626 979 non
Histone H1A 6 HIST1H1A 781 1 781 0 non
Titine 2 TTN 281,434 364 104,301 177,133 Oui

L'ADN non codant est défini comme l'ensemble des séquences d'ADN d'un génome qui ne se trouvent pas dans les exons codant pour les protéines et qui ne sont donc jamais représentées dans la séquence d'acides aminés des protéines exprimées. Selon cette définition, plus de 98% des génomes humains sont composés d'ADNc.

De nombreuses classes d'ADN non codant ont été identifiées, notamment des gènes d'ARN non codant (par exemple, ARNt et ARNr), des pseudogènes, des introns, des régions non traduites d'ARNm, des séquences d'ADN régulatrices, des séquences d'ADN répétitives et des séquences liées à des éléments génétiques mobiles.

De nombreuses séquences incluses dans les gènes sont également définies comme de l'ADN non codant. Ceux-ci comprennent des gènes pour l'ARN non codant (par exemple, ARNt, ARNr) et des composants non traduits de gènes codant pour des protéines (par exemple, des introns et des régions non traduites 5' et 3' de l'ARNm).

Les séquences codant pour les protéines (en particulier, les exons codants) constituent moins de 1,5% du génome humain. [14] De plus, environ 26% du génome humain sont des introns. [45] À part les gènes (exons et introns) et les séquences régulatrices connues (8-20 %), le génome humain contient des régions d'ADN non codant. La quantité exacte d'ADN non codant qui joue un rôle dans la physiologie cellulaire a été vivement débattue. Une analyse récente du projet ENCODE indique que 80 % de l'ensemble du génome humain est soit transcrit, se lie à des protéines régulatrices ou est associé à une autre activité biochimique. [12]

Il reste cependant controversé si toute cette activité biochimique contribue à la physiologie cellulaire, ou si une partie substantielle de cela est le résultat du bruit transcriptionnel et biochimique, qui doit être activement filtré par l'organisme. [46] En excluant les séquences codant pour les protéines, les introns et les régions régulatrices, une grande partie de l'ADN non codant est composée de : De nombreuses séquences d'ADN qui ne jouent pas un rôle dans l'expression génique ont des fonctions biologiques importantes. Des études de génomique comparative indiquent qu'environ 5% du génome contient des séquences d'ADN non codant hautement conservées, parfois sur des échelles de temps représentant des centaines de millions d'années, ce qui implique que ces régions non codantes sont soumises à une forte pression évolutive et à une sélection positive. [47]

Beaucoup de ces séquences régulent la structure des chromosomes en limitant les régions de formation de l'hétérochromatine et en régulant les caractéristiques structurelles des chromosomes, telles que les télomères et les centromères. D'autres régions non codantes servent d'origine à la réplication de l'ADN. Enfin, plusieurs régions sont transcrites en ARN fonctionnel non codant qui régule l'expression des gènes codant pour les protéines (par exemple [48] ), la traduction et la stabilité de l'ARNm (voir miARN), la structure de la chromatine (y compris les modifications des histones, par exemple [49] ), l'ADN la méthylation (par exemple [50] ), la recombinaison de l'ADN (par exemple [51] ) et la régulation croisée d'autres ARN non codants (par exemple [52] ). Il est également probable que de nombreuses régions non codantes transcrites ne jouent aucun rôle et que cette transcription soit le produit d'une activité ARN polymérase non spécifique. [46]

Pseudogènes Modifier

Les pseudogènes sont des copies inactives de gènes codant pour des protéines, souvent générés par duplication de gènes, qui sont devenus non fonctionnels par l'accumulation de mutations inactivantes. Le nombre de pseudogènes dans le génome humain est de l'ordre de 13 000, [53] et dans certains chromosomes est presque le même que le nombre de gènes fonctionnels codant pour des protéines. La duplication de gènes est un mécanisme majeur par lequel un nouveau matériel génétique est généré au cours de l'évolution moléculaire.

Par exemple, la famille des gènes des récepteurs olfactifs est l'un des exemples les mieux documentés de pseudogènes dans le génome humain. Plus de 60 pour cent des gènes de cette famille sont des pseudogènes non fonctionnels chez l'homme. En comparaison, seulement 20 pour cent des gènes de la famille des gènes des récepteurs olfactifs de la souris sont des pseudogènes. La recherche suggère qu'il s'agit d'une caractéristique spécifique à l'espèce, car les primates les plus proches ont tous proportionnellement moins de pseudogènes. Cette découverte génétique aide à expliquer le sens de l'odorat moins aigu chez l'homme par rapport aux autres mammifères. [54]

Gènes pour l'ARN non codant (ARNnc) Modifier

Les molécules d'ARN non codantes jouent de nombreux rôles essentiels dans les cellules, en particulier dans les nombreuses réactions de synthèse des protéines et de traitement de l'ARN. L'ARN non codant comprend l'ARNt, l'ARN ribosomique, le microARN, le snRNA et d'autres gènes d'ARN non codant comprenant environ 60 000 ARN longs non codants (lncRNA). [12] [55] [56] [57] Bien que le nombre de gènes lncRNA signalés continue d'augmenter et que le nombre exact dans le génome humain reste à définir, beaucoup d'entre eux sont considérés comme non fonctionnels. [58]

De nombreux ARNnc sont des éléments essentiels de la régulation et de l'expression des gènes. L'ARN non codant contribue également à l'épigénétique, à la transcription, à l'épissage de l'ARN et à la machinerie traductionnelle. Le rôle de l'ARN dans la régulation génétique et la maladie offre un nouveau niveau potentiel de complexité génomique inexplorée. [59]

Introns et régions non traduites de l'ARNm Modifier

En plus des molécules d'ARNnc codées par des gènes discrets, les transcrits initiaux des gènes codant pour les protéines contiennent généralement de vastes séquences non codantes, sous la forme d'introns, de régions non traduites en 5' (5'-UTR) et de régions non traduites en 3' (3'-UTR). Dans la plupart des gènes codant pour des protéines du génome humain, la longueur des séquences d'intron est de 10 à 100 fois la longueur des séquences d'exon.

Séquences d'ADN régulatrices Modifier

Le génome humain possède de nombreuses séquences régulatrices différentes qui sont cruciales pour contrôler l'expression des gènes. Des estimations prudentes indiquent que ces séquences représentent 8% du génome, [60] cependant les extrapolations du projet ENCODE donnent que 20 [61] -40% [62] du génome sont des séquences régulatrices de gènes. Certains types d'ADN non codant sont des « commutateurs » génétiques qui ne codent pas pour les protéines, mais régulent quand et où les gènes sont exprimés (appelés amplificateurs). [63]

Les séquences régulatrices sont connues depuis la fin des années 1960. [64] La première identification de séquences régulatrices dans le génome humain reposait sur la technologie de l'ADN recombinant. [65] Plus tard avec l'avènement du séquençage génomique, l'identification de ces séquences pourrait être déduite par la conservation évolutive. La branche évolutive entre les primates et la souris, par exemple, s'est produite il y a 70 à 90 millions d'années. [66] Ainsi, les comparaisons informatiques des séquences de gènes qui identifient les séquences non codantes conservées seront une indication de leur importance dans des fonctions telles que la régulation des gènes. [67]

D'autres génomes ont été séquencés avec la même intention d'aider les méthodes guidées par la conservation, par exemple le génome du poisson-globe. [68] Cependant, les séquences régulatrices disparaissent et réévoluent au cours de l'évolution à un rythme élevé. [69] [70] [71]

À partir de 2012, les efforts se sont tournés vers la recherche d'interactions entre l'ADN et les protéines régulatrices par la technique ChIP-Seq, ou des lacunes où l'ADN n'est pas emballé par des histones (sites hypersensibles à la DNase), qui indiquent tous deux où se trouvent des séquences régulatrices actives dans le type cellulaire étudié. [60]

Séquences d'ADN répétitives Modifier

Les séquences d'ADN répétitives représentent environ 50 % du génome humain. [72]

Environ 8% du génome humain se compose de puces à ADN en tandem ou de répétitions en tandem, des séquences répétées de faible complexité qui ont plusieurs copies adjacentes (par exemple "CAGCAGCAG. "). [73] Les séquences en tandem peuvent être de longueurs variables, de deux nucléotides à des dizaines de nucléotides. Ces séquences sont très variables, même parmi des individus étroitement apparentés, et sont donc utilisées pour les tests ADN généalogiques et l'analyse ADN médico-légale. [74]

Séquences répétées de moins de dix nucléotides (par exemple la répétition dinucléotidique (AC)m) sont appelées séquences microsatellites. Parmi les séquences microsatellites, les répétitions trinucléotidiques sont d'une importance particulière, car elles se produisent parfois dans les régions codantes des gènes pour les protéines et peuvent conduire à des troubles génétiques. Par exemple, la maladie de Huntington résulte d'une expansion de la répétition trinucléotidique (CAG)m au sein de la Huntingtine gène sur le chromosome humain 4. Les télomères (les extrémités des chromosomes linéaires) se terminent par une répétition hexanucléotidique microsatellite de la séquence (TTAGGG)m.

Les répétitions en tandem de séquences plus longues (matrices de séquences répétées de 10 à 60 nucléotides de long) sont appelées minisatellites.

Éléments génétiques mobiles (transposons) et leurs reliques Modifier

Les éléments génétiques transposables, les séquences d'ADN qui peuvent se répliquer et insérer des copies d'elles-mêmes à d'autres endroits dans un génome hôte, sont un composant abondant dans le génome humain. La lignée de transposons la plus abondante, Alu, a environ 50 000 copies actives, [75] et peut être inséré dans des régions intragéniques et intergéniques. [76] Une autre lignée, LINE-1, a environ 100 copies actives par génome (le nombre varie selon les personnes). [77] Avec les reliques non fonctionnelles d'anciens transposons, ils représentent plus de la moitié de l'ADN humain total. [78] Parfois appelés « gènes sauteurs », les transposons ont joué un rôle majeur dans la sculpture du génome humain. Certaines de ces séquences représentent des rétrovirus endogènes, des copies d'ADN de séquences virales qui se sont intégrées de manière permanente dans le génome et sont maintenant transmises aux générations suivantes.

Les éléments mobiles du génome humain peuvent être classés en rétrotransposons LTR (8,3 % du génome total), SINE (13,1 % du génome total), y compris les éléments Alu, les LINE (20,4 % du génome total), les SVA et les transposons d'ADN de classe II (2,9 % du génome total).

Génome humain de référence Modifier

À l'exception des jumeaux identiques, tous les humains présentent une variation significative des séquences d'ADN génomique. Le génome humain de référence (HRG) est utilisé comme référence de séquence standard.

Il y a plusieurs points importants concernant le génome humain de référence :

  • Le HRG est une séquence haploïde. Chaque chromosome est représenté une fois.
  • Le HRG est une séquence composite et ne correspond à aucun individu humain réel.
  • Le HRG est périodiquement mis à jour pour corriger les erreurs, les ambiguïtés et les "lacunes" inconnues.
  • Le HRG ne représente en aucun cas un individu humain « idéal » ou « parfait ». Il s'agit simplement d'une représentation ou d'un modèle normalisé qui est utilisé à des fins de comparaison.

Le Genome Reference Consortium est responsable de la mise à jour du HRG. La version 38 est sortie en décembre 2013. [79]

Mesurer la variation génétique humaine Modifier

La plupart des études sur la variation génétique humaine se sont concentrées sur les polymorphismes mononucléotidiques (SNP), qui sont des substitutions dans des bases individuelles le long d'un chromosome. La plupart des analyses estiment que les SNP se produisent en moyenne sur 1 000 paires de bases dans le génome humain euchromatique, bien qu'ils ne se produisent pas à une densité uniforme. Ainsi suit la déclaration populaire selon laquelle « nous sommes tous, sans distinction de race, génétiquement identiques à 99,9 % », [80] bien que cela soit quelque peu nuancé par la plupart des généticiens. Par exemple, on pense maintenant qu'une fraction beaucoup plus importante du génome est impliquée dans la variation du nombre de copies. [81] Un effort de collaboration à grande échelle pour cataloguer les variations SNP dans le génome humain est entrepris par le projet international HapMap.

Les loci génomiques et la longueur de certains types de petites séquences répétitives sont très variables d'une personne à l'autre, ce qui est à la base des technologies d'empreintes génétiques et de tests de paternité ADN. Les portions hétérochromatiques du génome humain, qui totalisent plusieurs centaines de millions de paires de bases, seraient également assez variables au sein de la population humaine (elles sont si répétitives et si longues qu'elles ne peuvent pas être séquencées avec précision avec la technologie actuelle). Ces régions contiennent peu de gènes, et il n'est pas clair si un effet phénotypique significatif résulte d'une variation typique des répétitions ou de l'hétérochromatine.

La plupart des mutations génomiques grossières dans les cellules germinales des gamètes entraînent probablement des embryons non viables, cependant, un certain nombre de maladies humaines sont liées à des anomalies génomiques à grande échelle. Le syndrome de Down, le syndrome de Turner et un certain nombre d'autres maladies résultent de la non-disjonction de chromosomes entiers. Les cellules cancéreuses présentent fréquemment une aneuploïdie des chromosomes et des bras chromosomiques, bien qu'une relation de cause à effet entre l'aneuploïdie et le cancer n'ait pas été établie.

Cartographier la variation génomique humaine Modifier

Alors qu'une séquence de génome répertorie l'ordre de chaque base d'ADN dans un génome, une carte du génome identifie les points de repère. Une carte du génome est moins détaillée qu'une séquence du génome et facilite la navigation dans le génome. [82] [83]

Un exemple de carte de variation est le HapMap développé par le projet international HapMap. Le HapMap est une carte d'haplotypes du génome humain, "qui décrira les modèles communs de variation de séquence d'ADN humain". [84] Il répertorie les modèles de variations à petite échelle dans le génome qui impliquent des lettres d'ADN simples, ou des bases.

Les chercheurs ont publié la première carte basée sur des séquences de la variation structurelle à grande échelle à travers le génome humain dans le journal La nature en mai 2008. [85] [86] Les variations structurelles à grande échelle sont des différences dans le génome chez les personnes qui vont de quelques milliers à quelques millions de bases d'ADN, certaines sont des gains ou des pertes d'étendues de séquence du génome et d'autres apparaissent comme des ré- arrangements d'étirements de séquence. Ces variations incluent des différences dans le nombre de copies que les individus ont d'un gène particulier, des délétions, des translocations et des inversions.

Variation structurelle Modifier

La variation structurelle fait référence à des variantes génétiques qui affectent de plus grands segments du génome humain, par opposition aux mutations ponctuelles. Souvent, les variants structurels (SV) sont définis comme des variants de 50 paires de bases (pb) ou plus, tels que des délétions, duplications, insertions, inversions et autres réarrangements. Environ 90 % des variantes structurelles sont des délétions non codantes, mais la plupart des individus ont plus d'un millier de ces délétions, la taille des délétions allant de dizaines de paires de bases à des dizaines de milliers de pb. [87] En moyenne, les individus portent

3 variantes structurelles rares qui modifient les régions codantes, par ex. supprimer les exons. Environ 2% des individus portent des variantes structurelles ultra-rares à l'échelle de la mégabase, en particulier des réarrangements. C'est-à-dire que des millions de paires de bases peuvent être inversées au sein d'un chromosome ultra-rare, ce qui signifie qu'elles ne se trouvent que chez des individus ou des membres de leur famille et sont donc apparues très récemment. [87]

Fréquence SNP à travers le génome humain Modifier

Les polymorphismes mononucléotidiques (SNP) ne se produisent pas de manière homogène dans le génome humain. En fait, il existe une énorme diversité dans la fréquence des SNP entre les gènes, reflétant différentes pressions sélectives sur chaque gène ainsi que différents taux de mutation et de recombinaison à travers le génome. Cependant, les études sur les SNP sont biaisées en faveur des régions codantes, les données générées à partir de celles-ci sont peu susceptibles de refléter la distribution globale des SNP dans tout le génome. Par conséquent, le protocole du Consortium SNP a été conçu pour identifier les SNP sans biais envers les régions codantes et les 100 000 SNP du Consortium reflètent généralement la diversité des séquences à travers les chromosomes humains. Le consortium SNP vise à augmenter le nombre de SNP identifiés dans le génome à 300 000 d'ici la fin du premier trimestre 2001. [88]

Changements dans séquence non codante et changements synonymes de séquence de codage sont généralement plus fréquents que les changements non synonymes, reflétant une plus grande pression sélective réduisant la diversité aux positions dictant l'identité des acides aminés. Les changements transitionnels sont plus fréquents que les transversions, les dinucléotides CpG présentant le taux de mutation le plus élevé, probablement en raison de la désamination.

Génomes personnels Modifier

Une séquence de génome personnel est une séquence (presque) complète des paires de bases chimiques qui composent l'ADN d'une seule personne. Étant donné que les traitements médicaux ont des effets différents sur différentes personnes en raison de variations génétiques telles que les polymorphismes mononucléotidiques (SNP), l'analyse des génomes personnels peut conduire à un traitement médical personnalisé basé sur des génotypes individuels. [89]

La première séquence de génomes personnels à déterminer était celle de Craig Venter en 2007. Les génomes personnels n'avaient pas été séquencés dans le cadre du projet public du génome humain pour protéger l'identité des volontaires qui ont fourni des échantillons d'ADN. Cette séquence a été dérivée de l'ADN de plusieurs volontaires d'une population diversifiée. [90] Cependant, au début de l'effort de séquençage du génome Celera Genomics dirigé par Venter, la décision a été prise de passer du séquençage d'un échantillon composite à l'utilisation de l'ADN d'un seul individu, révélé plus tard être Venter lui-même. Ainsi, la séquence du génome humain de Celera publiée en 2000 était en grande partie celle d'un seul homme. Le remplacement ultérieur des premières données dérivées du composite et la détermination de la séquence diploïde, représentant les deux ensembles de chromosomes, plutôt qu'une séquence haploïde initialement rapportée, a permis la libération du premier génome personnel. [91] En avril 2008, celle de James Watson est également terminée. En 2009, Stephen Quake a publié sa propre séquence du génome dérivée d'un séquenceur de sa propre conception, l'Héliscope. [92] Une équipe de Stanford dirigée par Euan Ashley a publié un cadre pour l'interprétation médicale des génomes humains mis en œuvre sur le génome de Quake et a pris pour la première fois des décisions médicales tenant compte du génome entier. [93] Cette équipe a étendu l'approche à la famille West, la première famille séquencée dans le cadre du programme de séquençage du génome personnel d'Illumina. [94] Depuis lors, des centaines de séquences génomiques personnelles ont été publiées, [95] dont celles de Desmond Tutu, [96] [97] et d'un Paléo-Esquimau. [98] En 2012, l'ensemble des séquences génomiques de deux trios familiaux parmi 1092 génomes a été rendu public. [3] En novembre 2013, une famille espagnole a rendu public quatre ensembles de données d'exome personnels (environ 1% du génome) sous une licence de domaine public Creative Commons. [99] [100] Le Personal Genome Project (commencé en 2005) est parmi les rares à rendre accessibles au public à la fois les séquences du génome et les phénotypes médicaux correspondants. [101] [102]

Le séquençage des génomes individuels a encore dévoilé des niveaux de complexité génétique qui n'avaient pas été appréciés auparavant. La génomique personnelle a permis de révéler le niveau important de diversité du génome humain attribué non seulement aux SNP, mais également aux variations structurelles. Cependant, l'application de ces connaissances au traitement des maladies et dans le domaine médical n'en est qu'à ses tout débuts. [103] Le séquençage de l'exome est devenu de plus en plus populaire en tant qu'outil d'aide au diagnostic des maladies génétiques, car l'exome ne contribue qu'à 1 % de la séquence génomique, mais représente environ 85 % des mutations qui contribuent de manière significative à la maladie. [104]

Knockouts humains Modifier

Chez l'homme, les knock-outs de gènes se produisent naturellement sous forme de knock-outs de gènes hétérozygotes ou homozygotes avec perte de fonction. Ces knock-out sont souvent difficiles à distinguer, en particulier au sein de milieux génétiques hétérogènes. Ils sont également difficiles à trouver car ils se produisent dans les basses fréquences.

Les populations avec des taux élevés de consanguinité, tels que les pays avec des taux élevés de mariages entre cousins ​​germains, affichent les fréquences les plus élevées de knock-out de gènes homozygotes. Ces populations comprennent les populations du Pakistan, de l'Islande et des Amish. Ces populations avec un niveau élevé de parenté parentale ont fait l'objet de recherches sur l'élimination humaine qui ont permis de déterminer la fonction de gènes spécifiques chez l'homme. En distinguant des knock-outs spécifiques, les chercheurs sont en mesure d'utiliser des analyses phénotypiques de ces individus pour aider à caractériser le gène qui a été assommé.

Les knock-outs dans des gènes spécifiques peuvent provoquer des maladies génétiques, avoir potentiellement des effets bénéfiques ou même n'avoir aucun effet phénotypique. Cependant, déterminer l'effet phénotypique d'un knock-out et chez l'homme peut être difficile. Les défis à la caractérisation et à l'interprétation clinique des knock-out incluent la difficulté à appeler des variantes d'ADN, à déterminer la perturbation de la fonction protéique (annotation) et à prendre en compte l'influence du mosaïcisme sur le phénotype. [105]

L'étude sur le risque d'infarctus du myocarde au Pakistan est une étude majeure qui a examiné les KO chez l'homme. Il a été constaté que les individus possédant un knock-out du gène hétérozygote de perte de fonction pour le gène APOC3 avaient des triglycérides inférieurs dans le sang après avoir consommé un repas riche en graisses par rapport aux individus sans la mutation. Cependant, les individus possédant des knock-outs du gène de perte de fonction homozygote du gène APOC3 présentaient le niveau le plus bas de triglycérides dans le sang après le test de charge en graisse, car ils ne produisent aucune protéine APOC3 fonctionnelle. [106]

La plupart des aspects de la biologie humaine impliquent à la fois des facteurs génétiques (héréditaires) et non génétiques (environnementaux). Certaines variations héritées influencent des aspects de notre biologie qui ne sont pas de nature médicale (taille, couleur des yeux, capacité de goûter ou de sentir certains composés, etc.). De plus, certaines maladies génétiques ne provoquent la maladie qu'en combinaison avec des facteurs environnementaux appropriés (tels que l'alimentation). Avec ces mises en garde, les troubles génétiques peuvent être décrits comme des maladies cliniquement définies causées par une variation de la séquence d'ADN génomique. Dans les cas les plus simples, le trouble peut être associé à la variation d'un seul gène. Par exemple, la mucoviscidose est causée par des mutations du gène CFTR et est le trouble récessif le plus courant dans les populations caucasiennes avec plus de 1 300 mutations différentes connues. [107]

Les mutations causant des maladies dans des gènes spécifiques sont généralement graves en termes de fonction génique et sont heureusement rares, ainsi les troubles génétiques sont également rares individuellement. Cependant, étant donné qu'il existe de nombreux gènes qui peuvent varier pour causer des troubles génétiques, dans l'ensemble, ils constituent une composante importante des conditions médicales connues, en particulier en médecine pédiatrique. Les troubles génétiques caractérisés moléculairement sont ceux pour lesquels le gène causal sous-jacent a été identifié. Actuellement, il existe environ 2 200 troubles de ce type annotés dans la base de données de l'OMIM. [107]

Les études sur les troubles génétiques sont souvent réalisées au moyen d'études familiales. Dans certains cas, des approches basées sur la population sont utilisées, en particulier dans le cas des populations dites fondatrices telles que celles de la Finlande, du Canada français, de l'Utah, de la Sardaigne, etc. Le diagnostic et le traitement des troubles génétiques sont généralement effectués par un généticien-médecin. formé en génétique clinique/médicale. Les résultats du projet du génome humain sont susceptibles de fournir une disponibilité accrue des tests génétiques pour les troubles liés aux gènes, et éventuellement un traitement amélioré. Les parents peuvent être dépistés pour les conditions héréditaires et conseillés sur les conséquences, la probabilité d'héritage et comment l'éviter ou l'améliorer chez leur progéniture.

Il existe de nombreux types de variation de séquence d'ADN, allant des chromosomes complets supplémentaires ou manquants aux modifications d'un seul nucléotide. Il est généralement présumé qu'une grande partie de la variation génétique naturelle dans les populations humaines est phénotypiquement neutre, c'est-à-dire qu'elle a peu ou pas d'effet détectable sur la physiologie de l'individu (bien qu'il puisse y avoir des différences fractionnaires de fitness définies sur des périodes évolutives). Les troubles génétiques peuvent être causés par tout ou partie des types connus de variation de séquence. Pour caractériser moléculairement une nouvelle maladie génétique, il est nécessaire d'établir un lien de causalité entre une variante de séquence génomique particulière et la maladie clinique à l'étude. De telles études constituent le domaine de la génétique moléculaire humaine.

Avec l'avènement du génome humain et du projet international HapMap, il est devenu possible d'explorer des influences génétiques subtiles sur de nombreuses maladies courantes telles que le diabète, l'asthme, la migraine, la schizophrénie, etc. gènes particuliers et certaines de ces maladies, souvent avec beaucoup de publicité dans les médias en général, ceux-ci ne sont généralement pas considérés comme des troubles génétiques en soi car leurs causes sont complexes, impliquant de nombreux facteurs génétiques et environnementaux différents. Ainsi, il peut y avoir désaccord dans des cas particuliers quant à savoir si une condition médicale spécifique doit être qualifiée de maladie génétique.

Les autres troubles génétiques mentionnés sont le syndrome de Kallman et le syndrome de Pfeiffer (gène FGFR1), la dystrophie cornéenne de Fuchs (gène TCF4), la maladie de Hirschsprung (gènes RET et FECH), le syndrome de Bardet-Biedl 1 (gènes CCDC28B et BBS1), le syndrome de Bardet-Biedl 10 (gène BBS10), et la dystrophie musculaire facio-scapulo-humérale de type 2 (gènes D4Z4 et SMCHD1). [108]

Le séquençage du génome est désormais capable de réduire le génome à des emplacements spécifiques pour trouver plus précisément les mutations qui entraîneront une maladie génétique. Les variants à nombre de copies (CNV) et les variants à nucléotide unique (SNV) peuvent également être détectés en même temps que le séquençage du génome avec les nouvelles procédures de séquençage disponibles, appelées séquençage de nouvelle génération (NGS). Celui-ci n'analyse qu'une petite partie du génome, environ 1 à 2 %. Les résultats de ce séquençage peuvent être utilisés pour le diagnostic clinique d'une maladie génétique, y compris le syndrome d'Usher, la maladie rétinienne, les déficiences auditives, le diabète, l'épilepsie, la maladie de Leigh, les cancers héréditaires, les maladies neuromusculaires, les immunodéficiences primaires, l'immunodéficience combinée sévère (SCID) et maladies des mitochondries. [109] Le NGS peut également être utilisé pour identifier les porteurs de maladies avant la conception. Les maladies pouvant être détectées dans ce séquençage comprennent la maladie de Tay-Sachs, le syndrome de Bloom, la maladie de Gaucher, la maladie de Canavan, la dysautonomie familiale, la mucoviscidose, l'amyotrophie spinale et le syndrome de l'X fragile. Le séquençage suivant du génome peut être réduit pour rechercher spécifiquement des maladies plus répandues dans certaines populations ethniques. [110]

1:15000 chez les Caucasiens américains

1:176 dans les communautés mennonites/amish

Des études de génomique comparative des génomes de mammifères suggèrent qu'environ 5 % du génome humain a été conservé par l'évolution depuis la divergence des lignées existantes il y a environ 200 millions d'années, contenant la grande majorité des gènes. [111] [112] Le génome de chimpanzé publié diffère de celui du génome humain de 1,23% dans les comparaisons de séquences directes. [113] Environ 20 % de ce chiffre s'explique par la variation au sein de chaque espèce, ne laissant que

Divergence de séquence cohérente de 1,06 % entre les humains et les chimpanzés au niveau des gènes partagés. [114] Cette différence nucléotide par nucléotide est cependant éclipsée par la partie de chaque génome qui n'est pas partagée, y compris environ 6 % de gènes fonctionnels uniques aux humains ou aux chimpanzés. [115]

En d'autres termes, les différences considérables observables entre les humains et les chimpanzés peuvent être dues autant ou plus à la variation au niveau du génome dans le nombre, la fonction et l'expression des gènes plutôt qu'aux changements de séquence d'ADN dans les gènes partagés. En effet, même chez l'homme, il s'est avéré qu'il existe une quantité auparavant non appréciée de variation du nombre de copies (CNV) qui peut représenter jusqu'à 5 à 15 % du génome humain. En d'autres termes, entre humains, il pourrait y avoir +/- 500 000 000 de paires de bases d'ADN, certaines étant des gènes actifs, d'autres inactivées, ou actives à différents niveaux. La pleine signification de cette découverte reste à voir.En moyenne, un gène codant pour une protéine humaine typique diffère de son orthologue de chimpanzé par seulement deux substitutions d'acides aminés. Près d'un tiers des gènes humains ont exactement la même traduction protéique que leurs orthologues de chimpanzé. Une différence majeure entre les deux génomes est le chromosome humain 2, qui équivaut à un produit de fusion des chromosomes 12 et 13 de chimpanzé [116] (renommés plus tard en chromosomes 2A et 2B, respectivement).

Les humains ont subi une perte extraordinaire de gènes de récepteurs olfactifs au cours de notre évolution récente, ce qui explique notre odorat relativement grossier par rapport à la plupart des autres mammifères. Les preuves évolutives suggèrent que l'émergence de la vision des couleurs chez les humains et plusieurs autres espèces de primates a diminué le besoin d'odorat. [117]

En septembre 2016, des scientifiques ont rapporté que, sur la base d'études génétiques sur l'ADN humain, tous les non-Africains dans le monde d'aujourd'hui peuvent être attribués à une seule population qui a quitté l'Afrique il y a entre 50 000 et 80 000 ans. [118]

L'ADN mitochondrial humain est d'un grand intérêt pour les généticiens, car il joue sans aucun doute un rôle dans la maladie mitochondriale. Il éclaire également l'évolution humaine par exemple, l'analyse de la variation du génome mitochondrial humain a conduit à postuler un ancêtre commun récent pour tous les humains sur la lignée maternelle (voir Ève mitochondriale).

En raison de l'absence d'un système de vérification des erreurs de copie, [119] l'ADN mitochondrial (ADNmt) a un taux de variation plus rapide que l'ADN nucléaire. Ce taux de mutation 20 fois plus élevé permet à l'ADNmt d'être utilisé pour un traçage plus précis de l'ascendance maternelle. [ citation requise ] Les études de l'ADNmt dans les populations ont permis de retracer d'anciennes voies de migration, comme la migration des Amérindiens de Sibérie [120] ou des Polynésiens d'Asie du Sud-Est. [ citation requise ] Il a également été utilisé pour montrer qu'il n'y a aucune trace d'ADN de Néandertal dans le mélange de gènes européens hérité d'une lignée purement maternelle. [121] En raison de la manière restrictive tout ou rien de l'héritage de l'ADNmt, ce résultat (aucune trace d'ADNmt de Néandertal) serait probable à moins qu'il n'y ait un grand pourcentage d'ascendance néandertalienne ou qu'il y ait une forte sélection positive pour cet ADNmt. Par exemple, en remontant 5 générations, seul 1 des 32 ancêtres d'une personne a contribué à l'ADNmt de cette personne, donc si l'un de ces 32 était un Néandertal pur, un

3% de l'ADN autosomique de cette personne seraient d'origine néandertalienne, mais ils auraient un

97% de chance de n'avoir aucune trace d'ADNmt de Néandertal. [ citation requise ]

L'épigénétique décrit une variété de caractéristiques du génome humain qui transcendent sa séquence d'ADN primaire, telles que l'encapsidation de la chromatine, les modifications des histones et la méthylation de l'ADN, et qui sont importantes pour réguler l'expression des gènes, la réplication du génome et d'autres processus cellulaires. Les marqueurs épigénétiques renforcent et affaiblissent la transcription de certains gènes mais n'affectent pas la séquence réelle des nucléotides de l'ADN. La méthylation de l'ADN est une forme majeure de contrôle épigénétique de l'expression des gènes et l'un des sujets les plus étudiés en épigénétique. Au cours du développement, le profil de méthylation de l'ADN humain subit des changements spectaculaires. Dans les cellules germinales précoces, le génome a des niveaux de méthylation très faibles. Ces faibles niveaux décrivent généralement des gènes actifs. Au fur et à mesure que le développement progresse, les étiquettes d'empreinte parentale conduisent à une activité de méthylation accrue. [122] [123]

Les modèles épigénétiques peuvent être identifiés entre les tissus d'un individu ainsi qu'entre les individus eux-mêmes. Les gènes identiques qui ne diffèrent que par leur état épigénétique sont appelés épiallèles. Les épiallèles peuvent être classés en trois catégories : ceux directement déterminés par le génotype d'un individu, ceux influencés par le génotype et ceux entièrement indépendants du génotype. L'épigénome est également fortement influencé par des facteurs environnementaux. L'alimentation, les toxines et les hormones ont un impact sur l'état épigénétique. Des études sur la manipulation alimentaire ont démontré que les régimes alimentaires déficients en méthyle sont associés à une hypométhylation de l'épigénome. De telles études établissent l'épigénétique comme une interface importante entre l'environnement et le génome. [124]

  1. ^"GRCh38.p13". ncbi. Consortium de référence du génome. Récupéré le 8 juin 2020 .
  2. ^
  3. Brown TA (2002). Le génome humain (2e éd.). Oxford : Wiley-Liss.
  4. ^ uneb
  5. Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, Kang HM, Marth GT, McVean GA (novembre 2012). « Une carte intégrée de la variation génétique de 1 092 génomes humains ». La nature. 491 (7422) : 56-65. Code bibliographique : 2012Natur.491. 56T. doi: 10.1038/nature11632. PMC3498066 . PMID23128226.
  6. ^
  7. Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, et al. (octobre 2015). « Une référence mondiale pour la variation génétique humaine ». La nature. 526 (7571) : 68-74. Code bibliographique : 2015Natur.526. 68T. doi: 10.1038/nature15393. PMC4750478 . PMID26432245.
  8. ^
  9. Consortium d'analyse du séquençage des chimpanzés (2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain » (PDF) . La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. S2CID2638825.
  10. ^
  11. Varki A, Altheide TK (décembre 2005). « Comparaison des génomes humains et chimpanzés : recherche d'aiguilles dans une botte de foin ». Recherche sur le génome. 15 (12) : 1746-1758. doi: 10.1101/gr.3737405 . PMID16339373.
  12. ^
  13. Wade N (23 septembre 1999). "Le nombre de gènes humains est mis à 140 000, un gain significatif". Le New York Times.
  14. ^ uneb
  15. Consortium international de séquençage du génome humain (octobre 2004). « Fin de la séquence euchromatique du génome humain ». La nature. 431 (7011) : 931–45. Code Bib : 2004Natur.431..931H. doi: 10.1038/nature03001 . PMID15496913.
  16. ^
  17. Ezkurdia I, Juan D, Rodriguez JM, Frankish A, Diekhans M, Harrow J, Vazquez J, Valencia A, Tress ML (novembre 2014). « De multiples éléments de preuve suggèrent qu'il pourrait y avoir aussi peu que 19 000 gènes humains codant pour des protéines ». Génétique moléculaire humaine. 23 (22) : 5866-78. doi: 10.1093/hmg/ddu309. PMC4204768 . PMID24939910.
  18. ^
  19. Saey TH (17 septembre 2018). « Un recomptage des gènes humains élève le nombre à au moins 46 831 ». Actualités scientifiques.
  20. ^
  21. Alles J, Fehlmann T, Fischer U, Backes C, Galata V, Minet M, et al. (avril 2019). « Une estimation du nombre total de vrais miARN humains ». Recherche sur les acides nucléiques. 47 (7) : 3353-3364. doi: 10.1093/nar/gkz097. PMC6468295 . PMID30820533.
  22. ^ unebc
  23. Pennisi E (septembre 2012). "Génomique. Le projet ENCODE écrit l'éloge de l'ADN indésirable". Science. 337 (6099): 1159-1161. doi:10.1126/science.337.6099.1159. PMID22955811.
  24. ^
  25. Zhang S (28 novembre 2018). "300 millions de lettres d'ADN manquent du génome humain". L'Atlantique.
  26. ^ unebc
  27. Consortium international de séquençage du génome humain (février 2001). « Séquençage initial et analyse du génome humain ». La nature. 409 (6822): 860-921. Code Bib : 2001Natur.409..860L. doi: 10.1038/35057062 . PMID11237011.
  28. ^Le Consortium international de séquençage du génome humain publie une séquence et une analyse du génome humain
  29. ^
  30. Pennisi E (février 2001). "Le génome humain". Science. 291 (5507) : 1177–80. doi:10.1126/science.291.5507.1177. PMID11233420. S2CID38355565.
  31. ^
  32. Molteni M (19 novembre 2018). "Maintenant, vous pouvez séquencer votre génome entier pour seulement 200 $". Filaire.
  33. ^
  34. Wrighton K (février 2021). « Remplir les lacunes télomère à télomère ». Jalons de la nature : séquençage génomique: S21.
  35. ^
  36. Pollack A (2 juin 2016). "Les scientifiques annoncent HGP-Write, projet pour synthétiser le génome humain". New York Times . Récupéré le 2 juin 2016 .
  37. ^
  38. Boeke JD, Church G, Hessel A, Kelley NJ, Arkin A, Cai Y, et al. (juillet 2016). "Le projet Génome-Écrire". Science. 353 (6295): 126-7. Code bibliographique : 2016Sci. 353..126B. doi:10.126/science.aaf6850. PMID27256881. S2CID206649424.
  39. ^
  40. Zhang S (28 novembre 2018). "300 millions de lettres d'ADN manquent du génome humain". L'Atlantique . Récupéré le 16 août 2019 .
  41. ^
  42. Chaisson MJ, Huddleston J, Dennis MY, Sudmant PH, Malig M, Hormozdiari F, et al. (janvier 2015). « Résoudre la complexité du génome humain à l'aide du séquençage d'une seule molécule ». La nature. 517 (7536) : 608–11. Code Bib : 2015Natur.517..608C. doi: 10.1038/nature13907. PMC4317254. PMID25383537.
  43. ^
  44. Miga KH, Koren S, Rhie A, Vollger MR, Gershman A, Bzikadze A, et al. (septembre 2020). « L'assemblage de télomères à télomères d'un chromosome X humain complet ». La nature. 585 (7823) : 79-84. Code Bib : 2020Natur.585. 79M. doi: 10.1038/s41586-020-2547-7. PMC7484160. PMID32663838.
  45. ^Ensembl genome browser version 87 [lien mort permanent] (décembre 2016) pour la plupart des valeurs Ensembl genome browser release 68 (juillet 2012) pour miRNA, rRNA, snRNA, snoRNA.
  46. ^
  47. Piovesan A, Pelleri MC, Antonaros F, Strippoli P, Caracausi M, Vitale L (février 2019). « Sur la longueur, le poids et la teneur en GC du génome humain ». Notes de recherche BMC. 12 (1) : 106. doi:10.1186/s13104-019-4137-z. PMC6391780. PMID30813969.
  48. ^
  49. Salzberg SL (août 2018). "Questions ouvertes : combien de gènes avons-nous ?". BMC Biologie. 16 (1) : 94. doi:10.1186/s12915-018-0564-x. PMC6100717 . PMID30124169.
  50. ^
  51. "Statistiques Gencode, version 28". Archivé de l'original le 2 mars 2018 . Récupéré le 12 juillet 2018 .
  52. ^
  53. "Ensemble statistiques pour la version 92.38, correspondant au Gencode v28" . Récupéré le 12 juillet 2018 .
  54. ^
  55. " NCBI Homo sapiens Annotation Libération 108 ". NIH. 2016.
  56. ^
  57. "Statistiques d'échecs, version 2.0". Centre de biologie computationnelle. Université Johns Hopkins.
  58. ^
  59. « Achèvement du projet du génome humain : questions fréquemment posées ». Institut national de recherche sur le génome humain (NHGRI) . Récupéré le 2 février 2019 .
  60. ^
  61. Christley S, Lu Y, Li C, Xie X (janvier 2009). « Les génomes humains comme pièces jointes d'e-mails ». Bioinformatique. 25 (2) : 274-5. doi: 10.1093/bioinformatique/btn582 . PMID18996942.
  62. ^
  63. Liu Z, Venkatesh SS, Maley CC (octobre 2008). "Couverture de l'espace de séquence, entropie des génomes et potentiel de détection d'ADN non humain dans des échantillons humains". BMC Génomique. 9: 509. doi:10.1186/1471-2164-9-509. PMC2628393. PMID18973670. , figure. 6, en utilisant les estimateurs Lempel-Ziv du taux d'entropie.
  64. ^
  65. Waters K (7 mars 2007). "Génétique moléculaire". Encyclopédie de philosophie de Stanford . Consulté le 18 juillet 2013 .
  66. ^
  67. Gannett L (26 octobre 2008). "Le projet du génome humain". Encyclopédie de philosophie de Stanford . Consulté le 18 juillet 2013 .
  68. ^Graphique à secteurs PANTHER sur la page d'accueil du système de classification PANTHER. Récupéré le 25 mai 2011
  69. ^Liste des protéines humaines du protéome humain de référence d'Uniprot consulté le 28 janvier 2015
  70. ^
  71. Kauffman SA (mars 1969). « Stabilité métabolique et épigenèse dans des réseaux génétiques construits au hasard ». Journal de biologie théorique. 22 (3) : 437-67. doi:10.1016/0022-5193(69)90015-0. PMID5803332.
  72. ^
  73. Ohno S (1972). « Un argument pour la simplicité génétique de l'homme et d'autres mammifères ». Journal de l'évolution humaine. 1 (6) : 651-662. doi:10.1016/0047-2484(72)90011-5.
  74. ^
  75. Sémon M, Mouchiroud D, Duret L (février 2005). « Relation entre l'expression génique et le contenu en GC chez les mammifères : signification statistique et pertinence biologique ». Génétique moléculaire humaine. 14 (3) : 421–7. doi: 10.1093/hmg/ddi038 . PMID15590696.
  76. ^ M. Huang, H. Zhu, B. Shen, G. Gao, "Une démarche non aléatoire à travers le génome humain", 3e Conférence internationale sur la bioinformatique et le génie biomédical (UCBBE, 2009), 1-3
  77. ^ uneb
  78. Bang ML, Centner T, Fornoff F, Geach AJ, Gotthardt M, McNabb M, Witt CC, Labeit D, Gregorio CC, Granzier H, Labeit S (2001). « La séquence complète du gène de la titine, l'expression d'une isoforme de titine inhabituelle d'environ 700 kDa et son interaction avec l'obscurine identifient un nouveau système de liaison de la ligne Z à la bande I ». Recherche sur la circulation. 89 (11) : 1065-1072. doi: 10.1161/hh2301.100981 . PMID11717165.
  79. ^ uneb
  80. Piovesan A, Caracausi M, Antonaros F, Pelleri MC, Vitale L (2016). « GeneBase 1.1 : un outil pour résumer les données des ensembles de données génétiques NCBI et son application à une mise à jour des statistiques génétiques humaines ». Base de données : le journal des bases de données biologiques et de la conservation. 2016: baw153. doi: 10.1093/base de données/baw153. PMC5199132 . PMID28025344.
  81. ^Navigateur du génome de l'Ensembl (juillet 2012)
  82. ^
  83. Gregory TR (septembre 2005). « Synergie entre séquence et taille en génomique à grande échelle ». Nature Avis Génétique. 6 (9) : 699-708. doi: 10.1038/nrg1674. PMID16151375. S2CID24237594.
  84. ^ uneb
  85. Palazzo AF, Akef A (juin 2012). « L'exportation nucléaire en tant qu'arbitre clé de « l'identité de l'ARNm » chez les eucaryotes ». Biochimica et Biophysica Acta (BBA) - Mécanismes de régulation des gènes. 1819 (6) : 566-77. doi:10.1016/j.bbagrm.2011.12.012. PMID22248619.
  86. ^
  87. Ludwig MZ (décembre 2002). « L'évolution fonctionnelle de l'ADN non codant ». Opinion actuelle sur la génétique et le développement des ampères. 12 (6) : 634-9. doi:10.1016/S0959-437X(02)00355-6. PMID12433575.
  88. ^
  89. Le juge Martens, Laprade L, Winston F (juin 2004). « La transcription intergénique est nécessaire pour réprimer le gène Saccharomyces cerevisiae SER3 ». La nature. 429 (6991) : 571-4. Code Bib : 2004Natur.429..571M. doi: 10.1038/nature02538. PMID15175754. S2CID809550.
  90. ^
  91. Tsai MC, Manor O, Wan Y, Mosammaparast N, Wang JK, Lan F, Shi Y, Segal E, Chang HY (août 2010). « Long ARN non codant comme échafaudage modulaire des complexes de modification des histones ». Science. 329 (5992) : 689-93. Code bibliographique : 2010Sci. 329..689T. doi:10.1126/science.1192002. PMC2967777. PMID20616235.
  92. ^
  93. Bartolomei MS, Zemel S, Tilghman SM (mai 1991). « L'empreinte parentale du gène H19 de souris ». La nature. 351 (6322) : 153-5. Code Bib : 1991Natur.351..153B. doi: 10.1038/351153a0. PMID1709450. S2CID4364975.
  94. ^
  95. Kobayashi T, Ganley AR (septembre 2005). « Régulation de la recombinaison par dissociation de la cohésine induite par la transcription dans les répétitions d'ADNr ». Science. 309 (5740) : 1581-4. Code bibliographique : 2005Sci. 309.1581K. doi:10.1126/science.1116102. PMID16141077. S2CID21547462.
  96. ^
  97. Salmena L, Poliseno L, Tay Y, Kats L, Pandolfi PP (août 2011). "Une hypothèse ceRNA : la pierre de Rosette d'un langage ARN caché ?". Cellule. 146 (3) : 353-8. doi:10.1016/j.cell.2011.07.014. PMC3235919 . PMID21802130.
  98. ^
  99. Pei B, Sisu C, Frankish A, Howald C, Habegger L, Mu XJ, Harte R, Balasubramanian S, Tanzer A, Diekhans M, Reymond A, Hubbard TJ, Harrow J, Gerstein MB (2012). « La ressource pseudogène GENCODE ». Biologie du génome. 13 (9) : R51. doi:10.1186/fr-2012-13-9-r51. PMC3491395. PMID22951037.
  100. ^
  101. Gilad Y, Man O, Pääbo S, Lancet D (mars 2003). « Perte spécifique humaine de gènes récepteurs olfactifs ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 100 (6) : 3324-7. Code bibliographique : 2003PNAS..100.3324G. doi: 10.1073/pnas.0535697100. PMC152291 . PMID12612342.
  102. ^
  103. Iyer MK, Niknafs YS, Malik R, Singhal U, Sahu A, Hosono Y, Barrette TR, Prensner JR, Evans JR, Zhao S, Poliakov A, Cao X, Dhanasekaran SM, Wu YM, Robinson DR, Beer DG, Feng FY , Iyer HK, Chinnaiyan AM (mars 2015). « Le paysage des longs ARN non codants dans le transcriptome humain ». Génétique de la nature. 47 (3) : 199-208. doi: 10.1038/ng.3192. PMC4417758 . PMID25599403.
  104. ^
  105. Eddy SR (décembre 2001). « Les gènes d'ARN non codants et le monde de l'ARN moderne ». Nature Avis Génétique. 2 (12) : 919-29. doi: 10.1038/35103511. PMID11733745. S2CID18347629.
  106. ^
  107. Managadze D, Lobkovsky AE, Wolf YI, Shabalina SA, Rogozin IB, Koonin EV (2013). « Le lincRNome mammifère vaste et conservé ». Biologie computationnelle PLOS. 9 (2) : e1002917. Code bibliographique : 2013PLSCB. 9E2917M. doi: 10.1371/journal.pcbi.1002917. PMC3585383. PMID23468607.
  108. ^
  109. Palazzo AF, Lee ES (2015). « ARN non codant : qu'est-ce qui est fonctionnel et qu'est-ce qui est indésirable ? » Frontières en génétique. 6: 2. doi:10.3389/fgene.2015.00002. PMC4306305 . PMID25674102.
  110. ^
  111. Mattick JS, Makunin IV (avril 2006). « ARN non codant ». Génétique moléculaire humaine. 15 Spéc n° 1 : R17–29. doi: 10.1093/hmg/ddl046 . PMID16651366.
  112. ^ uneb
  113. Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (septembre 2012). « Une encyclopédie intégrée des éléments d'ADN dans le génome humain ». La nature. 489 (7414) : 57-74. Code bibliographique : 2012Natur.489. 57T. doi: 10.1038/nature11247. PMC3439153 . PMID22955616.
  114. ^
  115. Birney E (5 septembre 2012). "ENCODER : Mes propres pensées". Blog d'Ewan : Bioinformaticien en général.
  116. ^
  117. Le juge Stamatoyannopoulos (septembre 2012). « Qu'est-ce que notre génome code ? » Recherche sur le génome. 22 (9) : 1602-111. doi:10.1101/gr.146506.112. PMC3431477. PMID22955972.
  118. ^
  119. Carroll SB, Gompel N, Prudhomme B (mai 2008). "Régler l'évolution". Scientifique américain. 298 (5) : 60-67. Code Bib : 2008SciAm.298e..60C. doi: 10.1038/scientificamerican0508-60. PMID18444326.
  120. ^
  121. Miller JH, Ippen K, Scaife JG, Beckwith JR (1968). « La région promoteur-opérateur de l'opéron lac d'Escherichia coli ». J. Mol. Biol. 38 (3) : 413–20. doi:10.1016/0022-2836(68)90395-1. PMID4887877.
  122. ^
  123. Wright S, Rosenthal A, Flavell R, Grosveld F (1984). « Les séquences d'ADN requises pour l'expression régulée des gènes de la bêta-globine dans les cellules érythroleucémiques murines ». Cellule. 38 (1) : 265-73. doi:10.1016/0092-8674(84)90548-8. PMID6088069. S2CID34587386.
  124. ^
  125. Nei M, Xu P, Glazko G (février 2001). « Estimation des temps de divergence à partir de séquences multiprotéiques pour quelques espèces de mammifères et plusieurs organismes éloignés ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 98 (5) : 2497–502. Code bibliographique : 2001PNAS. 98.2497N. doi: 10.1073/pnas.051611498. PMC30166 . PMID11226267.
  126. ^
  127. Loots GG, Locksley RM, Blankespoor CM, Wang ZE, Miller W, Rubin EM, Frazer KA (avril 2000). « Identification d'un régulateur de coordonnées des interleukines 4, 13 et 5 par des comparaisons de séquences inter-espèces ». Science. 288 (5463) : 136-40. Code bibliographique : 2000Sci. 288..136L. doi:10.1126/science.288.5463.136. PMID10753117. Sommaire
  128. ^
  129. Meunier M. "Genoscope et Whitehead annoncent une couverture de séquence élevée du génome de Tetraodon nigroviridis". Génoscope. Archivé de l' original le 16 octobre 2006 . Récupéré le 12 septembre 2006 .
  130. ^
  131. Romero IG, Ruvinsky I, Gilad Y (juillet 2012). « Des études comparatives de l'expression des gènes et l'évolution de la régulation des gènes ». Nature Avis Génétique. 13 (7) : 505–16. doi: 10.1038/nrg3229. PMC4034676. PMID22705669.
  132. ^
  133. Schmidt D, Wilson MD, Ballester B, Schwalie PC, Brown GD, Marshall A, Kutter C, Watt S, Martinez-Jimenez CP, Mackay S, Talianidis I, Flicek P, Odom DT (mai 2010). « Cinq vertébrés ChIP-seq révèle la dynamique évolutive de la liaison au facteur de transcription ». Science. 328 (5981) : 1036–40. Code bibliographique : 2010Sci. 328.1036S. doi:10.1126/science.1186176. PMC3008766 . PMID20378774.
  134. ^
  135. Wilson MD, Barbosa-Morais NL, Schmidt D, Conboy CM, Vanes L, Tybulewicz VL, Fisher EM, Tavaré S, Odom DT (octobre 2008). « Transcription spécifique à l'espèce chez les souris portant le chromosome humain 21 ». Science. 322 (5900) : 434-8. Code bibliographique : 2008Sci. 322..434W. doi:10.1126/science.1160930. PMC3717767 . PMID18787134.
  136. ^
  137. Treangen TJ, Salzberg SL (janvier 2012). « ADN répétitif et séquençage de nouvelle génération : défis et solutions informatiques ». Nature Avis Génétique. 13 (1) : 36-46. doi: 10.1038/nrg3117. PMC3324860 . PMID22124482.
  138. ^
  139. Duitama J, Zablotskaya A, Gemayel R, Jansen A, Belet S, Vermeesch JR, Verstrepen KJ, Froyen G (mai 2014). « Analyse à grande échelle de la variabilité de répétition en tandem dans le génome humain ». Recherche sur les acides nucléiques. 42 (9) : 5728-41. doi: 10.1093/nar/gku212. PMC4027155 . PMID24682812.
  140. ^
  141. Pierce BA (2012). Génétique : une approche conceptuelle (4e éd.). New York : W.H. Homme libre. p. 538-540. ISBN978-1-4292-3250-0.
  142. ^
  143. Bennett EA, Keller H, Mills RE, Schmidt S, Moran JV, Weichenrieder O, Devine SE (décembre 2008). "Rétrotransposons Alu actifs dans le génome humain". Recherche sur le génome. 18 (12) : 1875-1883. doi:10.1101/gr.081737.108. PMC2593586. PMID18836035.
  144. ^
  145. Liang KH, Yeh CT (2013). « Un réseau de restriction d'expression génique médié par des séquences Alu sens et antisens situées sur des ARN messagers codant pour les protéines ». BMC Génomique. 14: 325. doi:10.1186/1471-2164-14-325. PMC3655826 . PMID23663499.
  146. ^
  147. Brouha B, Schustak J, Badge RM, Lutz-Prigge S, Farley AH, Moran JV, Kazazian HH (avril 2003). « Les L1 chauds représentent la majeure partie de la rétrotransposition dans la population humaine ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 100 (9) : 5280-5. Code bibliographique : 2003PNAS..100.5280B. doi: 10.1073/pnas.0831042100. PMC154336 . PMID12682288.
  148. ^
  149. Barton NH, Briggs DE, Eisen JA, Goldstein DB, Patel NH (2007). Évolution. Cold Spring Harbor, NY : Presse de laboratoire de Cold Spring Harbor. ISBN978-0-87969-684-9.
  150. ^
  151. NCBI. "GRCh38 – hg38 – Génome – Assemblage – NCBI". ncbi.nlm.nih.gov . Consulté le 15 mars 2019 .
  152. ^
  153. "du discours de Bill Clinton sur l'état de l'Union en 2000". Archivé de l'original le 21 février 2017 . Récupéré le 14 juin 2007 .
  154. ^
  155. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. (novembre 2006). « La variation globale du nombre de copies dans le génome humain ». La nature. 444 (7118): 444-54. Code Bib : 2006Natur.444..444R. doi: 10.1038/nature05329. PMC2669898. PMID17122850.
  156. ^
  157. "Qu'est-ce qu'un génome ?". Genomenewsnetwork.org. 15 janvier 2003 . Récupéré le 31 mai 2009 .
  158. ^
  159. NCBI_user_services (29 mars 2004). « Fiche d'information sur la cartographie ». Ncbi.nlm.nih.gov. Archivé de l' original le 19 juillet 2010 . Récupéré le 31 mai 2009 .
  160. ^
  161. "À propos du projet". HapMap. Récupéré le 31 mai 2009 .
  162. ^
  163. "Version 2008 : les chercheurs produisent la première carte de séquence de la variation structurelle à grande échelle dans le génome humain". génome.gov. Récupéré le 31 mai 2009 .
  164. ^
  165. Kidd JM, Cooper GM, Donahue WF, Hayden HS, Sampas N, Graves T, et al. (mai 2008). « Cartographie et séquençage de la variation structurelle de huit génomes humains ». La nature. 453 (7191) : 56-64. Code Bib : 2008Natur.453. 56K. doi: 10.1038/nature06862. PMC2424287. PMID18451855.
  166. ^ uneb
  167. Abel HJ, Larson DE, Regier AA, Chiang C, Das I, Kanchi KL, et al. (juillet 2020). « Cartographie et caractérisation de la variation structurelle dans 17 795 génomes humains ». La nature. 583 (7814) : 83-89. doi : 10.1038/s41586-020-2371-0. PMC7547914 . PMID32460305.
  168. ^
  169. Gray IC, Campbell DA, Spurr NK (2000). « Les polymorphismes nucléotidiques simples comme outils en génétique humaine ». Génétique moléculaire humaine. 9 (16) : 2403-2408. doi: 10.1093/hmg/9.16.2403 . PMID11005795.
  170. ^
  171. Lai E (juin 2001). « Application des technologies SNP en médecine : leçons apprises et défis futurs ». Recherche sur le génome. 11 (6) : 927-9. doi: 10.1101/gr.192301 . PMID11381021.
  172. ^
  173. « Achèvement du projet du génome humain : questions fréquemment posées ». génome.gov. Récupéré le 31 mai 2009 .
  174. ^
  175. Chanteur E (4 septembre 2007). "Le génome de Craig Venter". Examen de la technologie du MIT . Récupéré le 25 mai 2010 .
  176. ^
  177. Pushkarev D, Neff NF, Quake SR (septembre 2009). « Le séquençage d'une molécule unique d'un génome humain individuel ». Biotechnologie naturelle. 27 (9) : 847-50. doi: 10.1038/nbt.1561. PMC4117198. PMID19668243.
  178. ^
  179. Ashley EA, Butte AJ, Wheeler MT, Chen R, Klein TE, Dewey FE, et al. (mai 2010). « Évaluation clinique incorporant un génome personnel ». Lancette. 375 (9725) : 1525-1535. doi:10.1016/S0140-6736(10)60452-7. PMC2937184. PMID20435227.
  180. ^
  181. Dewey FE, Chen R, Cordero SP, Ormond KE, Caleshu C, Karczewski KJ, et al. (septembre 2011). « Risque génétique échelonné du génome entier dans un quatuor familial utilisant une séquence de référence allèle majeure ». PLOS Génétique. 7 (9) : e1002280. doi: 10.1371/journal.pgen.1002280 . PMC3174201. PMID21935354.
  182. ^
  183. « Complete Genomics ajoute 29 ensembles de données complets de séquençage du génome humain à couverture élevée à son référentiel génomique public ».
  184. ^
  185. Échantillon I (17 février 2010). « Le génome de Desmond Tutu séquencé dans le cadre de l'étude de la diversité génétique ». Le gardien.
  186. ^
  187. Schuster SC, Miller W, Ratan A, Tomsho LP, Giardine B, Kasson LR, et al. (février 2010). « Génomes Khoisan et Bantu complets d'Afrique australe ». La nature. 463 (7283): 943-7. Code bibliographique : 2010Natur.463..943S. doi: 10.1038/nature08795. PMC3890430 . PMID20164927.
  188. ^
  189. Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, et al. (février 2010). « Ancienne séquence du génome humain d'un paléo-esquimau éteint ». La nature. 463 (7282) : 757–62. Code Bib : 2010Natur.463..757R. doi: 10.1038/nature08835. PMC3951495 . PMID20148029.
  190. ^
  191. Corpas M, Cariaso M, Coletta A, Weiss D, Harrison AP, Moran F, Yang H (12 novembre 2013). « Un ensemble complet de données génomiques familiales du domaine public ». bioRxiv10.1101/000216 .
  192. ^
  193. Corpas M (juin 2013). "Crowdsourcing le corpasome". Code source pour la biologie et la médecine. 8 (1) : 13. doi:10.1186/1751-0473-8-13. PMC3706263. PMID23799911.
  194. ^
  195. Mao Q, Ciotlos S, Zhang RY, Ball MP, Chin R, Carnevali P, et al. (octobre 2016). « Les séquences entières du génome et les haplotypes phasés expérimentalement de plus de 100 génomes personnels ». GigaScience. 5 (1) : 42. doi:10.1186/s13742-016-0148-z. PMC5057367 . PMID27724973.
  196. ^
  197. Cai B, Li B, Kiga N, Thusberg J, Bergquist T, Chen YC, et al. (septembre 2017). « Appariement des phénotypes aux génomes entiers : leçons tirées de quatre itérations des défis de la communauté du projet de génome personnel ». Mutation humaine. 38 (9) : 1266-1276. doi:10.1002/humu.23265. PMC5645203. PMID28544481.
  198. ^
  199. Gonzaga-Jauregui C, Lupski JR, Gibbs RA (2012). « Le séquençage du génome humain dans la santé et la maladie ». Revue annuelle de médecine. 63: 35-61. doi:10.1146/annurev-med-051010-162644. PMC3656720 . PMID22248320.
  200. ^
  201. Choi M, Scholl UI, Ji W, Liu T, Tikhonova IR, Zumbo P, Nayir A, Bakkaloğlu A, Ozen S, Sanjad S, Nelson-Williams C, Farhi A, Mane S, Lifton RP (novembre 2009). « Diagnostic génétique par capture d'exome entier et séquençage d'ADN massivement parallèle ». Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 106 (45) : 19096-101. Code bibliographique : 2009PNAS..10619096C. doi: 10.1073/pnas.0910672106. PMC2768590 . PMID19861545.
  202. ^ uneb
  203. Narasimhan VM, Xue Y, Tyler-Smith C (avril 2016). "Les porteurs humains de knock-out : morts, malades, sains ou améliorés ?". Tendances en médecine moléculaire. 22 (4) : 341-351. doi:10.1016/j.molmed.2016.02.006. PMC4826344. PMID26988438.
  204. ^
  205. Saleheen D, Natarajan P, Armean IM, Zhao W, Rasheed A, Khetarpal SA, et al. (avril 2017). « Coups de grâce humains et analyse phénotypique dans une cohorte avec un taux élevé de consanguinité ». La nature. 544 (7649): 235-239. Code bibliographique : 2017Natur.544..235S. doi: 10.1038/nature22034. PMC5600291 . PMID28406212.
  206. ^ uneb
  207. Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA (janvier 2002). « L'héritage mendélien en ligne chez l'homme (OMIM), une base de connaissances sur les gènes humains et les troubles génétiques ». Recherche sur les acides nucléiques. 30 (1) : 52-5. doi: 10.1093/nar/30.1.52 . PMC99152 . PMID11752252.
  208. ^
  209. Katsanis N (novembre 2016). « Le continuum de causalité dans les troubles génétiques humains ». Biologie du génome. 17 (1) : 233. doi:10.1186/s13059-016-1107-9. PMC5114767. PMID27855690.
  210. ^
  211. Wong LC (2017). "Aperçu de l'utilité clinique du séquençage de nouvelle génération dans les diagnostics moléculaires des troubles génétiques humains". Dans Wong LC (éd.). Diagnostic moléculaire clinique de nouvelle génération basé sur le séquençage des troubles génétiques humains. Éditions internationales Springer. p. 1–11. doi:10.1007/978-3-319-56418-0_1. ISBN978-3-319-56418-0. Absent ou vide |title= (aide)
  212. ^
  213. Fedick A, Zhang J (2017). « Prochaine génération de dépistage des porteurs ». Dans Wong LC (éd.). Diagnostic moléculaire clinique de nouvelle génération basé sur le séquençage des troubles génétiques humains. Éditions internationales Springer. p. 339-354. doi:10.1007/978-3-319-56418-0_16. ISBN978-3-319-56418-0. Absent ou vide |title= (aide)
  214. ^
  215. Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, Agarwala R, Ainscough R, Alexandersson M, et al. (décembre 2002). « Séquençage initial et analyse comparative du génome de la souris ». La nature. 420 (6915) : 520-62. Code Bib : 2002Natur.420..520W. doi: 10.1038/nature01262 . PMID12466850. la proportion de petits segments (50 à 100 pb) dans le génome des mammifères soumis à une sélection (purifiante) peut être estimée à environ 5 %. Cette proportion est beaucoup plus élevée que ce qui peut être expliqué par les seules séquences codant pour les protéines, ce qui implique que le génome contient de nombreuses caractéristiques supplémentaires (telles que des régions non traduites, des éléments régulateurs, des gènes non codant pour les protéines et des éléments structurels chromosomiques) sous sélection pour la fonction biologique .
  216. ^
  217. Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, et al. (juin 2007). "Identification et analyse d'éléments fonctionnels dans 1% du génome humain par le projet pilote ENCODE". La nature. 447 (7146) : 799-816. Code Bib : 2007Natur.447..799B. doi: 10.1038/nature05874. PMC2212820 . PMID17571346.
  218. ^
  219. Le Consortium d'analyse du séquençage des chimpanzés (septembre 2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain ». La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. Nous calculons que la divergence nucléotidique à l'échelle du génome entre l'homme et le chimpanzé est de 1,23%, confirmant les résultats récents d'études plus limitées.
  220. ^
  221. Le Consortium d'analyse du séquençage des chimpanzés (septembre 2005). « Séquence initiale du génome du chimpanzé et comparaison avec le génome humain ». La nature. 437 (7055) : 69-87. Code Bib : 2005Natur.437. 69.. doi : 10.1038/nature04072 . PMID16136131. nous estimons que le polymorphisme représente 14 à 22% du taux de divergence observé et donc que la divergence fixe est

120 ms 8,0% Scribunto_LuaSandboxCallback::gsub 120 ms 8,0% Scribunto_LuaSandboxCallback::callParserFunction 100 ms 6,7% dataWrapper 60 ms 4,0% Scribunto_LuaSandboxCallback::plain 40 ms 2,7 % format 40 ms 2,7 % 40 ms 360 ms 2,7 % [autre nombre des entités Wikibase chargées : 1/400 -->


Introduction

Des millions de polymorphismes nucléotidiques simples (SNP) ont été collectés dans la base de données publique, dbSNP [1], et on estime que « �% des variants de séquences humaines sont des SNP [2]. Parmi eux, les SNP non synonymes (nsSNP), également connus sous le nom de polymorphismes d'acides aminés simples (SAP), qui conduisent à un seul changement d'acide aminé dans le produit protéique sont les plus pertinents pour les maladies héréditaires humaines [3]. Deux bases de données, l'Online Mendelian Inheritance in Man (OMIM) [4] et la Human gene mutation database (HGMD) [3], contiennent des enregistrements de variantes causant la maladie et suggèrent que la majorité des variantes causant la maladie ne sont pas synonymes. changements [5]. On estime qu'il y a 67 000� 000 nsSNP dans la population humaine [5]. Certains de ces nsSNP sont associés à la maladie, tandis que d'autres sont fonctionnellement neutres. Il est important de distinguer les nsSNP associés à la maladie des neutres pour l'investigation des maladies génétiques.

Basées sur des règles empiriques [6], [7], [8], des modèles probabilistes [9] et des approches d'apprentissage automatique [10], [11], [12], [13], [14], [15], [ 16], [17] ont été utilisés pour classer les nsSNP. Ces études ont utilisé une variété de caractéristiques potentielles pour distinguer les nsSNP délétères des neutres, principalement des caractéristiques dérivées de séquences de protéines [11], [12], [13] ou à la fois d'informations structurelles et séquentielles de protéines [10], [ 14], [15], [16], [17]. Cependant, seul un nombre limité de protéines ont des structures tridimensionnelles connues, tandis que la grande majorité ne dispose pas de leurs informations structurelles [5]. Parmi les articles mentionnés ci-dessus qui utilisaient principalement les informations de séquence, certains n'ont pas pris en compte le microenvironnement de la séquence [13] et certains n'avaient pas de procédure de sélection des caractéristiques [16].

La principale limitation des méthodes traditionnelles basées sur des caractéristiques structurelles ou séquentielles est qu'elles se concentrent uniquement sur la variation locale de la protéine elle-même. Bien que la précision de la prédiction puisse être élevée, il est difficile de croire que le changement d'une seule protéine SAP puisse déterminer ou provoquer un phénotype physiopathologique. De plus en plus d'études ont montré que les maladies peuvent être causées par des réseaux cellulaires perturbés [18], [19]. L'inclusion de fonctionnalités réseau devrait donc améliorer la prédiction des SAP délétères.

Dans cet article, une nouvelle méthode de classification a été établie en combinant de nouvelles caractéristiques de réseau et des caractéristiques séquentielles traditionnelles du microenvironnement d'acides aminés entourant le SAP et en utilisant une procédure de sélection de caractéristiques soigneusement conçue. Chaque SAP a été codé par 472 caractéristiques, qui ont été dérivées des scores transformés de l'indice d'acides aminés, des matrices de notation spécifiques à la position, des caractéristiques structurelles, de l'interdépendance et des scores d'enrichissement KEGG des protéines voisines dans le réseau STRING [20]. Ensuite, des méthodes de sélection et d'analyse de caractéristiques, y compris la méthode Maximum Pertinence Minimum Redundancy (mRMR) [21] et Incremental Feature Selection (IFS) [22] ont été utilisées pour obtenir les caractéristiques optimales à utiliser pour la prédiction des nsSNP délétères par rapport aux neutres. . Le modèle de prédiction a été construit à l'aide de l'algorithme bien connu du voisin le plus proche (NNA) [23]. En conséquence, l'ensemble optimal de 263 caractéristiques a été sélectionné, atteignant un taux de prédiction correct de 83,27% lors de l'évaluation par le test de validation croisée Jackknife. Le modèle de prédiction optimisé avec 263 caractéristiques a également été testé sur un ensemble de données indépendant, et la précision était toujours de 80,00%. Les caractéristiques du réseau se sont avérées les plus importantes pour une prédiction précise.


Aperçu SNP PureGenomics ® : COMT

La série SNP Peek vous apporte des informations concises et à jour sur les variations génétiques connues sous le nom de polymorphismes nucléotidiques simples (SNP), qui affectent un pourcentage important de patients. Les SNP présentés dans cette série sont cliniquement pertinents, exploitables sur le plan nutritionnel et validés par des recherches publiées. Présentant un SNP à la fois, la série informera les lecteurs sur la prévalence, les résultats de recherche importants, les suppléments nutritionnels ciblés et la surveillance. ??

Pour appliquer ces informations dans la pratique rapidement et facilement, visitez PureGenomics.com.

SNP PEEK COMT (Catéchol O-Méthyltransférase) Val158Met (rs4680)

La COMT est une enzyme qui dégrade la dopamine, un neurotransmetteur essentiel qui régule la cognition et le comportement. 1-4 COMT détoxifie également l'estradiol. 5 Le SNP Val158Met fait partie des variations génétiques les plus étudiées en psychiatrie. 1-4, 6-14 L'allèle Val augmente l'activité enzymatique COMT, tandis que l'allèle Met limite l'activité COMT à 25 % de sa fonction normale, permettant à la dopamine et aux œstrogènes d'atteindre des niveaux plus élevés. 1-5

Figure 1. La dopamine, un neurotransmetteur stimulant dérivé de la L-tyrosine, soutient l'acuité mentale, la mémoire de travail et d'autres aspects des performances cognitives. La COMT dégrade la dopamine, limitant sa disponibilité et ses actions. L'activité COMT est largement déterminée par le SNP Val158Met.

Qui est affecté?

La majorité de la population mondiale est homozygote pour l'allèle de type sauvage (appelé GG, -/- ou Val/Val). On estime que 20 à 30 % des Caucasiens d'ascendance européenne sont homozygotes pour l'allèle Met (Met/Met, également connu sous le nom d'AA ou +/+). Ce génotype semble être moins fréquent dans les populations asiatiques et africaines. 6

Pertinence clinique :
  • Tolérance au stress: Le génotype Val/Val (GG ou -/-) est associé à une meilleure tolérance cognitive et psychologique des situations stressantes. Inversement, l'allèle Met a été associé à la nervosité, à l'inquiétude et à la peur. 4
  • Performance cognitive: Le génotype Met/Met (AA ou +/+) est associé à de meilleures performances dans les tâches de mémoire et d'attention que les autres génotypes. Cet avantage de l'allèle Met est probablement le résultat d'une neurotransmission dopaminergique accrue dans le cortex préfrontal. Cependant, l'effet peut être diminué dans des conditions stressantes. 4
  • Réponse aux stimulants : Les médicaments stimulants réduisent la fonction cognitive chez les porteurs Met. A l'inverse, ils ont tendance à améliorer la cognition chez les porteurs de Val. 7
  • Métabolisme des œstrogènes : L'allèle Met peut augmenter les niveaux d'estradiol en raison d'une diminution de la méthylation de cette hormone. 5
La recherche:
  • Dans deux études cliniques, les sujets avec au moins un allèle Met présentaient une meilleure fonction exécutive et de meilleures performances sur les tâches de mémoire que les sujets avec des génotypes Val/Val. 8-9
  • L'allèle Met peut réduire la tolérance à la caféine. Dans une cohorte de 773 hommes, une forte consommation de café était associée à des événements cardiovasculaires chez les porteurs de l'allèle Met. dix
  • L'allèle COMT Val peut exacerber les niveaux élevés d'homocystéine dans les génotypes MTHFR T/T (+/+), selon une étude portant sur 780 personnes âgées. 11 Chez les patients présentant un taux élevé d'homocystéine, il est prudent d'assurer une quantité adéquate de folate, B6 et B12 admission. ??
Recommandations de régime et de style de vie ‡
  • Pour les génotypes Val/Val (-/-) et Val/Met (-/+) : Consommez suffisamment de protéines, qui fournissent des précurseurs d'acides aminés de la dopamine et de la noradrénaline. L'exercice soutient également la fonction cognitive quotidienne, la vigilance, l'énergie et l'humeur.
  • Pour les génotypes Met/Met (+/+) : Envisagez des techniques de relaxation, une psychothérapie et/ou une méditation pour gérer le stress. Pour favoriser un sommeil réparateur, pratiquez des techniques d'hygiène du sommeil et envisagez une supplémentation en magnésium. Soyez prudent avec la caféine et d'autres stimulants, qui amplifient les effets du stress émotionnel. Incluez des légumes crucifères dans le cadre d'un régime à base d'aliments complets pour soutenir le métabolisme des œstrogènes. ??
Produits Pure Encapsulations® :

Pour les génotypes Met/Met (+/+)

  • Même est le donneur de méthyle pour COMT. SAMe soutient également la fonction cognitive et l'humeur par le biais d'autres mécanismes. ??
  • Magnésium (glycinate) soutient des réponses saines au stress en raison de son rôle dans les systèmes de neurotransmetteurs indépendants de la COMT. ??
  • Lithium (orotate) ou Lithium liquide peut être bénéfique pour soutenir l'humeur et la santé neurocognitive. ??
  • Adénosyle/hydroxy B12 ou Adénosyl/Hydroxy B12 liquide peut être préférable à la méthylcobalamine car elle a tendance à être moins stimulante, selon des rapports de cas non publiés.
  • DIM Détox soutient la détoxification des œstrogènes. ??

Pour les génotypes Val/Val (-/-) et Val/Met (-/+)

  • DopaPlus fournit des précurseurs de la dopamine (L-tyrosine et L-DOPA) et des cofacteurs (zinc, vitamine B6 et folate) pour promouvoir la production de dopamine pour soutenir la fonction cognitive quotidienne et la performance sur les tâches mentales. ??
  • Rhodiola Rosea maintient une activité saine des catécholamines surrénales et peut soutenir les niveaux d'énergie. ??

Étant donné que la neurotransmission et le métabolisme hormonal dépendent de nombreux facteurs génétiques et environnementaux en interaction, toutes les personnes atteintes de variantes COMT ne présenteront pas de manifestations cliniques ou n'auront pas besoin d'un soutien spécifique.

La sélection du produit doit tenir compte d'autres facteurs, tels que l'état nutritionnel (voir la surveillance suggérée ci-dessous), l'évaluation de la fonction mentale et cognitive et d'autres informations pertinentes obtenues lors de l'évaluation du patient. ??

Évaluation et surveillance :
  • Magnésium n'a pas de relation directe avec COMT, mais est essentiel pour des réponses saines au stress, des performances cognitives et un bien-être émotionnel, quel que soit le génotype. Le magnésium des globules rouges reflète les réserves intracellulaires de ce minéral essentiel. ??
  • Rapport de méthylation des œstrogènes (2-OHE1:2-OMeE1) indique l'efficacité avec laquelle un patient méthyle les œstrogènes.
Pour apprendre plus:

Les bases de données suivantes fournissent des résumés d'études publiées, des revues savantes et d'autres types d'articles avec des informations fiables et à jour. Pour récupérer toutes les études publiées pertinentes sur COMT Val158Met, entrez le numéro d'accession (rs4680) dans le champ de recherche. Les articles en texte intégral sont disponibles uniquement dans des revues en libre accès.
PubMed : www.ncbi.nlm.nih.gov/pubmed
Google Scholar : Scholar.google.com
SNPedia : SNPedia.com

À propos de PureGenomics®

PureGenomics ® est une plate-forme combinant des outils pédagogiques, des protocoles, des produits de base et E-script, notre service de prescription électronique, avec PureGenomics.com, notre application de site Web dynamique et exclusive aux praticiens. PureGenomics.com est conçu pour aider à identifier les variations génétiques courantes connues sous le nom de polymorphismes nucléotidiques simples (SNP) qui sont cliniquement pertinentes et exploitables sur le plan nutritionnel. ??

Cette plate-forme unique permet de TESTER, TRADUIRE et CIBLE SNP avec le bon soutien nutritionnel, permettant aux praticiens de la précision et de la confiance dans la poursuite d'une santé optimale pour chaque patient. ??

Apprenez à mettre en œuvre avec succès PureGenomics ® dans votre pratique dès aujourd'hui !


Résultats

Taux de mutation variables parmi les différents types de tumeurs et sous-types de mutation

Comme mentionné précédemment (Méthodes), nous avons classé toutes les mutations en 20 sous-types en fonction à la fois des types de mutation et des contextes de séquences dinucléotidiques (Fichier supplémentaire 2 : Tableau S2). Dans l'ensemble de données sur les mutations COSMIC, les tumeurs de la peau, de l'estomac, de la vessie et du côlon ont des taux de mutation globaux relativement élevés, ce qui est cohérent avec un rapport précédent [4]. En outre, nous avons également observé des taux de mutation élevés dans les tumeurs osseuses et de l'endomètre (Fig.  1b). Cependant, nous avons observé des taux de mutation très variables selon les différents sous-types de mutation (Kruskal-Wallis H-test, p =𠂒.22e-05). Par exemple, dans les tumeurs osseuses, la transversion non-sens non-CpG C/G a un taux de mutation de 0,69/Mb tandis que la transition CpG C/G non-sens a un taux de mutation de 14,2/Mb. De même, le taux de mutation peut varier considérablement selon les différents types de tumeurs (Kruskal-Wallis H-test, p =𠂓.49e-40). Par exemple, la transition faux-sens C/G non CpG a un taux moyen de 6,18/Mb dans les tumeurs cutanées, beaucoup plus élevé que dans les tumeurs cérébrales (0,61/Mb). Par conséquent, pour identifier les facteurs potentiellement sélectionnés positivement dans le cancer, il est important de tenir compte des variations du sous-type de mutation et du contexte de séquence dans différents types de tumeurs, au lieu d'examiner uniquement les fréquences des variantes dans la population.

Identifier les mutations des points chauds dans COSMIC

Nous avons commencé avec toutes les mutations dans 17 types de tumeurs dans COSMIC v71 (Fig.  2 ). Seules les données obtenues par séquençage de l'exome entier ou du génome entier ont été utilisées (Methods, Additional file 1 : Table S1) [15]. L'estimation des taux de mutation de fond peut être biaisée par des échantillons hypermutés aberrants. Pour éviter un tel biais, nous avons calculé la moyenne μ et l'écart type σ du nombre de mutations dans chaque échantillon, étiqueté les échantillons avec un nombre de mutations supérieur à μ +𠂒σ comme hyper -mutated, et les a exclus d'autres considérations (Fichier supplémentaire 1 : Tableau S1).

Illustration de la définition des mutations du hotspot et de l'analyse de l'utilité fonctionnelle. Nous avons utilisé les données COSMIC v71 comme entrée. Nous avons d'abord sélectionné les échantillons qui ont été examinés avec le séquençage du génome entier ou de l'exome entier, puis avons retiré les échantillons hypermutés dans chaque type de tumeur. Des mutations de hotspot ont été identifiées dans des types de tumeurs individuels, et les enquêtes d'utilité biologique ont été réalisées à travers de multiples aspects

Notre objectif était d'identifier les mutations des points chauds au sein des gènes (méthodes) et d'explorer leurs utilités potentiellement biologiques dans différents contextes biologiques. Le grand nombre d'échantillons dans COSMIC a permis d'estimer de manière fiable un taux de mutation de fond pour chaque gène dans chaque type de tumeur et sous-type de mutation (méthodes). Nous avons identifié une mutation hotspot comme l'ensemble des aberrations génomiques qui affectent la position d'un acide aminé (AA) et se produisent significativement plus fréquemment que prévu à partir de l'arrière-plan. Au total, nous avons identifié un ensemble de 702 mutations putatives de points chauds dans 549 gènes dans 17 types de tumeurs (Fig.  2 , Méthodes).

Nous avons mesuré la composition de différents sous-types mutationnels dans les mutations du hotspot (Fichier supplémentaire 5 : Figure S1). Comme prévu, 510 (72,65 %) étaient faux-sens et 17 (2,42 %) étaient un non-sens, occupant une proportion élevée de mutations hotspot. Nous avons également identifié 31 points chauds d'insertion (4,42 %) et 78 points de suppression (11,11 %), qui ont été largement ignorés dans des études antérieures [5, 6] et qui offraient potentiellement de nouveaux candidats pour la mutation motrice et la prédiction des gènes du cancer. En outre, nous avons examiné les points chauds d'insertion et de suppression et avons constaté que 17/31 étaient des insertions dans le cadre et 17/78 étaient des suppressions dans le cadre. Parmi les points chauds d'insertion et de suppression de décalage de trame restants, plus de 70 % ont des positions de départ et/ou des tailles légèrement différentes. Par exemple, la suppression du hotspot ESRP1 N512 a deux variantes génomiques chr8:95686611A/- et chr8:95686611-95686612AA/-.

Nous avons constaté que les gènes contenant une mutation du point chaud (HMCG) identifiés dans notre étude se chevauchaient de manière significative (98/546 vs 451/24405, test exact de Fisher, p =𠂑.28e-53) avec les 546 gènes du cancer rapportés dans le Caner Gene Census (CGC). Parmi les 24 951 gènes disponibles dans COSMIC, 549 gènes ont été identifiés comme contenant au moins un hotspot, parmi lesquels 98 étaient les gènes du cancer CGC. De même, nous avons constaté que les HMCG se chevauchaient de manière significative avec les gènes significativement mutés rapportés dans l'analyse TCGA PANCAN (101/435 vs 448/24516, test exact de Fisher, p =𠂖.56e-74) et dans Lawrence et al. (73/221 vs 476/24630, test exact de Fisher, p =𠂒.56e-65). Les gènes non chevauchants ont été détectés probablement parce que 1) les études précédentes avaient des hypothèses de taux de mutation de fond différentes de celles de notre étude 2) elles ont détecté un grand nombre de suppresseurs de tumeurs qui ne contiennent pas de mutations de point chaud claires 3) notre étude n'a pas seulement été en mesure de détecter les mutations hotspot dans les gènes cancéreux connus, mais également capable de détecter les mutations hotspot dans les gènes rarement mutés, qui peuvent avoir une fonctionnalité biologique auparavant inconnue 4) notre étude comprenait des types de mutations (indels) que les études précédentes n'avaient pas. L'étendue du chevauchement entre les HMCG et l'union des ensembles de gènes du cancer mentionnés ci-dessus est restée très significative lorsque nous avons choisi divers ajustements p valeurs seuils pour identifier les mutations des points chauds (Fichier supplémentaire 6 : Figure S2), ce qui indique la robustesse statistique de notre approche.

De plus, nous avons trouvé des gènes qui se chevauchent de manière significative entre notre ensemble et ceux prédits par d'autres méthodes basées sur des clusters telles que e-Driver [6] (151/552 vs 398/24499, test exact de Fisher, p =𠂓.42e-139) et OncodriveCLUST [5] (106/489 vs 443/24462, test exact de Fisher, p =𠂒.31e-74). De plus, en ce qui concerne les clusters mutationnels, nous avons trouvé 213 hotspots chevauchant 1125 clusters mutationnels significatifs identifiés par e-Driver (213/1125 vs 489/92822, test proportionnel, p =𠂒.14e-87) et 261 hotspots se chevauchaient avec 1042 clusters mutationnels significatifs comme prédit par OncodriveCLUST (261/1042 vs 441/89561, test proportionnel, p =𠂔.98e-121). Des résultats non chevauchants ont été trouvés principalement en raison de : 1) les clusters prédits par e-Driver et OncodriveCLUST basés principalement sur des mutations faux-sens dans un contexte mutationnel uniforme 2) notre étude a identifié non seulement des mutations de points chauds faux-sens, mais également une proportion substantielle d'insertion (4,42&# x000a0%) et de suppression (11.11 %) points chauds (Fichier supplémentaire 5 : Figure S1) 3) notre étude a choisi un seuil de signification statistique plus strict pour augmenter la confiance des mutations des points chauds identifiés.

Le nombre de mutations hotspot variait fortement d'un type de tumeur à l'autre (Fichier complémentaire 7 : Figure S3 et Fichier complémentaire 8 : Tableau S5). La plupart des types de tumeurs présentaient 5 à 100 mutations hotspot. Cependant, le cancer colorectal présentait 253 mutations hotspot malgré sa taille d'échantillon relativement petite (684 échantillons), y compris une proportion élevée de mutations hotspot d'insertion (10 %) et de suppression (23 %) (Fig.  3 ). En revanche, seules 65 mutations hotspot ont été trouvées dans le cancer myéloïde (1344 échantillons). Un tel enrichissement peut refléter une plus grande hétérogénéité génétique dans l'initiation et la progression du cancer colorectal, comme cela a été suggéré précédemment [26, 27] et aussi que le cancer colorectal est principalement entraîné par des mutations plutôt que par des altérations du nombre de copies [28]. De plus, nous avons examiné le nombre de mutations hotspot et le nombre total de mutations (charge mutationnelle) dans chaque type de tumeur, mais n'avons pas trouvé de corrélation claire entre eux (Fichier supplémentaire 9 : Figure S4).

Signatures mutationnelles des mutations hotspot dans 16 types de tumeurs. L'axe des abscisses représente les types de tumeurs et l'axe des ordonnées représente les 8 types de contextes de séquence (concaténation des mutations faux-sens, non-sens et silencieuses). Chaque barre représente le pourcentage de contextes de séquences spécifiques dans lesquels les mutations du point chaud se produisent. Dans chaque type de tumeur, l'addition des pourcentages de contextes de séquences différents peut être supérieure à 1, car un ou plusieurs types de mutations peuvent se produire sur un seul site de mutation du pilote hotspot

Signature de contexte de séquence des mutations du point chaud

Nous avons étudié les signatures mutationnelles de 702 mutations de points chauds dans différents contextes de séquence à travers différents types de tumeurs. Comme le montre la Fig.  3 , dans 7 types de tumeurs différents (estomac, ovaire, cerveau, sein, peau, pancréas et cancer du rein), NoCpG_CGts était le contexte de séquence le plus répandu par rapport à d'autres contextes de séquence dans lesquels les mutations du point chaud se sont produites (p <𠂐.05), indiquant une plus grande force de sélection positive sur les séquences d'ADN avec la mutation NoCpG_CGts. Dans 3 types de tumeurs (cancer de la tête et du cou, du foie et myéloïde), NoCpG_CGtv semble être le contexte de séquence le plus répandu (p <𠂐.05). Dans plusieurs types de tumeurs telles que le cancer du cerveau et de l'ovaire, bien que NoCpG_CGtv n'ait pas agi comme le contexte de séquence de mutation prédominant, il représentait un pourcentage assez élevé (cerveau : 32 % et ovaire : 35 %). Cependant, dans certains types de tumeurs comme le cancer de la vessie, les mutations du hotspot sont significativement enrichies dans le contexte de la séquence ATtv (35 %, p =𠂑.77e-2).

En termes de contexte de séquence spécifique dans lequel les mutations du point chaud se produisent dans différents types de tumeurs, bien que l'insertion ne soit pas le contexte de séquence le plus répandu dans le cancer du sein, le pourcentage d'insertion dans le cancer du sein (22 %) était significativement plus élevé que dans toute autre tumeur les types (p =𠂑.14e-02), de même, le pourcentage de délétion dans le cancer colorectal (27 %) était évidemment plus élevé que dans les autres types de tumeurs (p =𠂑.84e-4), ainsi que le pourcentage d'ATts (36 %, p =𠂕.84e-3) en colorectal et ATtv (35 %, p =𠂓.73e-3) dans le cancer myéloïde.

Ces observations ont révélé que les caractéristiques génomiques communes telles que le contexte de séquence NoCpG_CGts et NoCpG_CGtv ont été positivement sélectionnées dans divers types de tumeurs ainsi que des caractéristiques génomiques distinctes qui se sont produites dans des types de tumeurs individuels, et ont souligné l'importance d'étudier séparément les mutations des points chauds dans différents contextes de séquence pour mieux comprendre leurs complexités génétiques et leurs indications fonctionnelles.

Pour obtenir un nouvel aperçu fonctionnel de ces mutations qui ont été prédites sur la base des statistiques des données de mutation, nous avons effectué un ensemble de tests statistiques supplémentaires pour associer ces 702 mutations hotspot avec des preuves fonctionnelles.

Exploration des utilités biologiques des mutations des points chauds à l'aide des données d'expression d'ARNm/protéine TCGA

Les conséquences fonctionnelles des mutations peuvent se manifester sous deux aspects : affecter l'expression des gènes ou conduire à une activité anormale de la voie de signalisation. Pour répondre à ces questions, nous avons divisé les valeurs d'expression d'ARNm et de protéines d'un ensemble d'échantillons de TCGA en plusieurs groupes en fonction du statut mutationnel d'un gène spécifique dans ces échantillons : avoir une mutation de point chaud, aucune mutation de point chaud ou aucune mutation [22] . Seules les mutations survenant au moins deux fois ont été incluses et les tests Mann–Whitney U ont été utilisés pour mesurer la différence entre les différents groupes [23]. Parmi 702 mutations hotspot, nous avons trouvé 42 mutations hotspot entraînant des altérations significatives de l'expression de l'ARNm ou des protéines (Fichier supplémentaire 8 : Tableau S5).

Il est connu que TP53 contient des mutations de gain de fonction associées à une expression accrue de TP53 [29, 30] via une régulation à la baisse des cibles en aval telles que MDM2/MDM4, qui supprime l'expression de TP53. Cependant, il n'est pas bien étudié si différentes mutations dans TP53 présentent des fonctions différentes selon les types de cancer. Motivés par cela, nous avons examiné l'association de TP53 mutations hotspot et expression de l'ARN et des protéines de TP53 dans différents types de cancer. Pour se concentrer sur l'effet des mutations sur TP53 expression, nous avons exclu les échantillons contenant TP53 suppressions (Méthodes). Comme le montre la figure 4a, dans le carcinome invasif du sein (BRCA), les échantillons avec des mutations faux-sens R175, R248 et R273 ont des niveaux d'expression d'ARNm ou de protéines manifestement plus élevés, par rapport aux échantillons avec des mutations sans point chaud et sans mutation dans TP53. Dans le cystadénocarcinome (OV) séreux de l'ovaire, des effets similaires ont été observés pour R248 et R273, qui sont associés à des augmentations de la TP53 Expressions d'ARNm et de protéines (Fichier supplémentaire 10 : Figure S5). Cependant, dans l'adénocarcinome du rectum (READ), bien que R175 soit associé à des augmentations de TP53 Des expressions d'ARN similaires à celles observées dans les mutations faux-sens BRCA, R248 et R273 ne sont pas significativement associées à la TP53 Expression de l'ARNm ou de la protéine, comparée à des échantillons sans point chaud ou sans mutations dans TP53 (Fig.  4a), impliquant des fonctions distinctes de R248 et R273 dans différents contextes pathologiques. De plus, la suppression du décalage du cadre de lecture G108, les mutations faux-sens I195 et non-sens R213, qui ont été détectées de manière unique comme des mutations du point chaud dans BRCA, OV et READ respectivement, sont associées à une réduction ou à une amélioration. TP53 expression dans les types de cancer correspondants, suggérant l'hétérogénéité fonctionnelle des mutations des points chauds dans différents types de cancer (Fig.  4a et fichier supplémentaire 10 : Figure S5).

Implications fonctionnelles des mutations des points chauds dans l'expression de l'ARN et des protéines. une Dans BRCA, des échantillons de tumeur avec des mutations du point chaud de délétion G108 dans TP53 présenter moins TP53 expression de l'ARN que ceux avec des mutations non hotspot et sans TP53 mutations. En revanche, les échantillons de tumeurs avec des mutations du point chaud faux-sens (R175, Y220, R248 et R273) dans TP53 montrer plus haut TP53 Expression de l'ARN et des protéines. Dans READ, les échantillons de tumeurs avec des mutations faux-sens R175 montrent plus TP53 Expression de l'ARN et des protéines que celles avec des mutations non hotspot et sans TP53 mutations, tandis que les mutations non-sens R213 ont l'effet inverse. b Dans BRCA, des échantillons de tumeur avec des mutations du point chaud faux-sens H1047 dans PIK3CA montrer plus haut AKT taux de pT308 et pS473 que ceux sans mutation dans PIK3CA, tandis que dans COAD, des échantillons de tumeur avec des mutations du point chaud faux-sens E542 dans PIK3CA montrer plus haut AKT taux de pT308 et pS473 que ceux sans mutation dans PIK3CA. * indique p <𠂐.05 et ** indiquent p <𠂐.001 entre les échantillons avec des mutations de hotspot spécifiées et les échantillons avec des mutations sans hotspot dans le gène examiné # indique p <𠂐.05 et ## indiquent p <𠂐.001 entre les échantillons avec des mutations du point chaud spécifiées et les échantillons sans mutations dans le gène examiné

Au lieu de modifier le niveau d'ARN/protéine, certaines mutations peuvent être fonctionnelles en modifiant l'activité des protéines en aval par la transduction de la signalisation. Par exemple, l'activation de PIK3CA pourrait conduire à l'activation de cibles en aval telles que AKT phosphorylation [31]. Un ensemble de PIK3CA des mutations ont été détectées et étudiées fonctionnellement dans divers types de cancer tels que le BRCA et l'adénocarcinome du côlon (COAD) [32]. Nous avons examiné l'association des individus PIK3CA mutations et AKT activation en comparant le phosphorylé AKT niveaux dans des échantillons avec divers PIK3CA mutations à celles des échantillons sans PIK3CA mutation. Étonnamment, dans BRCA, seulement PIK3CA H1047 a été associé à un taux considérablement plus élevé AKT niveaux de pT308 et pS473, par rapport à ceux qui n'en avaient pas PIK3CA mutations (Fig.  4b) dans COAD, uniquement PIK3CA E542 étaient associés à des taux significativement plus élevés AKT niveaux de pT308 et pS473, par rapport à ceux qui n'en avaient pas PIK3CA mutations (Fig.  4b). Notamment, dans les deux cas, PIK3CA les mutations n'ont pas affecté le total AKT niveau (données non présentées), suggérant que différents PIK3CA des mutations dans différents types de cancer peuvent activer sélectivement AKT via la transduction de la signalisation, plutôt que la régulation de l'expression.

La disponibilité des données d'expression d'ARNm et de protéines permet de caractériser en détail les conséquences biologiques de différentes mutations dans un type de cancer, ainsi que d'une mutation dans différents contextes de cancer, réitérant la justification de la distinction de la fonction des mutations individuelles dans différents contextes de maladie.

Explorer les propriétés pharmacogénomiques des mutations hotspot

Il a été démontré que les cellules cancéreuses répondent à des médicaments spécifiques lorsqu'elles hébergent des mutations dans des gènes conducteurs tels que BRAF et NRAS [9]. Cependant, il n'est pas tout à fait clair si différentes mutations dans un gène conducteur peuvent déclencher différentes réponses médicamenteuses. Ici, nous avons évalué les effets des mutations individuelles sur la réactivité aux médicaments en utilisant les données du CCLE [24]. Nous avons divisé les échantillons de lignées cellulaires cancéreuses en différents groupes, selon qu'ils contiennent un point chaud spécifique, un point chaud ou aucune mutation dans les gènes candidats étudiés. Seules les mutations survenant au moins deux fois ont été incluses et Mann&# x02013Whitney U test a été effectué pour mesurer la différence [23]. Parmi 702 mutations hotspot, nous avons trouvé que 35 mutations hotspot conduisent à des sensibilités aux médicaments significativement altérées (Fichier supplémentaire 8 : Tableau S5).

Nous avons d'abord illustré l'effet des mutations individuelles des points chauds dans BRAF, KRAS et NRAS sur la sensibilité des cellules cancéreuses traitées par MEK inhibiteurs (PD-0325901 et AZD6244). Comme prévu, les cellules avec BRAF Les mutations V600E ont démontré une sensibilité significativement plus élevée à MEK inhibiteurs que ceux sans BRAF mutations (données non présentées). De plus, nous avons constaté que les cellules avec NRAS Les mutations du point chaud Q61 ont démontré une sensibilité significativement plus élevée à MEK inhibiteurs que ceux avec des mutations non-hotspot et ceux sans mutations dans NRAS (Fig.  5a). Cellules avec KRAS Les mutations du point chaud G12 ont démontré une sensibilité significativement plus élevée à MEK inhibiteurs que ceux avec des mutations non-hotspot et ceux sans mutations dans KRAS (Fig.  5a).

Implications fonctionnelles des mutations hotspot dans la sensibilité aux médicaments. une Les cellules cancéreuses avec NRAS Q61 ou KRAS Les mutations du point chaud faux-sens G12 présentent une sensibilité plus élevée aux inhibiteurs de la MEK (PD-0325901 et AZD6244) que celles avec des mutations sans point chaud ou sans aucune mutation dans NRAS ou KRAS. b Les cellules cancéreuses avec MAP3K4 Les mutations du point chaud de délétion A1199 présentent une sensibilité inférieure à différents inhibiteurs de l'EGFR (Erlotinib, Lapatinib, TKI258 et AZD0530) que celles avec des mutations sans point chaud ou sans aucune mutation dans MAP3K4. * indique p <𠂐.05 entre les échantillons avec des mutations de point chaud spécifiées et les échantillons avec des mutations sans point chaud dans le gène examiné # indique p <𠂐.05 entre les échantillons avec des mutations du point chaud spécifiées et les échantillons sans mutations dans le gène examiné

Facteur de croissance épidermique (FEM) est l'un des ligands de haute affinité de EGFR. EGF/EGFR système induit la croissance, la différenciation, la migration, l'adhésion et la survie cellulaire par diverses voies de signalisation en interaction telles que MAPK voie [33], dans laquelle MAP3K4 est un élément important [34]. Cliniquement, EGFR des inhibiteurs tels que l'erlotinib ont été utilisés pour réprimer EGFR signalisation des activations et supprimer la croissance des cellules tumorales. Cependant, nous avons constaté que les lignées cellulaires cancéreuses avec MAP3K4 Les mutations du point chaud de délétion A1199 étaient plus résistantes aux quatre examinées EGFR inhibiteurs (Erlotinib, Lapatinib, TKI258 et AZD0530) par rapport aux lignées cellulaires cancéreuses sans MAP3K4 mutations (Fig.  5b). Ces EGFR les lignées cellulaires mutantes hotspot sont également plus résistantes à trois inhibiteurs (Erlotinib, Lapatinib et TKI258) par rapport aux lignées cellulaires contenant des mutations non hotspot dans MAP3K4 (Fig.  5b), suggérant la fonction unique de MAP3K4 suppression A1199 en perturbant le MAPK fonction de la voie et son utilité potentielle de biomarqueur.

Ces observations ci-dessus soutiennent que les mutations des points chauds que nous avons identifiées peuvent avoir des rôles distincts dans la médiation des voies de signalisation et sont associées à différentes sensibilités aux médicaments. Par conséquent, il est essentiel d'obtenir des informations génomiques précises et de les interpréter de manière spécifique au contexte afin d'obtenir les résultats souhaités dans le traitement personnalisé du cancer.

Mutations du hotspot spécifiques au type de tumeur

Nous avons effectué une analyse pour évaluer si une mutation hotspot dans notre ensemble est très répandue dans des types de tumeurs spécifiques. Parmi tous les 702 points chauds, nous avons constaté que 68 étaient très répandus dans un type de tumeur, 11 dans deux types de tumeur, 2 (KRAS G12 et PIK3CA E542) dans trois types de tumeurs, et 1 (KRAS G13) dans quatre types de tumeurs (Fichier supplémentaire 11 : Figure S6). Parmi celles-ci, 34 mutations hotspot telles que CD209 R129 faux-sens (4,0 %) dans le cancer de la vessie, MAGI1 Insertion Q421 (0,8 %) et NR1H2 L'insertion de Q175 (1,8 %) dans le cancer du sein n'a pas été bien étudiée sur la base d'études précédentes et est potentiellement de nouvelles cibles (Fichier supplémentaire 8 : Tableau S5).

Sur les 21 mutations hotspot détectées dans TP53 (Fig.  6a), 2 se sont révélés prévalents dans plusieurs types de cancer (R248 dans le carcinome urothélial de la vessie (BLCA), BRCA et OV, R273 dans le gliome de bas grade (LGG), BRCA et OV) et 9 ( G108, R158, R175, I195, R213, Y220, R249, R282, E285) dans un type de tumeur, confirmant la diversité fonctionnelle de TP53 mutations hotspot dans différents types de cancer (Fig.  4a).

Prévalence des mutations hotspot dans différents types de cancer TCGA et leurs implications fonctionnelles. une Dans TP53, les mutations hotspot sont différentiellement répandues dans différents types de tumeurs, indiquant leurs fonctions différentielles. b Dans BRCA, les échantillons avec NR1H2 Les mutations du point chaud d'insertion dans le cadre Q175 ont une expression NR1H2 significativement plus faible par rapport aux échantillons avec NR1H2 mutations non hotspot. c Dans BRCA, échantillonner avec GATA3 Les mutations du point chaud d'insertion P409 ont évidemment un GATA3 plus élevé que les échantillons sans mutation GATA3. * indique p <𠂐.05 entre les échantillons avec des mutations de point chaud spécifiées et les échantillons avec des mutations sans point chaud dans le gène examiné # indique p <𠂐.05 entre les échantillons avec des mutations du point chaud spécifiées et les échantillons sans mutations dans le gène examiné

Nous avons identifié 30 mutations hotspot qui ont été exclusivement détectées dans un seul type de tumeur (Fichier supplémentaire 12 : Tableau S6). Inclus étaient DNMT3A R882 et NPM1 W288, qui surviennent respectivement chez 14,9 et 25,6 % des patients atteints de leucémie myéloïde aiguë (LAML) et se sont révélées importantes dans l'oncogenèse de la LAML [35]. Outre ces hotspots attendus, nous avons trouvé des hotspots potentiellement nouveaux. Par exemple, nous avons trouvé une mutation de point chaud d'insertion dans le cadre, NR1H2 Q175 chez 1,8 % des patients atteints de BRCA, une enquête plus approfondie utilisant les données d'expression de l'ARNm de BRCA a montré que NR1H2 L'insertion de Q175 est associée à une expression réduite de l'ARNm de NR1H2, comparé à NR1H2 mutations non hotspot (Mann&# x02013Whitney U test, p =𠂒.60e-2, Fig.  6b ). Bien qu'ayant été rapporté pour réguler l'homéostasie du cholestérol et la tumorigenèse du cancer du foie [36], le rôle de NR1H2 L'insertion de Q175 dans BRCA n'a pas été bien caractérisée. En outre, GATA3 P409, une mutation du point chaud d'insertion par décalage de trame a été détectée chez 1,6 % des patients atteints de BRCA. Échantillons BRCA avec GATA3 Les insertions P409 avaient des expressions plus élevées de GATA3 par rapport aux échantillons sans GATA3 mutations basées à la fois sur l'expression de l'ARNm du BRCA (Mann&# x02013Whitney U test, p =𠂒.03e-2) et les données RRPA (Mann–Whitney U test, p =𠂕.94e-2, Fig.  6c ). Parce que GATA3 a été proposé comme biomarqueur pronostique dans le cancer du sein [37], la fréquence élevée de GATA3 P409 et élevé GATA3 expression dans BRCA en font une cible thérapeutique potentielle utile en clinique.

Conservation et caractéristiques du domaine protéique des mutations du hotspot

En général, on s'attend à ce que des mutations fonctionnelles et structurelles importantes se localisent dans une région et un domaine hautement conservés au cours de l'évolution de la protéine. Pour évaluer notre mutation hotspot, nous avons utilisé les scores RS calculés par GERP++ [25], pour mesurer les contraintes évolutives à travers différents sites chromosomiques (Méthodes). Nous avons comparé la différence de score RS entre les sites appartenant à des mutations hotspot et ceux appartenant à des mutations non hotspot. Les scores RS de 702 mutations hotspot étaient significativement plus élevés que ceux des mutations non hotspot (Fig.  7a ), suggérant que les sites qui hébergent des mutations hotspot étaient plus conservés que ceux qui ne le sont pas. En outre, nous avons également examiné l'emplacement relatif des mutations sur la protéine. Les mutations sans point chaud étaient uniformément réparties dans différents domaines de la protéine (panneau inférieur), tandis que les mutations point chaud présentaient un regroupement au milieu et aux extrémités (Fig.  7b, panneau supérieur), suggérant la préférence fonctionnelle des mutations dans différents domaines protéiques.

Comparez la conservation et la localisation du domaine protéomique des mutations hotspot et non hotspot. une Comparaison du score GERP entre les mutations hotspot et non hotspot. b Investigation de la localisation du domaine protéomique du hotspot (supérieur) et non hotspot (inférieur) mutation


Notes de bas de page

Contributions des auteurs : N.R., J.D.J. et T.F.K. recherche conçue N.R., J.D.J. et T.F.K. effectué des recherches L.G., M.R.S., K.H., A.Y.Y., M.M.M.-P. et W.J.B. a contribué à de nouveaux réactifs/outils d'analyse N.R., C.P., B.B., J.D.J. et T.F.K. données analysées et N.R., C.P., L.G., B.B., M.R.S., K.H., A.Y.Y., M.M.M.-P., W.J.B., J.D.J. et T.F.K. a écrit le papier.

Les auteurs ne déclarent aucun conflit d'intérêt.

Cet article est une soumission directe PNAS.

Dépôt des données : Les séquences rapportées dans cet article ont été déposées dans la base de données GenBank (BioProject ID PRJNA279971).


Voir la vidéo: Smilers-Nagu välk selgest taevast (Août 2022).