Informations

Explication de l'allèle ancestral


J'ai du mal à comprendre le concept d'allèle ancestral. Qu'est-ce que ça veut dire exactement? Qu'est-ce que cela a à voir avec l'identité par filiation/état ? Qu'est-ce que cela a à voir (le cas échéant) avec les SNP ? Aussi, en quoi le concept est-il utile en génétique/évolution ? J'ai essayé de les lire sur divers sites Web, mais je ne suis pas encore satisfait de ma compréhension.


SNP

Commençons par la définition qui n'a rien à voir avec le reste de la question :). Un polymorphisme à un seul nucléotide (SNP) est une sorte de variation génétique que l'on trouve dans la population. Cette variation génétique est définie comme une variation causée par un seul nucléotide (comme son nom l'indique). Par exemple si vous avez dans les populations les deux variantes suivantes au même locus :AGCCGTetAGCTGT, alors vous avez un SNP à la position du C et du T. Ce type de variation est très courant. Nous estimons qu'il existe environ 10 millions de SNP dans le génome humain. Nous utilisons souvent ces SNP comme marqueurs génétiques.

Allèles ancestraux vs dérivés

Un allèle ancestral ou un trait ancestral (selon que vous regardez le phénotype ou le génotype) est le trait/allèle qui était porté par l'ancêtre commun du taxon que vous considérez. Par exemple : comme vous le savez peut-être, le taxon Reptilia comprend des lézards, des serpents, des tortues, des oiseaux, des mammifères et d'autres lignées. Chez le taxon Reptilia, les écailles sont l'état ancestral (existent encore chez les lézards par exemple) et les poils et les plumes sont des états dérivés. Habituellement, l'état ancestral est celui porté par les lignées les plus basales.

Identité par état (IBS) et Identité par filiation (IBD)

Si deux séquences sont exactement identiques, alors on dit qu'elles sont identiques par état (IBS). Une telle identité peut se produire soit par une évolution convergente, soit par une ascendance commune.

Pour comprendre le concept d'« identique par descendance » (IBD) il est important de comprendre le concept de coalescence. Un événement coalescent est, lorsqu'on regarde en arrière dans le temps, un événement où deux séquences étaient en fait la même séquence. Souvent, l'IBD est défini relativement à un seuil donné dans le temps. Si l'événement coalescent se produit après cet événement, alors les deux séquences ne sont pas IBD. Si les deux séquences fusionnent avant ce seuil de temps et que les deux séquences sont toujours IBS, alors les deux séquences sont IBD

Combler le tout

Donc, si vous regardez des séquences dans un groupe donné de lignées et voyez qu'elles sont toutes exactement les mêmes, alors elles sont identiques par état. Si vous savez que toutes ces séquences proviennent d'un ancêtre commun et même qu'elles fusionnent toutes en un seul individu dans l'ancêtre commun, alors toutes les séquences sont identiques par descendance. Mais certaines mutations peuvent avoir eu lieu depuis le dernier ancêtre commun résultant en certains SNP, alors toutes les séquences ne sont plus IBS et donc pas IBD non plus. Vous pouvez utiliser une telle variance de séquence afin de créer une phylogénie par exemple.

J'espère que cela pourra aider.


Écologie comportementale des animaux tropicaux

María C. De Mársico , . Juan C. Reboreda, dans Avancées dans l'étude du comportement, 2010

C Utilisation de l'hôte par les vachers brillants et hurlants au niveau individuel

Les distributions de fréquence des haplotypes parmi les hôtes ont révélé des pontes non aléatoires chez les deux espèces de vachers. Chez les vachers luisants, nous avons trouvé des différences dans la distribution des haplotypes entre les troglodytes domestiques et les trois autres hôtes (brant roux, marais brun et jaune et moqueurs à sourcils crayeux par paires ??ST valeurs = 0,20-0,23, P < 0,001). De même, chez le vacher hurleur, nous avons trouvé des différences dans la distribution des haplotypes entre les baies et les merles chopi (??ST = 0.05, P = 0,04). Dans un scénario de ponte aléatoire, nous nous attendrions à trouver des haplotypes également répartis entre les hôtes. De même, si les femelles sont des spécialistes de l'hôte au niveau individuel mais ne partagent pas l'utilisation de l'hôte avec leur mère, la distribution des haplotypes doit être distribuée au hasard. Cela proviendrait de femelles partageant l'haplotype avec leurs mères mais utilisant un hôte différent. Par conséquent, le même haplotype serait représenté dans tous les hôtes. Si cela se produisait chez toutes les femelles, les haplotypes seraient également trouvés chez tous les hôtes. La figure 6 montre les fréquences des haplotypes pour une espèce hôte de vachers luisants et criards par rapport à un autre hôte de la zone d'étude. L'utilisation d'hôtes aléatoires donnerait des fréquences proches de 50 % pour tous les haplotypes, tandis que l'utilisation d'hôtes non aléatoires ne montre que certains haplotypes (ou trouvés dans un hôte (100 %) ou dans l'autre (0 %)).

6 . Fréquence des haplotypes (H1–H12) pour un hôte vacher brillant (symboles ouverts) et un hôte vacher hurleur (symboles fermés) par rapport à un autre hôte de la zone d'étude. Vacher brillant : troglodyte domestique (vs. moqueur à sourcils crayeux) vacher criard : merle chopi (vs. baywing). Données tirées de Mahler et al. (2007, 2009), la numération des haplotypes est arbitraire.


Fond

La divergence et la spéciation résultent de longues périodes d'adaptation, de sélection et de dérive génétique après la séparation des sous-populations. La séparation oblige les individus à s'adapter à l'environnement isolé actuel et à se différencier progressivement de la population initiale. Diverses méthodologies et théories ont été proposées dans les efforts de déchiffrement de ce processus depuis le XIXe siècle [1].

Récemment, la disponibilité des séquences du génome entier (WGS) est devenue d'une importance croissante dans les études génétiques [2]. Dans les études sur les bovins, par exemple, les données WGS de diverses races ont été utilisées pour l'inférence de l'histoire démographique, l'identification des traits de production, le calcul de la taille effective de la population, l'estimation des relations génétiques et l'analyse de la structure de la population [3,4,5].

Dans l'analyse évolutive, les blocs de synténie peuvent être déduits comme des relations conservées de régions génomiques dans différentes espèces ancrées par des ensembles de gènes orthologues. De taille variable, ces blocs peuvent être co-localisés dans différents caryotypes des génomes respectifs des espèces modernes. De plus, les blocs de synténie peuvent être regroupés en blocs spécifiques à la lignée, tels que les primates, les rodentia, les félidés, les camélidés, les chiroptères et les bovidés, comme suggéré dans une étude d'analyse synténique utilisant 87 génomes de mammifères [6]. Cependant, les gènes orthologues au sein de ces blocs de synténie spécifiques à la lignée peuvent présenter des variations alléliques dues à un événement évolutif indépendant après la spéciation [7].

Les allèles ayant divergé par mutation sont appelés allèles dérivés (DA), tandis que les allèles qui persistent dans leur état initial sont appelés allèles ancestraux (AA) [8]. Une méthode raisonnable pour évaluer l'AA consiste à comparer les sites polymorphes partagés d'espèces étroitement apparentées. Les allèles encore intacts et partagés par toutes les espèces apparentées sont très probablement l'allèle ancestral [9]. Une autre méthode consiste à vérifier l'état allélique du dernier ancêtre commun (LCA) ou de l'allèle au sein des populations actuelles qui diffère le moins du LCA [10].

Dans une étude des polymorphismes autosomiques de nucléotides simples (SNP) chez le porc, les états alléliques ancestraux et dérivés du SNP ont été déduits à l'aide de quatre espèces Sus (Sus celebensis, Sus barbatus, Sus cebifrons, et Sus verruqueux) et une espèce hors groupe de phacochères africains pour les espèces focales de Sus scrofa [11]. Dans les études humaines, les espèces hors groupe pour déduire l'AA sont des primates, à savoir l'orang-outan (Pongo sp.), macaques (Macaca sp.), gorille (Gorille sp.) et les bonobos (Pan paniscus) [12]. Dans une étude bovine d'Utsunomiya et al. (2013) en utilisant HD-SNP, Gaur (Bos gaurus), buffles d'eau (Bubalus bubalis) et Yack (Bos grunniens) ont été utilisées comme espèces focales pour les bovins.

La définition des états ancestraux et dérivés sur les sites de nucléotides polymorphes est nécessaire pour tester les hypothèses proposées concernant les processus d'évolution moléculaire, tels que l'estimation des âges des allèles, la formation de modèles de déséquilibre de liaison (LD) et les signatures génomiques à la suite de pressions de sélection [13, 14] . Les études WGS humaines bénéficient de la base de données AA pour l'analyse de la population, mais une telle base de données fait défaut chez les bovins. Par conséquent, chaque étude génère à plusieurs reprises sa propre liste AA putative [5, 12, 15].

Par conséquent, le but de cette étude est de combler cette lacune et de déterminer un ensemble fixe d'AA chez les bovins en utilisant des espèces d'exogroupe dans le Bovinés sous-famille, à savoir les séquences gaur, yak, bison, wisent, banteng et gayal. De plus, nous avons scanné la liste des AA pour les régions physiques liées aux traits conservés et mutés chez les bovins taurine et zébu.


Méthodes

Identification des allèles ancestraux

Pour une variante dans une population à N individus, deux types d'haplotypes existent : un haplotype abritant un allèle nouvellement émergé et un haplotype abritant un allèle ancestral. Une fois qu'un allèle a émergé et a survécu, la fréquence de l'haplotype hébergeant l'allèle nouvellement émergé peut augmenter dans la population au fil du temps. À l'origine, l'haplotype contenant l'allèle nouvellement émergé est monomorphe au fil du temps, la diversité des haplotypes augmente en raison de la mutation et de la recombinaison. Si le variant survit suffisamment longtemps, les deux haplotypes deviennent indiscernables en termes de diversité. Jusque-là, l'haplotype hébergeant l'allèle nouvellement émergé montre moins de diversité conduisant à un plus petit paramètre de mutation de la population (θ), que l'haplotype d'origine. Les allèles ancestraux peuvent être identifiés en mesurant la diversité de chaque haplotype et en comparant les résultats. Par conséquent, la procédure d'identification des allèles ancestraux est la suivante : 1) estimer pour chaque type d'haplotypes 2) comparer θ estimations et 3) désigner l'allèle de l'haplotype ayant le le plus élevé comme allèle ancestral.

Dans la présente étude, les estimations et les simulations de sont basées sur le modèle de population de Wright-Fisher d'une taille de population fixe avec un site fini. Par conséquent, d'autres estimations qui contredisent ces hypothèses ont été exclues de la présente étude. La méthode la plus simple pour mesurer la diversité consiste à examiner le nombre de polymorphismes dans l'haplotype. La mesure peut être effectuée pour certaines plages de paires de bases qui sont à égale distance de la position de variante. Sur la base de la formule présentée ci-dessous [2, 21], le paramètre de mutation de la population (4Nμ), thêta (θ), est dérivé pour chaque haplotype, avec et sans l'allèle nouvellement émergé. Parmi les deux estimations pour un variant bi-allélique, un thêta plus petit indique que l'allèle dans l'haplotype est nouvellement émergé. où P représente la proportion de sites polymorphes sur un haplotype avec un allèle spécifique et q représente la plus petite fréquence allélique non nulle de l'échantillon d'haplotype.

Une autre méthode de mesure de la diversité consiste à utiliser l'expression théorique de Wright [22]. Le paramètre de mutation de la population (θ) peut être dérivé des données de séquençage de la population comme indiqué ci-dessous, qui a été précédemment décrit [23]. Pour déterminer chaque estimation, le premier thêta est indiqué comme thêta1 (θ1), et ce dernier thêta est indiqué par thêta2 (θ2). Parce que la recombinaison introduit de nouvelles variantes dans l'haplotype, les estimations impliquent la légère influence de la recombinaison. Si la plage de mesure est aussi petite que possible pour estimer thêta, cependant, l'influence de la recombinaison pourrait être minime. où m représente la moyenne de la distribution bêta des fréquences alléliques pour un type d'haplotype avec un allèle spécifique et v représente la variance de la distribution bêta pour un type d'haplotype avec un allèle spécifique. Parce que le type de variantes sur l'haplotye n'a pas besoin d'être distinguable, la distribution bêta est juste dans la présente étude. Comme avec θ1 pour une variante bi-allélique, des estimations plus petites indiquent que l'allèle dans l'haplotype est nouvellement émergé. Pour un variant multi-allèle, l'ordre d'émergence des allèles est déterminé en fonction des estimations thêta de chaque type d'haplotypes.

Simulation

Des simulations ont été effectuées pour examiner la validité des méthodes proposées, similaires à une étude précédente [24] qui était basée sur une étude théorique [25]. Les simulations ont été effectuées en supposant des taux de mutation et de recombinaison constants et une taille de population constante (N). En raison de l'efficacité et de la disponibilité des calculs, des tailles de population de 100 et 50 ont été examinées et les taux de mutation et de recombinaison étaient de 0,00001, ce qui était beaucoup plus élevé que les valeurs réelles pour le génome humain. Le site total était de 30 000 paires de bases (pb) et la plage estimée était de ± 2 000 pb à partir du variant cible, sauf indication contraire. Pour commencer à un état d'équilibre, la séquence initiale contenait des variantes basées sur une distribution bêta avec des paramètres de 4Nμ, et un accouplement aléatoire avec des taux de mutation et de recombinaison constants a été réalisé pour 8N générations. Après l'accouplement aléatoire initial, un accouplement aléatoire sur 1000 générations a été réalisé pour examiner la diversité des allèles dérivés et ancestraux des variantes. Les estimations moyennes des variants à chaque génération (de 2 à 500) à la suite des simulations sont illustrées sur la figure 1A et la figure S1.

A. Résultats de simulation des mesures de diversité pour les allèles dérivés et ancestraux (N : 100, taux de mutation de 1 paire de bases par génération : 0,0001, taux de recombinaison de 1 paire de bases par génération : 0,0001) B. Proportions cumulées d'identification correcte des allèles ancestraux selon aux générations et aux fréquences alléliques dérivées.

Parce qu'une séquence de 30 000 pb n'avait pas suffisamment de variants lorsque les taux de mutation et de recombinaison étaient de 0,0001, 20 séquences de 30 000 pb ont été examinées ensemble en utilisant un calcul parallèle. Lorsque les taux de mutation et de recombinaison étaient de 0,00001, 300 séquences de 30 000 pb ont été analysées ensemble. Pour les simulations d'échantillonnage, les mêmes simulations pour une séquence de 2000 pb ont été effectuées jusqu'à l'accouplement aléatoire initial pour 8N générations, et des échantillonnages avec remise ont été effectués pour différentes tailles d'échantillons. Cette procédure a été répétée 1000 fois en parallèle, et les valeurs moyennes et les intervalles de confiance sont tracés dans S2 Fig.

Analyses des données de séquençage du génome humain

Les données de séquençage du génome entier à faible couverture de 1092 individus produites par le projet 1000 génomes ont été utilisées pour les analyses [17, 18]. Les fichiers intégrés de données de séquençage du Projet 1000 Génomes contiennent la valeur 0 ou 1 comme allèles avec les informations des bases de référence et alternatives. Les fréquences (f) des variantes avec l'allèle cible sont ordonnées et attribuées uniformément à f ou à 1-f pour une distribution bêta équitable. Compte tenu des faibles taux de mutation et de recombinaison dans le génome humain, les plages autour des variants cibles ont été fixées à ± 5 000 pb pour les deux θ1 et2 estimations. Les estimations nécessitaient un nombre suffisant de variantes dans la fourchette. Si la région proche de la cible n'était pas suffisamment couverte (plus de 3 000 pb manquants), la variante cible n'était pas incluse dans les estimations. À partir des simulations d'échantillonnage, les variantes avec les deux allèles ayant plus de 10 nombres d'allèles (fréquence des allèles mineurs >0,0046) ont été incluses dans le θ1 estimations, et les variantes avec les deux allèles ayant plus de 20 nombres d'allèles (fréquence des allèles mineurs >0,0092) ont été incluses dans le θ2 estimations.

Les données du projet 1000 Genomes contiennent les informations sur les allèles ancestraux basées sur de multiples alignements de séquences [9–11]. Les séquences ancestrales ont été déduites sur la base du pipeline EPO (Enredo, Pecan, Ortheus) en utilisant quatre séquences de primates (c'est-à-dire humain, chimpanzé, orang-outan et macaque rhésus) [9–11]. Les appels des allèles ancestraux étaient basés sur la sœur et les séquences ancestrales. Pour plus de précision, seuls les allèles ancestraux avec une certitude élevée basée sur les alignements de séquences ont été inclus pour les analyses, qui sont indiqués par des lettres majuscules. La haute certitude signifie l'accord des trois séquences, à savoir la séquence ancestrale humain-chimpanzé, la séquence chimpanzé et la séquence ancestrale humain-chimpanzé-orang-outan (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ ftp/pilot_data/technical/reference/ancestral_alignments/README). Les variantes analysées sont résumées dans le tableau 1.

Analyses des données QTL et GWAS

Une étude récente a identifié des variantes fonctionnelles en utilisant le séquençage d'ARN de lignées cellulaires lymphoblastoïdes provenant des mêmes individus dans le projet 1000 Genomes [19]. En raison des propriétés statistiques intrinsèques, presque tous les QTL avaient des fréquences alléliques mineures élevées. Par conséquent, la plupart des variants QTL avaient des informations sur les allèles ancestraux à la fois du1 et2 estimations. Les QTL dans lesquels les doublons dans leurs positions ont été éliminés ont été utilisés pour les analyses de données. Le nombre total de variantes examinées est indiqué dans le tableau A du fichier S1. Il y avait deux ensembles de données, EUR et YRI, et les fréquences alléliques des populations correspondantes dans le projet 1000 Genomes ont été utilisées pour interpréter les fréquences alléliques ancestrales. Les variantes GWAS ont été téléchargées à partir du catalogue GWAS (https://www.genome.gov/26525384). Les variantes GWAS avaient des fréquences alléliques mineures élevées en raison de la même propriété statistique intrinsèque que les QTL. Le nombre total de variantes GWAS dans lesquelles les doublons dans leurs positions ont été éliminés était de 11910, et le nombre total de variantes analysées était de 11833.


ApoE4 – L'allèle ancestral

Apparemment, lorsque James Watson et Steven Pinker ont fait séquencer leur génome, ils ont refusé de connaître leur risque de maladie d'Alzheimer. De toute évidence, ce n'est pas une option pour les prolongateurs de vie et les cryogénistes, qui ont intérêt à savoir s'ils ont une copie ou, pire, deux copies du gène ApoE4.

Patri Friedman, fils de l'économiste libertaire David Friedman (qui à son tour est le fils du lauréat du prix Nobel Milton Friedman), a récemment appris qu'il possédait deux copies du gène ApoE4 lorsque 23andMe a mis à jour ses rapports. Les porteurs caucasiens et japonais de deux allèles E4 ont entre 10 et 30 fois le risque de développer la maladie d'Alzheimer à 75 ans, par rapport à ceux qui ne portent aucun allèle E4. Patri est un vulgarisateur de la vie, un praticien du régime paléo, et a récemment pris des dispositions cryoniques avec toute sa famille à Alcor – et est donc beaucoup plus enclin à un plan d'action proactif.

Lorsqu'il s'est rendu compte qu'il n'y avait pas de bonne ressource centrale pour les personnes possédant des copies du gène ApoE4, il a lancé un nouveau blog appelé ApoE4 - The Ancestral Allele, qui vise à partager des informations pratiques et des recherches pour les porteurs d'E4 soucieux de leur santé. Les premiers articles discutent de certains des avantages d'avoir le gène E4 (meilleure mémoire épisodique) et du type de régime alimentaire recommandé pour les porteurs d'E4. Il encourage également les publications d'invités et d'autres co-blogueurs à aider à gérer le site Web.


Matériaux et méthodes

Suivre Keightley et al. (2016), l'inférence uSFS est réalisée en deux étapes. Les paramètres de taux d'évolution sont estimés à partir de tous les sites dans les données (y compris les sites polymorphes et monomorphes) à l'étape 1. À l'étape 2, l'uSFS est calculé, sous réserve des estimations des paramètres de taux d'évolution. Les informations des étapes 1 et 2 sont ensuite combinées dans une troisième étape pour déduire la probabilité d'état ancestral pour chaque site polymorphe.

Représentation des données et quelques définitions

Supposons que nous ayons échantillonné m copies de gènes orthologues sur un ensemble de sites d'une population d'une espèce focale. L'uSFS dont nous avons besoin pour estimer contient donc m − 1 élément, à l'exclusion des éléments où l'allèle ancestral ou dérivé est fixé. Nous supposons que nous avons échantillonné au hasard une seule copie de gène à chaque site dans une ou plusieurs espèces de l'exogroupe. Nous supposons que la topologie des arbres reliant l'espèce est connue et ne varie pas selon les sites (Figure 1). Dans l'analyse, nous supposons que la variation des nucléotides au sein de l'espèce focale fusionne au sein de la branche marquée b1. Les conséquences du polymorphisme dans les espèces de l'exogroupe et la violation des hypothèses d'une topologie arborescente invariante et d'une coalescence au sein de la branche b1 sont étudiées dans des simulations. La configuration nucléotidique observée pour un site est le nombre de chacun des quatre nucléotides de l'espèce focale (étiqueté X, Y pour un site biallélique), ainsi que l'état de chaque groupe externe (A, C, G ou T). Soit le nombre d'exogroupes = m (dans la figure 1, m = 3), et désignent les groupes externes o1, o2. om. En supposant un arbre non enraciné (comme dans la figure 1), le nombre de branches dans l'arbre est donc b = 2m − 1.

Représentation des données pour uSFS et inférence d'état ancestral. Le polymorphisme au sein de l'espèce focale (nucléotides X, Y) est supposé fusionner au sein de la branche b1. Il y a trois groupes externes, deux nœuds internes inconnus et cinq branches dans cet arbre. La racine de l'arbre n'est pas identifiable, donc branche b5 s'étend de l'exogroupe 3 au nœud de b3 et B4.

Modèles de substitution de nucléotides

Le modèle JC, le modèle K2 et un modèle permettant six débits symétriques (R6 Figure 2) sont considérés. Tous les modèles de substitution nécessitent l'estimation de taux d'évolution (c'est à dire., nombre moyen de changements de nucléotides par site) pour chaque branche, K1. Kb. Les taux sont les seuls paramètres du modèle JC. Pour le modèle K2, un paramètre supplémentaire, ??, spécifie le taux de mutations de transition par rapport au taux de transversions. Pour le modèle R6, il existe six taux de mutation relatifs symétriques, r1. r6, (Figure 2), donc cinq paramètres indépendants, r1. r5, nécessitent d'être estimés.

Estimation des paramètres de taux

En supposant la topologie arborescente de la figure 1, il y a b taux de substitution et ceux-ci, ainsi que les paramètres du modèle de substitution (c'est à dire., ?? pour le modèle K2 ou r1. r5 pour le modèle R6), sont estimées par ML en utilisant l'algorithme du simplexe pour la maximisation de la vraisemblance. Nous avons vérifié la convergence en choisissant des valeurs de départ pour les paramètres à partir de larges distributions, en redémarrant l'algorithme lorsque la convergence avait apparemment été atteinte et en vérifiant que la même vraisemblance finale maximale du log était atteinte dans plusieurs exécutions. Laisser ?? être un vecteur spécifiant les paramètres du modèle, et soit ouije être un vecteur spécifiant la configuration nucléotidique observée pour l'espèce focale et les groupes externes sur le site je. Les sites sont supposés évoluer indépendamment, de sorte que la probabilité globale des données est le produit des probabilités de la configuration nucléotidique observée pour chaque site : (1) La probabilité de la configuration nucléotidique pour chaque site est évaluée en additionnant les probabilités pour le marbre = 4 m − 1 arbre possible non enraciné, formé de toutes les combinaisons possibles de nucléotides [A, T, G, C] aux nœuds internes inconnus ainsi que la configuration nucléotidique observée pour les espèces focales et les groupes externes sur le site. (2) où cj est un vecteur représentant la configuration nucléotidique observée pour l'espèce focale et la m outgroups ainsi que les états nucléotidiques pour le b − 1 nœuds internes pour l'arbre j. Si l'espèce focale est polymorphe sur un site, la probabilité pour ce site est calculée comme la probabilité moyenne pour chaque nucléotide observé (X, Y sur la figure 1).

La probabilité globale pour un arbre donné est calculée à partir du produit des probabilités de chaque branche (k = 1. b), conditionnellement aux états nucléotidiques X1,k et X2,k représentant les nucléotides ancestraux et dérivés de cette branche, étant donné les états nucléotidiques spécifiés dans cj: (3) La probabilité pour une branche dépend de si X1,k et X2,k diffèrent les uns des autres, le type de différence (sauf dans le cas du modèle JC) et les paramètres du taux de substitution ??.

Calcul de pbranche

En calculant la probabilité d'observer des nucléotides X1,k et X2,k sur branche k, on suppose que le nombre de changements de nucléotides sur la branche est distribué de Poisson. Les termes pour plus de deux changements sur une branche ne sont pas pris en compte. La méthode pourrait être étendue pour permettre plus de deux changements sur une branche, mais les sites fortement saturés apporteraient peu d'informations utiles. Laisser Kk être le paramètre de taux d'évolution pour la branche k, qui est le nombre moyen de changements pour cette branche.

Modèle JC :

Modèle K2 :

Modèle R6 (Figure 2) :

Pour p(2 changements) : L'algorithme pour calculer la probabilité d'observer la même base ancestrale et dérivée lorsque deux changements se sont produits sur une branche est illustré par un exemple simplifié où tous les taux relatifs du modèle à l'exception de deux (r1 et r4) sont nuls (Figure 2).

Pour le cas de X1,k = X2,k = A, la séquence d'événements doit donc être un changement A → T suivi d'un changement T → A. La probabilité de ces événements est obtenue à partir de : (11) Pour l'exemple où tous les taux relatifs dans le modèle à l'exception de r1 et r4 sont nuls, c'est : (12) où k1 = 2Kk(r1 + r2 + r3) et k2 = 2Kk(r1 + r4 + r5). Dans cet exemple, les taux relatifs r2, r3, et r5 sont tous nuls, mais sont inclus par souci d'exhaustivité. L'évaluation de l'intégrale définie dans (12) donne une expression sous forme fermée : (13) La logique peut être étendue pour permettre à tous les taux relatifs d'être non nuls.

Supposons que seulement r1 et r4 sont non nuls (Figure 2), et que A est la base ancestrale et C est la base dérivée. La séquence des événements est donc un changement A → T suivi d'un changement T → C. La probabilité de cette séquence d'événements est obtenue à partir de : (15) C'est : (16) où k1 et k2 ont les mêmes significations que ci-dessus.

L'algorithme peut être étendu aux cas où les taux relatifs sont tous non nuls.

Calcul des éléments uSFS

L'approche ML décrite par Keightley et al. (2016) estime la proportion de densité, ??j, attribuable à l'allèle majeur étant l'allèle ancestral vs. l'allèle principal étant l'allèle dérivé pour chaque paire d'éléments uSFS (indexé par j et mj, où m est le nombre de copies de gènes échantillonnées). Nous avons implémenté cet algorithme de la manière suivante, conditionnellement à l'estimation ML des paramètres de débit, (obtenus en évaluant l'équation 1), qui sont donc supposés connus sans erreur. Pour un uSFS contenant m éléments, mDes estimations de /2 ML doivent être faites. En supposant que les sites évoluent indépendamment (voir. Équation 1), la probabilité de ??j pour le sous-ensemble de sites (numérotation des sitesj) ayant j copies de l'allèle mineur dans l'espèce focale est : (17) où la probabilité de la configuration nucléotidique observée pour l'espèce focale et les groupes externes sur le site est donnée par l'équation 2, évaluée avec l'allèle majeur et l'allèle mineur comme état des espèces focales sur ce site (voir la figure 1).

Calcul des probabilités d'états ancestraux site par site

La probabilité de l'allèle Xje vs. allèle Yje être ancestral sur le site je peuvent être calculés à partir de leurs probabilités relatives, c'est à dire., mais cela n'utilise que les informations des paramètres de taux estimés. Il n'intègre pas les informations du nombre de grands vs. copies mineures sur le site. Par exemple, si les informations de l'exogroupe n'étaient pas informatives, nous attribuerions p1 = p2. S'il y a peu de sites dans l'ensemble de données où l'allèle dérivé est à une fréquence élevée, cependant, l'uSFS estimé nous indiquerait que A est plus susceptible d'être ancestral.

Pour déduire les probabilités d'état ancestral pour le site je, les informations des paramètres de taux estimés sont complétées par les informations presque indépendantes de l'uSFS estimé (voir. Halligan et al. 2013). S'il y a j copies de l'allèle mineur dans l'espèce focale sur un site je, la probabilité de l'allèle majeur Xje être ancestral est : (18) Pour vérifier cette équation, on peut montrer que la somme des probabilités d'état ancestral récupère l'uSFS estimé.

Simulation

Nous avons étendu un programme de simulation décrit par Keightley et al. (2016) pour simuler trois groupes externes pour la topologie illustrée à la figure 1. En bref, des sites non liés avec quatre états nucléotidiques ont été simulés dans une population diploïde de taille N = 100. Le taux de mutation par site et par génération a été fixé à ?? = ??/N, et la diversité génétique neutre, ??, était généralement de 0,01. Les simulations ont permis de transmettre toute variation au sein d'une population à un nœud de l'arbre phylogénétique à deux sous-populations ancestrales, qui ont été formées en échantillonnant des chromosomes avec remplacement en une génération. Pour générer les données pour l'inférence uSFS, une seule copie de gène a été échantillonnée au hasard à partir de chaque espèce hors groupe. Nous avons soit simulé des sites neutres, soit un mélange de sites neutres et sélectivement contraints. Si une mutation se produisait sur un site sélectivement contraint, son coefficient de sélection était s/2, où s est la différence de fitness entre le mutant homozygote et l'hétérozygote. Les effets sur la condition physique étaient multiplicatifs entre et à l'intérieur des loci.

Données DPGP

Nous avons analysé des sites dégénérés quadruples à partir des séquences rwandaises des données DPGP phase 2, comprenant 17 génomes haploïdes (voir Keightley et al. 2016 pour les détails).

1000 données de génomes

Nous avons téléchargé des appels de variantes de la version de phase 3 du projet 1000 génomes (de ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/) et extrait les 99 individus non apparentés du Luhya à Webuye , population du Kenya (désormais LWK). Tout d'abord, nous avons limité nos analyses aux sites qui étaient quadruplement dégénérés dans tous les transcrits autosomiques des gènes codant pour les protéines chez l'homme selon la version 71 de l'Ensembl. Nous avons utilisé les alignements multiples EPO à six voies d'espèces de primates (disponibles sur ftp://ftp. ensembl.org/pub/release-71/emf/ensembl-compara/epo_6_primate/) pour déterminer les allèles chez les orangs-outans et les macaques à chaque site dégénéré quadruple, et pour déterminer si ces sites étaient dans un CpG chez l'homme ou l'un des autres groupes espèce. Nous avons utilisé l'orang-outan et le macaque comme sous-groupes dans notre analyse. Le chimpanzé et le gorille sont plus proches et potentiellement plus informatifs, mais ils partagent une forte proportion de polymorphisme avec l'homme, ce qui viole une hypothèse de notre analyse. Les alignements multiples EPO ont d'abord été convertis du format .emf au format .maf, puis des régions spécifiques ont été accessibles à l'aide du package WGAbed (https://henryjuho.github.io/WGAbed/). Les données pour les allèles ancestraux humains, telles qu'utilisées par le 1000 Genomes Project (1000 Genomes Project Consortium 2015), ont été téléchargées à partir de ftp://ftp.ensembl.org/pub/release-74/fasta/ancestral_alleles/.

Les sites ont été retenus pour analyse s'il n'y avait pas de données manquantes chez l'homme ou l'une ou l'autre des espèces hors groupe. Les sites ont en outre été attribués aux catégories CpG et non-CpG. Les sites CpG ont été définis comme des sites CpG dans leur contexte chez l'une des trois espèces : humain (incluant à la fois les allèles REF et ALT), orang-outan ou macaque. Les sites non CpG ont été définis comme des sites qui n'ont jamais été CpG dans leur contexte chez aucune des mêmes espèces, y compris les allèles REF et ALT dans l'échantillon humain. Des allèles sur des sites polymorphes ont été utilisés pour peupler l'uSFS selon deux méthodes : (1) en utilisant l'allèle ancestral fourni par le projet 1000 Genomes pour polariser les variantes dérivées et ancestrales, et (2) en utilisant la méthode ML décrite dans la présente étude.

Déclaration de disponibilité des données

Les logiciels sont disponibles en téléchargement sur https://sourceforge.net/projects/est-usfs/. Matériel supplémentaire disponible sur Figshare : https://doi.org/10.25386/genetics.6275915.


Consanguinité et consanguinité☆

Dépression de consanguinité dans les petites populations

La consanguinité est inévitable dans les petites populations fermées car tous les individus finissent par devenir apparentés les uns aux autres. La consanguinité dans une population effective de taille ( Ne) augmente au taux de 1/(2Ne), par génération avec accouplement aléatoire. Par exemple, dans une population effective de taille 10, il y a une augmentation de 5 % de la consanguinité par génération. Par conséquent, les petites populations isolées qui existent depuis de nombreuses générations devraient présenter une dépression de consanguinité. De petites populations de plantes, de mouches des fruits, de wallaby des rochers, de panthères de Floride, de grands poulets des prairies et de serpents souffrent de dépression de consanguinité ( Frankham, 2005 ). Cependant, la dépression de consanguinité peut ne pas entraîner de déclin de la taille de la population en raison de la dépendance à la densité. Reduced fecundity and survival will only cause a population to decline to extinction if the reproductive rate drops below the replacement level ( Frankham et al., 2010 ).


Lethal Inheritance Patterns

A large proportion of genes in an individual&rsquos genome are essential for survival. Occasionally, a nonfunctional allele for an essential gene can arise by mutation and be transmitted in a population as long as individuals with this allele also have a wild-type, functional copy. The wild-type allele functions at a capacity sufficient to sustain life and is, therefore, considered to be dominant over the nonfunctional allele. However, consider two heterozygous parents that have a genotype of wild-type/nonfunctional mutant for a hypothetical essential gene. In one quarter of their offspring, we would expect to observe individuals that are homozygous recessive for the nonfunctional allele. Because the gene is essential, these individuals might fail to develop past fertilization, die in utero, or die later in life, depending on what life stage requires this gene. An inheritance pattern in which an allele is only lethal in the homozygous form and in which the heterozygote may be normal or have some altered non-lethal phenotype is referred to as recessive lethal.

For crosses between heterozygous individuals with a recessive lethal allele that causes death before birth when homozygous, only wild-type homozygotes and heterozygotes would be observed. The genotypic ratio would therefore be 2:1. In other instances, the recessive lethal allele might also exhibit a dominant (but not lethal) phenotype in the heterozygote. For instance, the recessive lethal Curly allele in Drosophila affects wing shape in the heterozygote form, but is lethal in the homozygote.


Featured article: Leveraging breeding programs and genomic data in Norway spruce (Picea abies L. Karst) for GWAS analysis

SPARK-X: non-parametric modeling enables scalable and robust detection of spatial expression patterns for large spatial transcriptomic studies

Authors: Jiaqiang Zhu, Shiquan Sun and Xiang Zhou

GxEsum: a novel approach to estimate the phenotypic variance explained by genome-wide GxE interaction based on GWAS summary statistics for biobank-scale data

Authors: Jisu Shin and Sang Hong Lee

LIQA: long-read isoform quantification and analysis

Authors: Yu Hu, Li Fang, Xuelian Chen, Jiang F. Zhong, Mingyao Li and Kai Wang

Positive natural selection of N6-methyladenosine on the RNAs of processed pseudogenes

Authors: Liqiang Tan, Weisheng Cheng, Fang Liu, Dan Ohtan Wang, Linwei Wu, Nan Cao and Jinkai Wang

GUNC: detection of chimerism and contamination in prokaryotic genomes

Authors: Askarbek Orakov, Anthony Fullam, Luis Pedro Coelho, Supriya Khedkar, Damian Szklarczyk, Daniel R. Mende, Thomas S. B. Schmidt and Peer Bork

The Kardashian index: a measure of discrepant social media profile for scientists

A survey of best practices for RNA-seq data analysis

Authors: Ana Conesa, Pedro Madrigal, Sonia Tarazona, David Gomez-Cabrero, Alejandra Cervera, Andrew McPherson, Michał Wojciech Szcześniak, Daniel J. Gaffney, Laura L. Elo, Xuegong Zhang and Ali Mortazavi

The Erratum to this article has been published in Genome Biology 2016 17:181

Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes

Authors: Jo Vandesompele, Katleen De Preter, Filip Pattyn, Bruce Poppe, Nadine Van Roy, Anne De Paepe and Frank Speleman


Ancestral Allele explanation - Biology

Penetrance refers to the probability of a gene or trait being expressed. In some cases, despite the presence of a dominant allele, a phenotype may not be present. One example of this is polydactyly in humans (extra fingers and/or toes). A dominant allele produces polydactyly in humans but not all humans with the allele display the extra digits. “Complete” penetrance means the gene or genes for a trait are expressed in all the population who have the genes. “Incomplete” or ‘reduced’ penetrance means the genetic trait is expressed in only part of the population. The penetrance of expression may also change in different age groups of a population. Reduced penetrance probably results from a combination of genetic, environmental, and lifestyle factors, many of which are unknown. This phenomenon can make it challenging for genetics professionals to interpret a person’s family medical history and predict the risk of passing a genetic condition to future generations.

Illustration modeled after similar image by Steven M. Carr, Penetrance versus expressivity.

Expressivity on the other hand refers to variation in phenotypic expression when an allele is penetrant. Back to the polydactyly example, an extra digit may occur on one or more appendages. The digit can be full size or just a stub. Hence, this allele has reduced penetrance as well as variable expressivity. Variable expressivity refers to the range of signs and symptoms that can occur in different people with the same genetic condition. As with reduced penetrance, variable expressivity is probably caused by a combination of genetic, environmental, and lifestyle factors, most of which have not been identified. If a genetic condition has highly variable signs and symptoms, it may be challenging to diagnose.

Illustration modeled after similar image by Steven M. Carr, Penetrance versus expressivity.


Voir la vidéo: Gène et Allèle (Janvier 2022).