Informations

Trouver des exons dans un problème d'ADN

Trouver des exons dans un problème d'ADN


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ma tentative : j'ai cherché les TAC parce que je pensais que ce serait AUG dans l'ARNm et finalement la méthionine (le codon de départ). Mais apparemment, ce n'est pas comme ça que vous faites ce problème. Je suis confus car la réponse (affichée en rouge) n'a pas de TAC et les cases semblent commencer à des endroits aléatoires. Je suis également confus quant à la raison pour laquelle mon professeur a dessiné une boîte autour des deux brins. Je pensais qu'un seul brin à la fois était transformé en ARNm ?

MISE À JOUR : Il m'est venu à l'esprit que le brin entier est transcrit, puis les introns sont supprimés. Je sais donc pourquoi ne pas chercher les TAC. Mais maintenant, comment puis-je identifier les exons ?


Une fois qu'un ARN a été transcrit, chez les eucaryotes, il est épissé avant de quitter le noyau. Cela signifie que des parties de l'ARN sont retirées (appelées introns) et que les extrémités sont coiffées. Les parties restantes dans l'ARNm mature après avoir retiré les introns sont appelées exons.

L'ARNm n'a pas besoin de commencer par un codon d'initiation. Il peut y avoir des séquences avant et après le bit qui est réellement traduit.

Oui, un seul brin d'ADN est transcrit en ARN. Lorsque vous regardez l'ARNm mature ci-dessous, lisez les premières bases et essayez de trouver leurs compléments dans l'ADN d'origine car c'est de là qu'elles ont été transcrites. UCAUG est transcrit à partir de l'ADN AGTAC (avec TCATG du côté opposé).

Maintenant, vous cherchez la fin de l'ARNm. Gardez à l'esprit que tous les A sont la queue poly-A qui est ajoutée pendant l'épissage et détermine combien de temps l'ARNm persistera dans le cytoplasme. Vous recherchez donc CUAGG dans l'ADN d'origine, qui doit être transcrit à partir de GATCC (avec CTAGG sur le brin opposé).

Comme vous pouvez le voir, c'est exactement là que les deux cases rouges commencent et se terminent.

Maintenant que l'ARNm que vous voyez ici est mature (indiqué par la queue poly-A et le capuchon 5'), cela signifie que les introns ont déjà été retirés. Donc, toutes les bases que vous pouvez voir dans l'ADN entre le début et la fin que nous venons de trouver mais pas dans l'ARNm doivent avoir été un intron. Ou l'inverse : toutes les bases qui sont dans l'ARNm que vous pouvez également trouver dans l'ADN doivent être des exons.

Vous remarquerez qu'exactement le bit qui n'est pas dans les cases rouges n'apparaît plus dans l'ARNm. Ou : Tout l'ARNm est dans les cases rouges. La séquence est interrompue par un court morceau que vous ne pouvez plus trouver dans l'ARNm - il doit donc s'agir d'un intron.


Problème: Pendant le "traitement de l'ARN"A. tous les exons sont retirés et jetésB. la molécule d'ARN est fabriquée à partir d'une matrice d'ADNC. les introns sont coupés de l'ARN et les exons sont épissés ensembleD. la molécule d'ARN est traduite en une molécule de protéine

Le traitement de l'ARN implique un certain nombre de modifications de la molécule de pré-ARNm pour créer l'ARNm mature prêt pour la traduction. Ainsi, ces processus ne concernent pas réellement le processus de traduction proprement dit. En termes simples, ce ne sont que les processus après la transcription avant la traduction.

Détails du problème

A. tous les exons sont retirés et jetés

B. la molécule d'ARN est fabriquée à partir d'une matrice d'ADN

C. les introns sont coupés de l'ARN et les exons sont épissés ensemble

D. la molécule d'ARN est traduite en une molécule de protéine

Questions fréquemment posées

Quel concept scientifique devez-vous connaître pour résoudre ce problème ?

Nos tuteurs ont indiqué que pour résoudre ce problème, vous devrez appliquer le concept de traitement et d'épissage de l'ARN eucaryote. Vous pouvez visionner des leçons vidéo pour apprendre le traitement et l'épissage de l'ARN eucaryote. Ou si vous avez besoin de plus de pratique sur le traitement et l'épissage de l'ARN eucaryote, vous pouvez également vous entraîner aux problèmes de traitement et d'épissage de l'ARN eucaryote.

Pour quel professeur ce problème est-il pertinent ?

Sur la base de nos données, nous pensons que ce problème est pertinent pour la classe du professeur Geiger à la CRF.


Détection à l'échelle du génome des répétitions d'ADN en tandem qui sont étendues dans l'autisme

Les répétitions d'ADN en tandem varient dans la taille et la séquence de chaque unité (motif). Lorsqu'elles sont développées, ces répétitions d'ADN en tandem ont été associées à plus de 40 troubles monogéniques 1 . Leur implication dans des troubles à génétique complexe est largement méconnue, de même que l'étendue de leur hétérogénéité. Ici, nous avons étudié les caractéristiques à l'échelle du génome des répétitions en tandem qui avaient des motifs d'une longueur de 2 à 20 paires de bases dans 17 231 génomes de familles contenant des individus atteints de troubles du spectre autistique (TSA) 2,3 et des individus témoins de la population 4 . Nous avons trouvé un polymorphisme étendu dans la taille et la séquence des motifs. Bon nombre des loci de répétition en tandem que nous avons détectés étaient en corrélation avec des sites cytogénétiques fragiles. À 2 588 loci, les expansions associées aux gènes des répétitions en tandem qui étaient rares chez les individus témoins de la population étaient significativement plus fréquentes chez les individus atteints de TSA que leurs frères et sœurs sans TSA, en particulier dans les exons et les jonctions d'épissage proches, et dans les gènes liés au développement du système nerveux. système et système cardiovasculaire ou musculaire. Les expansions répétées en tandem rares avaient une prévalence de 23,3 % chez les enfants atteints de TSA contre 20,7 % chez les enfants sans TSA, ce qui suggère que les expansions répétées en tandem contribuent collectivement au risque de TSA de 2,6 %. Ces rares expansions répétées en tandem comprenaient des expansions liées aux ASD auparavant non décrites dans DMPK et FXN, qui sont associées à des affections neuromusculaires, et dans des loci auparavant inconnus tels que FGF14 et CACNB1. De rares expansions répétées en tandem étaient associées à un QI et à une capacité d'adaptation inférieurs. Nos résultats montrent que les expansions répétées d'ADN en tandem contribuent fortement à l'étiologie génétique et à la complexité phénotypique des TSA.


Nomenclature standard des gènes et des mutations

Les figures 1 et 2 illustrent comment numéroter les nucléotides et nommer les mutations ou variantes, respectivement, selon les recommandations de nomenclature standard du HGVS (http://www.HGVS.org/mutnomen/). Ces exemples de numérotation sont basés sur le codage de séquences de référence d'ADN et de séquences d'acides aminés au niveau de la protéine. “La séquence de référence de l'ADN codant” fait référence à une séquence dérivée d'ADNc contenant la longueur complète de toutes les régions codantes et les régions non codantes non traduites ֵ′ la région non traduite (UTR) et 3′-UTR] les variants d'épissage peuvent en manquer un ou plusieurs des exons codants. La numérotation des nucléotides est en relation avec le codon d'initiation de la traduction, en commençant par le numéro 1 à l'A de l'ATG. La nomenclature standard des mutations basée sur le codage des séquences de référence de l'ADN et des séquences d'acides aminés au niveau de la protéine nécessite les préfixes 𠇌.” et “p.,” respectivement, comme dans la figure 2 . La nomenclature standard basée sur des séquences de référence d'ADN génomique et des séquences de référence d'ARN n'est pas montrée. “La séquence de référence de l'ADN génomique” indique simplement toute séquence d'ADN humain dans la base de données qui n'est pas basée sur une séquence d'ADNc. La nomenclature de mutation standard basée sur une séquence de référence d'ADN “génomique” nécessite un préfixe “g.” et la numérotation commence par le numéro 1 pour le premier nucléotide du fichier.

Exemple de numérotation de nucléotides basée sur une séquence d'ADN codante. Les séquences exoniques sont numérotées séquentiellement du codon d'initiation au codon d'arrêt. Les séquences non traduites dans les 5&# et 3߰-UTR, ainsi que dans les séquences introniques, sont numérotées par rapport aux séquences exoniques codantes, comme indiqué. Notez que les longueurs de séquence d'ADN sont arbitraires.

Exemple de nomenclature de mutation standard basée sur une séquence d'ADN codante. Notez que le changement d'acide aminé pour 𠇌.1A>T” est décrit comme “p.0?” parce que les changements d'acide aminé secondaire aux mutations du codon 1 sont souvent imprévisibles. Dans cet exemple, c.1A>T ne peut pas être décrit comme “p.Met1Leu” car il ne crée aucune protéine ou crée une protéine différente à partir d'un site d'initiation de la traduction cryptique. On peut décrire le changement de séquence d'acides aminés comme “p.0” s'il existe une preuve expérimentale qu'aucune protéine ne se forme.

La figure 3 illustre le processus pour trouver une séquence de référence qui décrit une nouvelle mutation ou pour rechercher la séquence entourant une mutation particulière. Comme le montre la figure 3, il est essentiel de trouver et d'utiliser le symbole du gène approuvé par le Comité de nomenclature des gènes de l'Organisation du génome humain (HUGO) (HGNC http://www.gene.ucl.ac.uk/nomenclature/index.html). 7,8 Un problème majeur a été l'utilisation très variable de la nomenclature des gènes dans la littérature, produisant plusieurs symboles et noms pour un seul et même gène 9,10 ou un symbole de gène/protéine qui représente des gènes ou des protéines complètement différents. 11,12,13,14 Jusqu'à un tiers des gènes humains peuvent avoir été affectés par le problème d'homonymie, 15 principalement en raison de la non-utilisation de symboles de gènes officiels approuvés par HGNC.

Comment trouver une séquence de référence d'ADN et un symbole de gène approuvé par HGNC. BLAST, outil de recherche d'alignement local de base HUGO, Human Genome Organization NCBI, National Center for Biotechnology Information.

En plus de l'utilisation du symbole du gène approuvé par HGNC, il faut trouver la séquence de référence la plus appropriée pour une nouvelle mutation. La séquence de référence la plus appropriée peut être une séquence d'ADN codante basée sur un ARNm complet ou une séquence de référence d'ADN génomique. Même si l'on trouve la mutation sur la base d'une séquence de référence, il se peut que ce ne soit pas la séquence de référence la plus mise à jour ou la plus appropriée. Par exemple, la séquence de référence qui a été utilisée pour identifier une nouvelle mutation exonique pourrait comprendre la séquence d'un seul exon du gène. Dans ce cas, il convient de rechercher une séquence de référence d'ADN codante basée sur un ADNc complet.


Comment trouver un EXON - (Mai/01/2006 )

Bonjour à tous,
Je serais reconnaissant si quelqu'un peut m'aider dans ce domaine.
Dans mon projet je dois trouver une mutation dans un gène donc je dois extraire l'ADN puis passer par PCR ..etc.
Mon problème maintenant est qu'après avoir trouvé l'amorce du NCBI et de plusieurs articles, ma superviseure a refusé de l'examiner car il s'agissait d'une séquence d'ARNm et elle veut la séquence d'ADN & #33!!!.
Franchement, je ne sais pas si c'est correct ou maintenant, car j'apprends encore, mais mon premier problème est que je ne peux pas trouver une telle séquence à partir de l'ADN. Bien sûr, je peux écrire l'ADNc, mais je me demande s'il existe un autre moyen d'obtenir la séquence d'ADN pour l'amorce.

Mon deuxième problème, qui est plus difficile pour moi, c'est qu'elle veut savoir que cette séquence fait référence à quels exons dans le gène. Ici, je me perds totalement car je ne sais pas comment rechercher les exons. Ce que je sais, c'est que le gène sur lequel je travaille contient 20 exons.

Alors s'il vous plaît, l'un d'entre vous peut-il avoir une idée de la façon dont il peut m'aider.
En vous remerciant tous,

Je pense que je peux peut-être vous aider pour la première partie de votre question à coup sûr.

vous pouvez souffler avec votre séquence d'ADNc pour obtenir la séquence génomique. juste à côté du numéro d'accession, la ligne suivante est une description de la source de la séquence. vous trouvez juste une séquence qui contient le gène complet avec la source étant des clones d'ADN chromosomique, pas d'ADNc, et vous y êtes. cela ne fonctionne que si la zone du génome que vous recherchez n'a pas encore été séquencée. Est-ce que ça a du sens? Je ne sais pas si je l'ai bien expliqué.

pour la deuxième partie, je ne suis pas sûr de la meilleure façon de vous aider? vous pouvez comparer l'ADNc avec l'ADNg et rechercher des différences, mais cela ne prendra pas nécessairement en compte tous les facteurs et ne vous donnera qu'une idée approximative

Je pense que je peux peut-être vous aider pour la première partie de votre question à coup sûr.

vous pouvez souffler avec votre séquence d'ADNc pour obtenir la séquence génomique. juste à côté du numéro d'accession, la ligne suivante est une description de la source de la séquence. vous trouvez juste une séquence qui contient le gène complet avec la source étant des clones d'ADN chromosomique, pas d'ADNc, et vous y êtes. cela ne fonctionne que si la zone du génome que vous recherchez n'a pas encore été séquencée. Est-ce que ça a du sens? Je ne sais pas si je l'ai bien expliqué.

pour la deuxième partie, je ne suis pas sûr de la meilleure façon de vous aider? vous pouvez comparer l'ADNc avec l'ADNg et rechercher des différences, mais cela ne prendra pas nécessairement en compte tous les facteurs et ne vous donnera qu'une idée approximative

branchez votre séquence dans la boîte et attendez que les matchs s'affichent. ceci vient du site de NCBI & n'êtes-vous pas familier avec Blast ?

désolé d'être en retard.
C'est d'accord maintenant.
Je connais déjà cette option mais j'ai découvert que ma superviseure essayait de m'examiner alors elle voulait une méthode très complexe pour obtenir le même résultat.
En tout cas merci pour votre aide et désolé d'être en retard


Introns, exons et autres (Partie I)

"Un organisme est construit et maintenu principalement par les actions de protéines codées par des gènes dans le génome de l'organisme. Des évaluations probabilistes superficielles pour savoir si un gène codant pour une protéine spécifique pourrait simplement se produire par hasard dans l'étang primordial ont été profondément décourageantes. Mais ces calculs ne tiennent pas compte de plusieurs caractéristiques importantes des gènes, décrites au chapitre 7*, qui rendent en fait leur occurrence hautement probable. disponible dans le pool de séquences universelles (USP). Étant donné que la longueur moyenne attendue de la séquence aléatoire est la même pour tout gène donné avec des caractéristiques typiques, presque tous les gènes codant pour presque toutes les séquences protéiques se produiront dans cette longueur moyenne attendue de l'USP. "

* la dégénérescence des acides aminés dans les protéines, la dégénérescence des codons dans les gènes et la facilité de trouver des exons courts dans l'ADN aléatoire.

Il convient de noter que tous les gènes présents directement dans l'USP ont été divisés en exons et introns - typiques des gènes eucaryotes. Enfin, l'idée que les toutes premières cellules devaient être complexes**, avec des noyaux - typiques des cellules eucaryotes d'aujourd'hui - montre que ces cellules auraient pu être formées directement à partir de l'étang primordial. » (page 290)

** L'analyse informatique des séquences d'ADN révèle que les tout premiers gènes de l'étang primordial ont été divisés en séquences codantes (exons) et intermédiaires (introns). » (page 230)

Reportez-vous également aux citations en gras ci-dessous.

Discussion:

De Keith Robison : (citant le Dr Senapathy) « Dans ce contexte, il convient de noter qu'il n'y a que trois théories concurrentes sur la façon dont les gènes [scindés] sont apparus sur terre.

Je ne souhaite pas vraiment discuter ce point, mais il est curieux que Senapathy ait omis l'autre explication majeure des gènes divisés (portant des introns) : que les introns ont été insérés « tardivement », après la divergence d'un ancêtre commun. Je ne pense pas que cela ait à voir avec sa déclaration :

"Enfin cela explique l'absence de toute correspondance entre les domaines des protéines et les exons des gènes, exactement comme le montre l'étude récente rapportée dans la revue Science par le groupe de Ford Doolittle.

Bien sûr, c'est aussi une prédiction d'"introns-tardifs" ! (mais avant d'être qualifié d'hérétique,** je fermerai ma gueule :-)

** -- Wally Gilbert est mon conseiller

De Steve LaBonne : (citant le Dr Senapathy) Ford Doolittle et ses collègues affirment cependant maintenant que les introns peuvent avoir été insérés dans des gènes formés de manière contiguë, et soutiennent ce qu'on appelle la prémisse des introns tardifs. Mais cette prémisse est également insoutenable, car il n'y a aucune base logique pour cela.

Steve : Qu'est-ce que la logique a à voir avec ça ? Soit c'est arrivé, soit ce n'est pas arrivé. Maintenant, il est clair qu'au moins certains introns d'auto-épissage sont plutôt anciens (à savoir l'intron du groupe I dans l'ARNt de leucine cyanobactérien/chloroplastique [anticodon UAA]). Mais il existe maintenant un mécanisme parfaitement bien proposé pour l'apparition tardive des introns spliceosomal : à savoir, qu'ils ont évolué à partir des introns du groupe II qui se sont déplacés des organites vers les noyaux après l'origine endosymbiotique des organites. Je ne dis pas que cela est prouvé, bien qu'il y ait maintenant beaucoup de preuves à l'appui, mais il est absurde de dire qu'il n'y a "aucune base logique" pour les introns tardifs.

Et pourquoi Senapathy semble penser que ce débat particulier est la clé de l'origine de la vie me dépasse tout à fait. L'ancien intron du groupe I susmentionné pourrait bien remonter à l'origine de la cyanobactérie qui est en effet incroyablement ancienne, mais c'est encore loin de l'origine de la vie

JM : C'est essentiel car cela concerne la probabilité de trouver des gènes dans l'étang primordial. Les gènes longs (pas la société horlogère) seraient presque impossibles à trouver, mais les gènes brisés (exons/introns) seraient non seulement faciles à trouver, mais inévitables. Avez-vous lu son livre ? Sinon, c'est ainsi qu'on comprend sa théorie.

Steve : Dans ce cas, la prépondérance des preuves de l'apparition tardive (postsymbiotique) des introns spliceosomals, en supposant qu'elle tienne le coup (personnellement, je pense que ce sera le cas), est en elle-même suffisante pour torpiller la théorie de Senapathy. J'ai peur que vous ne puissiez pas avoir votre gâteau et le manger aussi !

Maintenant, il est clair pour moi pourquoi Senapathy a dû rejeter avec tant d'air les preuves du retard des introns (spliceosomal). S'il est fermement établi, alors à votre compte, les introns tardifs suffiraient à réfuter la théorie de Senapathy. Ce qui signifie, bien sûr, que Senapathy doit aborder le scénario désormais largement accepté pour l'évolution des introns spliceosomal à partir des introns auto-épissés du groupe II qui se sont échappés des génomes mitochondriaux (Cavalier-Smith, T. [1991] Trends Genet. 7 : 145 -148). Notez que de nombreuses preuves biochimiques, publiées après la proposition de Cavalier-Smith, soutiennent l'affirmation clé selon laquelle le mécanisme d'épissage dans le groupe II et les introns spliceosomal est extrêmement similaire, et que les snRNA dans le spliceosome sont équivalents aux bits agissant en trans d'un groupe II site actif de l'intron (c'est-à-dire que le système spliceosome + intron est essentiellement une version hautement fragmentée d'un intron du groupe II). De plus, ce qui pourrait être interprété comme des stades précoces d'un tel processus de fragmentation a en fait été observé dans des génomes d'organites (Bonen, L. [1993], FASEB J. 7 : 40-46). De plus, au moment de la proposition originale de Cavalier-Smith, les introns du groupe II n'étaient connus que dans les chloroplastes et les mitochondries, mais pas dans leurs ancêtres (respectivement) les cyanobactéries et les bactéries pourpres, cette pièce du puzzle a également été complétée par la suite (Ferat, J. -L., et Michel, F. [1993] Nature 364 : 358-61).

Étant donné que les introns tardifs coupent l'herbe sous le pied de l'argument fondamental de Senapathy, je serais intéressé de voir sa réponse à cet ensemble de travaux.

De Periannan Senapathy : Si vous êtes intéressé par le sujet concernant l'origine des introns et des gènes divisés, un article que j'ai écrit sur ce sujet a été publié dans Science de cette semaine (2 juin 95). J'ai mis à disposition une copie de cet article et de deux autres articles d'accompagnement, un débat concernant l'origine des introns et des gènes codant pour les protéines, sur la page Web :

Je pense que cela répondra à beaucoup de questions que les gens se sont posées récemment en s.b.e. concernant l'origine des gènes. Je posterai bientôt quelques réponses aux commentaires qui sont apparus ici récemment sur ma théorie.

Sénapathie de Periannan
Génome International

De Keith Robison : Dans sa lettre à la Science, Senapathy déclare catégoriquement que les exons eucaryotes ont "une limite supérieure de 600 nucléotides (à de rares exceptions)"

J'ai un ensemble de données de GenBank 70 (environ 4 ans) avec lequel vérifier cette affirmation. Mises en garde : seules les régions codantes ont été incluses -- les exons 5' et 3' sont tronqués par la longueur de la région non codante. De plus, certains exons peuvent être mal classés à (5'+3') si le premier et/ou le dernier exon n'a pas été enregistré dans l'entrée GenBank.

Maintenant, les "exceptions rares" n'ont pas de définition quantitative, je laisserai donc au lecteur le soin de décider si 2,5% ou même 2,0% comptent.

D'Alix Martin : Une grande partie du génome humain est constituée d'introns. Ces parties de séquence ne contribuent pas à la fabrication de l'organisme humain, car aucune protéine n'est créée à partir de ces séquences. Cependant, les cellules humaines dépensent de l'énergie pour répliquer ces parties de séquence. Il n'y a pas d'utilité évidente à court terme pour les introns. Je proposerai ici des facteurs à long terme qui justifient leur présence dans notre génome. Un aspect particulier est que l'existence de séquences d'ADN non codantes pourrait être nécessaire pour permettre des macro-mutations au cours du processus d'évolution.

Comme je ne suis pas un biologiste professionnel, ces idées ont peut-être déjà existé ou pourraient même être totalement erronées. Cependant, comme le mélange de différents horizons scientifiques est souvent un processus utile dans l'évolution de la science, je vais les ajouter.

La théorie darwinienne de l'évolution a beaucoup contribué à expliquer les mécanismes de l'évolution. Cependant, certaines personnes ne le considèrent pas comme pleinement satisfaisant. Voir par exemple les travaux de Mark Ludwig sur les environnements évolutifs virtuels, simulant des processus darwiniens dans un ordinateur. [ Wired 3.02/Virus informatiques, vie artificielle et évolution].

Tout au long du processus d'évolution, des changements qui ne sont pas purement incrémentiels apparaissent. Par exemple, les poissons poussent des pieds ou les humains poussent des ailes. -) Mon intuition est que pour qu'un changement aussi important se produise, des protéines radicalement nouvelles sont nécessaires pour piloter la morphogenèse de l'animal. Ces protéines doivent être codées par une séquence d'ADN. Sur une base darwinienne, l'apparition de telles protéines est liée à des mutations dans la séquence d'ADN introduisant une nouvelle alelle dans le pool génétique de l'espèce, qui correspond à la nouvelle protéine. Comme les mutations sont rares, elles sont susceptibles de se produire une par une. Mon intuition est que les étapes évolutives importantes nécessitent de nouvelles protéines qui diffèrent des anciennes par plus d'un acide aminé. (J'appelle cela une macro-mutation). Parce que les mutations sont rares, il existe un besoin pour une voie évolutive entre les protéines codées dans le pool génétique des espèces non mutantes et la nouvelle protéine. Chaque étape de cette voie est une mutation d'un codon dans la séquence d'ADN codant pour la protéine. Si la séquence est un exon (un codage), le mutant correspondant à chaque étape doit être viable et l'alelle doit survivre jusqu'à ce que la prochaine étape de mutation se produise. Je vois cela comme un tunnel évolutif jusqu'à ce que la séquence utile, codant pour une protéine utile, soit atteinte. Pour moi, il est peu probable qu'un tel tunnel puisse être franchi sans générer un freak à l'une des étapes intermédiaires. Un argument qui peut amener à penser que les tunnels sont longs de plus d'une mutation est que si une seule mutation était suffisante pour conduire à un changement utile, elle se produirait rapidement et envahirait toute l'espèce. Pour moi, c'est ce qui se passe lorsque les humains grandissent, pas lorsque les poissons commencent à marcher. Pour moi, il y a ici deux échelles de temps différentes.

Une pratique courante en programmation informatique consiste à commenter des morceaux de code qui étaient utiles à une époque mais qui ne le sont plus. Ne pas les jeter, mais les garder comme commentaires, même s'ils ne contribuent plus au fonctionnement du programme, car ils pourraient être utiles à nouveau dans un autre contexte ou à une étape ultérieure. Peut-être que les introns ne sont que la manière naturelle de donner au code génétique un statut de commentaire. En programmation informatique, des signes spéciaux délimitent des parties informatives du code, comme /* COMMENT */ en C. De même, il existe des séquences spécifiques d'ADN qui marquent le début et la fin d'un intron.

Il n'y a pas de pression de sélection sur les portions du code génétique qui sont des introns. Quelles que soient les mutations affectant les séquences d'ADN contenues dans les introns, elles ne sont pas exprimées sous forme de protéines et n'affectent donc pas la fitness de l'allèle. Ce n'est que lorsqu'une mutation corrompt le code de départ de l'intron que la séquence mutée devient significative. Ensuite, il est très probable que la nouvelle protéine générée sera inutile, voire rendra l'allèle non viable, mais de temps en temps, une macro-mutation utile apparaîtra, et une telle mutation n'aurait pu être atteinte si le mécanisme des introns n'avait pas existé. Les introns permettent aux espèces de traverser des tunnels évolutifs sans être soumises à une pression de sélection tout au long du processus. Bien sûr, des mutations dans le code de départ des introns sont très improbables, car ces séquences ne sont longues que de quelques codons, mais cela est cohérent avec la longue échelle de temps sous laquelle d'importantes mutations qualitatives affectent les espèces.

Ainsi, les introns ne sont pas inutiles, mais sont un facteur clé permettant à la vie de se perpétuer. C'est un véritable mécanisme à long terme, tout comme les mutations « normales » sont un mécanisme à long terme, la reproduction sexuée un mécanisme à moyen terme, et les distributions de seuils de réponse dispersées dans les cellules sont un mécanisme d'adaptation à court terme (une autre histoire).

Pour vérifier tout cela, je suggérerais de tester que l'entropie des séquences non codantes est plus élevée que celle des exons. Pour cela, il suffit d'une banque de données d'une séquence d'ADN chez différents individus d'une même population, la séquence contenant à la fois des introns et des exons. Comme il n'y a pas de pression de sélection dans les introns, l'entropie devrait être plus élevée.

De Keith Robison (en réponse à Alix Martin): Juste pour clarifier quelques définitions ici. Les introns sont des régions transcrites qui sont séparées des ARNm. Alors que la proportion du génome qui est intronique est probablement plus grande que les régions exoniques, les deux sont probablement grossièrement éclipsées par l'ADN intragénique (entre les gènes).

Un candidat à une explication [de l'utilité des introns] est que l'ADN non codant n'a généralement AUCUNE fonction - c'est juste un parasite "égoïste" qui peut être toléré.

Il y a des pressions de sélection [sur les portions du code génétique qui sont des introns]. Premièrement, les signaux d'épissage des introns sont contenus dans les introns, et il y a donc une sélection pour les maintenir. Deuxièmement, ces signaux ne peuvent pas être compromis par des signaux contradictoires - il y a donc une pression pour éviter de générer de nouveaux signaux d'épissage dans des emplacements inappropriés.

En fait, vous mélangez des unités ["Bien sûr, des mutations dans le code de départ des introns sont très improbables, car ces séquences ne comptent que quelques codons,"] -- le terme codon n'a aucune pertinence en termes de signaux d'épissage d'intron. De plus, votre hypothèse doit inclure à la fois les signaux "start-intron" et "end-intron". Bien sûr, une difficulté avec l'extension d'un exon dans l'intron adjacent est que l'exon étendu doit correspondre dans la trame - 2/3 du temps, un événement d'extension d'exon se traduira par un message intraduisible.

Vous devez définir précisément « entropie » et décrire comment vous tenterez de la mesurer. De plus, certains facteurs peuvent fausser votre analyse. En particulier, les éléments non codants (à la fois inter- et intra-géniques) sont en grande partie composés d'éléments répétitifs - des segments d'ADN que l'on trouve fréquemment dans le génome. Beaucoup de ces éléments sont connus pour être capables de transposition (copie) dans le génome.

De plus, les banques de données étaient autrefois fortement biaisées vers les introns courts. Avec l'avènement du séquençage génomique, ce biais commence à s'atténuer mais est remplacé par des exons et des introns qui ont été prédits par ordinateur mais non vérifiés expérimentalement (pas une bonne base pour la modélisation).

Mises à part, le domaine de la fonction intron est encore assez ouvert. Les ensembles de données ne font que s'améliorer, et donc si cela vous intéresse, vous devriez vous lancer !

De Mark E. J. Newman : Un autre point important est que les régions non codantes sont importantes simplement pour l'espace physique qu'elles occupent. La position dans l'espace tridimensionnel qu'occupent différentes régions codantes peut avoir des conséquences importantes pour la régulation de la transcription, et la présence de régions non codantes peut permettre aux régions codantes de prendre leurs propres positions. Ainsi, le contenu réel des régions non codantes peut être sans importance, mais leur présence est cruciale pour une action appropriée des mécanismes de régulation.

Ce type de mécanisme ["commenter des morceaux de code qui étaient utiles à une époque mais ne le sont plus"] est vu en évolution artificielle. Des morceaux de code deviennent inactifs et sont réactivés plus tard à l'avantage de l'organisme. Je ne devrais pas être surpris d'apprendre que cela se passe aussi dans la nature, même si je ne peux pas vous donner d'exemples précis.

En fait, des travaux de cette nature ont déjà été effectués [sur « tester si l'entropie des séquences non codantes est supérieure à celle des exons »]. Pas sur les introns en particulier, mais sur l'ADN non codant. Cela a été fait par H. Eugene Stanley de l'Université de Boston et quelques collègues dont les noms m'échappent, et c'était l'année dernière, mais à part ça, je ne me souviens pas où je l'ai vu. L'idée de base était de faire une analyse théorique de l'information du contenu informationnel de l'ADN codant et non codant en fonction de la longueur. Le résultat de base, si je me souviens bien, était que l'ADN NON-codant avait un contenu d'information "de type message", c'est-à-dire qu'il augmentait linéairement avec la longueur de la séquence analysée, mais que l'ADN codant n'en avait pas - le contenu d'information augmentait plus lentement que linéairement. Je vais voir si je peux trouver la référence quelque part.

D'ailleurs, dans le cas particulier des introns dont vous parliez plus haut, je connais aussi au moins un cas dans lequel un intron a une fonction, même s'il n'est pas traduit. Dans ce cas, la présence physique de l'intron dans un ARNm qui code pour un promoteur de croissance ralentit la traduction de l'ARN (qui ne peut avoir lieu tant que l'intron ne s'est pas épissé). Si vous retirez l'ADN qui code pour l'intron > du génome, vous produisez toujours le promoteur de croissance, mais vous le produisez trop rapidement et une surproduction de cellules de type tumoral peut se produire.

De Keith Robison (en réponse à Mark Newman): Il y a une histoire connexe de certains facteurs de développement chez la drosophile (par exemple la ficelle). Ces gènes ont des messages énormes (>100 Ko) qui prennent beaucoup de temps à transcrire. Il s'avère qu'à chaque division cellulaire, les pré-ARNm incomplètement transcrits sont détruits. La transcription de String est trop longue pour être transcrite complètement au cours des premières divisions de la drosophile, qui se succèdent rapidement. En conséquence, une transcription de chaîne complète ne peut pas être réalisée avant que des divisions cellulaires sur une période plus longue ne se produisent. Ainsi, la taille des introns aide à prendre la décision de développement du moment où la protéine de chaîne est fabriquée !

De Chip Young : J'ai lu quelque part, probablement dans Science News , que le supposé ADN non codant est assez stable. Fermer les similitudes d'un individu à l'autre.

Vraisemblablement, s'il était vraiment inutile, il muterait relativement rapidement puisque l'environnement n'éliminerait pas les erreurs.

Sa stabilité relative suggère qu'il fait quelque chose, on ne sait quoi.

De Dave Oldridge : Senapathy fait tout simplement de mauvais calculs. Son erreur est identique à celle des créationnistes qui affirment que l'évolution ne pourrait pas se produire parce que (par exemple) les éléphants sont hautement improbables.

JM : Je comprends votre objection aux calculs de Senapathy dans cet exemple. Cependant, il y a deux aspects mathématiques importants dans sa théorie : (1) la probabilité que des mutations ponctuelles créent de nouveaux gènes, et (2) la probabilité que des gènes eucaryotes se forment dans la soupe primordiale. Nous avons déjà mené la discussion sur la partie 1. Maintenant, dites-moi ce qui ne va pas avec ses chiffres sur la partie 2.

De Keith Robison : Le problème est que Senapathy joue à des jeux de société, ne propose pas un modèle réalisable. Oui, si vous regardez du texte au hasard, vous pouvez y trouver un message, mais uniquement parce que vous connaissez le message (ou un message) à y trouver. La biologie ne fonctionne pas de cette façon - l'épissage d'un ARNm n'est pas guidé pour produire uniquement des ARNm utiles. Il y a des signaux dans la transcription originale qui guident le processus d'épissage.

Ainsi, ce qui est important n'est pas la probabilité qu'un message se produise quelque part dans une séquence aléatoire après l'avoir épissé pour s'adapter, mais si les morceaux du message se produisent flanqués des signaux d'épissage corrects. Pour étendre l'exemple de "Être ou ne pas être" du livre d'une manière triviale, supposons que la lettre "Q" soit à la fois un signal de début et de fin d'épissage. La question est alors quelle est la probabilité de trouver

Vous pouvez, bien sûr, changer le signal en ce que vous voulez, mais rappelez-vous que vos deux exons proposés doivent être flanqués de signaux et que les introns et les exons proposés doivent en être dépourvus. Je pense que vous constaterez que les statistiques ne représentent pas une grande amélioration par rapport à la recherche de l'ensemble de votre message cible dans un ADN aléatoire.

JM : Maintenant, dites-moi ce qui ne va pas avec ses chiffres sur les gènes eucaryotes.

De Keith Robison : Il y a des signaux dans la transcription originale qui guident le processus d'épissage. . Ainsi, ce qui est important n'est pas la probabilité qu'un message se produise quelque part dans une séquence aléatoire après l'avoir épissé pour s'adapter, mais si les morceaux du message se produisent flanqués des signaux d'épissage corrects.

JM : Ce n'est pas un problème. Le Dr Senapathy utilise 600 nucléotides comme longueur d'exon typique, et donc ajouter quelques nts supplémentaires (en particulier, 9 + 4 = 13) ne fera pas beaucoup de différence. Un exon pourrait être "défini" pour inclure les épissures de début et de fin et les probabilités calculées à partir de cela. 600 est toujours une bonne longueur moyenne à utiliser, mais utilisez 613 si vous le souhaitez. En fait, pour tous les exons d'un gène sauf le plus long, les 13 nts supplémentaires ne feront aucune différence significative sur la probabilité de trouver le gène complet dans une séquence d'ADN aléatoire, car les chances de trouver le gène complet ne dépendent que de la longueur de l'exon le plus long du gène. Les mathématiques derrière ce raisonnement sont discutées au début du chapitre 7, et des chaînes de texte y sont utilisées comme exemple de "gènes eucaryotes" (pages 222-230).

Keith : Senapathy a complètement tort ici, et je suis surpris que vous l'ayez avalé. En raison de la façon dont fonctionne l'épissage, ce qui est important, c'est la fréquence des signaux d'épissage dans la séquence aléatoire - vous ne formez pas des gènes en prenant simplement les exons que vous voulez. Comme je l'ai noté précédemment, dans son exemple « être ou ne pas être », Senapathy ne montre aucune autre méthode que de trouver une cible prédéterminée. Il saute de nombreux mots anglais légitimes (exons), certains (« de travers ») plus longs que ceux qu'il a choisis.

JM : Toujours au chapitre 7, le Dr S. discute des chances de trouver de longs cadres de lecture dans l'ADN aléatoire, et il fait une analyse approfondie de l'effet de la fréquence des codons d'arrêt. Donc, contrairement à votre caractérisation, je ne vois pas qu'il joue à des "jeux de société".

Keith : Alors continuez à chercher, ou passez plus de temps dans le salon ( :-). Dans tous les cas (Figures 7.1, 7.2, 7.20) Senapathy sélectionne d'abord le message qu'il recherche, puis parcourt la séquence aléatoire à sa recherche. Beaucoup de plaisir, mais complètement sans rapport avec le domaine de la biologie.

Encore une fois, la façon dont la biologie fonctionne vraiment (et rappelez-vous, Senapathy dit que les choses ne peuvent pas avoir changé :-), c'est que le spliceosome se déplace vers le bas de la transcription, et quand il frappe un signal "démarrer l'épissage", c'est la fin de un exon. Il recherche ensuite un signal "d'arrêt d'épissage" qui marque le début de l'exon suivant. Le spliceosome ne sait rien des phases ou cadres de lecture ouverts. Comme je l'ai déjà souligné, les chances d'obtenir avec succès un ORF à partir d'un nombre modéré d'exons sont très faibles, car les 2/3 de vos événements d'épissage seront déphasés.

. rappelez-vous que vos deux exons proposés doivent être flanqués de signaux et que les introns et les exons proposés doivent en être dépourvus.

JM : Il n'ignore pas cette exigence. Voir pages 230-239 et 242-247 ainsi que d'autres endroits dans le chapitre 7.

Keith : Senapathy ne s'occupe jamais vraiment de ce problème. Le plus proche qu'il s'en approche est de suggérer que d'une manière ou d'une autre, le processus d'épissage peut reconnaître des régions densément peuplées de codons d'arrêt (p.245). Encore une fois, il n'y a AUCUNE preuve pour cela, et des preuves contraires.

Comment, dans ce modèle, pouvez-vous expliquer des exons très courts ?

Dans le numéro actuel de Nature Genetics, il y a un rapport d'une mutation de la région codante qui provoque une maladie génétique, mais elle ne modifie pas la séquence d'acides aminés prédite. Cependant, il s'avère qu'il génère un signal de "démarrage d'épissage", et donc cet exon est prématurément terminé.

Le modèle de Senapathy ne montre aucune corrélation avec la réalité biologique. L'épissage ne connaît pas la traduction.

Et BTW, la distribution des tailles d'exons connues ne correspond pas à une distribution exponentielle (Stoltzfus et al. codent des milliers d'acides aminés). Senapathy n'arrive même pas à comprendre ses faits à l'appui.

De Keith Robison : Dans tous les cas. Senapathy sélectionne d'abord le message qu'il recherche, puis parcourt la séquence aléatoire à sa recherche.

JM : C'est vrai. Dans son exemple en anglais « gènes », le Dr Senapathy recherche quelques séquences spécifiées (et les trouve toutes), mais il le fait pour illustrer que toute séquence sera trouvée. Il ne limite pas la recherche à ces seules phrases. Au contraire, il vous encourage à rechercher n'importe quelle phrase que vous voulez (avec la seule exigence de la limite du mot le plus long). La séquence aléatoire de 3 milliards de caractères utilisée par Senapathy est trop longue pour être publiée, voire envoyée par e-mail. Cependant, vous êtes autorisé à fabriquer votre propre séquence aléatoire, et vous pouvez et devez en utiliser plusieurs, car cela représenterait l'abondance d'ADN disponible (voir ci-dessous pour quelques chiffres).

Une fois que la longueur de l'exon le plus long d'un gène (y compris les séquences d'épissage et les signaux qui commencent et terminent un gène) est spécifiée, Senapathy montre comment calculer la longueur de l'ADN aléatoire nécessaire pour s'assurer que ce gène et tout autre gène ( avec une restriction) s'y trouvent. Il montre que la quantité d'ADN ainsi calculée sera une quantité raisonnable (c'est-à-dire que cette quantité serait plusieurs fois inférieure à la quantité totale d'ADN disponible dans l'étang). La « seule restriction » est que la longueur de l'exon le plus long dans ces autres gènes ne doit pas être plus longue que l'exon le plus long dans le gène spécifié.

Keith : Encore une fois, c'est de la foutaise. Tout ce qu'il prouve, c'est que vous pouvez y trouver la séquence si vous savez ce que vous cherchez que n'importe quel système biologique pourrait l'extraire, c'est une tout autre affaire. Les calculs de Senapathy sont désespérément naïfs, le vrai calcul est beaucoup plus difficile.Mais, en général, une fois que vous transcrivez aveuglément une séquence aléatoire et l'épissez sur les sites d'épissage aléatoires, vous constaterez essentiellement qu'il ressemble à l'ADN avec lequel vous avez commencé en termes de fréquences de trinucléotide (codon) - c'est-à-dire que cet exercice n'est pas une solution magique pour trouver de longs gènes dans une séquence aléatoire.

Comme Arlin Stoltzfus l'a déjà souligné, il n'y a aucune raison particulière de s'attendre à ce que les gènes initiaux soient particulièrement longs. Les gènes ont probablement subi beaucoup de fusions et de réarrangements, produisant les longs cadres de lecture et les exons modernes - même Senapathy l'admet, car il doit expliquer les génomes procaryotes sans intron.

JM : Pour ceux d'entre vous qui n'ont pas son livre, le Dr Senapathy utilise ces chiffres après avoir pris en compte la dégénérescence des codons et des acides aminés :

Keith : Comme le montre votre calcul, l'étang de Senapathy contient 10^5-10^10 kilogrammes d'ADN double brin de haut poids moléculaire. Les systèmes biologiques sont tout à fait capables de générer cela, un défi sérieux pour tout schéma d'abiogenèse qui génère les biomolécules (l'un vient d'être publié dans Nature). Senapathy dit "pas de problème" - et suppose ensuite qu'il sera polymérisé, double brin et à haut mw (ou bien ses calculs croasseront des "effets de bord" - vous ne pouvez pas exécuter un long gène dans l'ADN qui ne ' t existe). De plus, cet ADN est répliqué, transcrit et traduit.

JM : C'est peut-être ce à quoi vous voulez en venir : puisque deux des exemples de phrases utilisés à la page 229 : « Dieu guérit et le médecin prend les honoraires » et « L'amour est la sagesse du fou et la folie du sage », plus de nombreuses autres phrases se trouvent toutes dans la même séquence de texte aléatoire, et puisque deux ou plusieurs de ces phrases pourraient se chevaucher dans le texte aléatoire, la phrase réelle trouvée pourrait être quelque chose comme "L'amour est le docteur que la sagesse prend de l'idiot, les honoraires. " Cependant, contrairement à ces exemples de mots, l'exon le plus long de chacun des deux gènes réels ne sera probablement pas proche l'un de l'autre par rapport aux emplacements des exons les plus courts. C'est-à-dire qu'il est peu probable que les deux gènes se chevauchent car tous les exons les plus courts se trouveront très proches de l'exon le plus long. De plus, que se passe-t-il si quelques-uns des gènes spécifiés se chevauchent ? Nous ne recherchons aucun gène spécifique - nous prenons tout ce que nous trouvons et testons sa viabilité. Gagner ou perdre, continuez. Le Dr Senapathy dit seulement que les chances de trouver des gènes eucaryotes (et de les assembler en génomes viables) sont si élevées que cela rend cela très possible, pas presque impossible.

Keith : Et le fait est qu'il a grossièrement surestimé ces probabilités. Il vous a conduit sur le chemin du jardin en assimilant les signaux d'épissage à des codons d'arrêt, alors qu'en réalité cette petite ressemblance est probablement une coïncidence (BTW, le consensus pour la fin d'un intron est Yag, où Y = T ou C, mais C prédomine légèrement mais pourquoi laisser les faits entraver une hypothèse cool).

JM : (continuant) . Il ne fait aucune déclaration ici sur la viabilité d'un gène en particulier, juste qu'il y aura tellement de gènes (viables ou non) que quelques-uns "survivront" dans l'étang. Il utilise les caractéristiques de gènes viables connus comme base pour les calculs.

Le Dr Senapathy n'inclut pas spécifiquement les signaux de début et de fin des gènes dans sa discussion, mais je ne vois pas pourquoi ces signaux ne pourraient pas simplement être traités comme un exon de longueur "nulle" et inclus dans la recherche. Étant donné que ces séquences sont courtes par rapport à l'exon le plus long, elles n'affecteront pas la quantité d'ADN nécessaire pour les trouver. Vous pourriez argumenter que puisqu'ils sont si courts, ils seront trouvés si souvent qu'ils gâcheront votre recherche d'un long gène. (Faites-moi savoir si je vous aide trop ici. :-) Eh bien, ils pourraient le faire dans de nombreux cas. Mais, il y a aussi une chance raisonnable qu'ils ne se produisent pas. Je n'ai pas les chiffres à ce sujet, mais je suppose que quelques week-ends de travail les produiraient.

Keith : Vous avez complètement raté le point. Les mots anglais n'ont pas de traduction d'ARNm en phase. Il n'y a pas non plus d'équivalent génétique réel aux espaces - les sites d'épissage sont constitués des mêmes 4 lettres, et leur interprétation dépend du contexte (c'est-à-dire qu'un signal "fin d'épissage" n'est pas pertinent à moins qu'il ne suive un signal "début d'épissage") . Le problème est donc que lorsque vous frappez le prochain signal d'épissage aléatoire, il y a de fortes chances que votre traduction s'arrête.

Il saute de nombreux mots anglais légitimes (exons), certains (« de travers ») plus longs que ceux qu'il a choisis.

JM : Mais c'est ce qui fait que ça marche. Dans l'exemple, il recherche des mots spécifiques, mais en réalité, quels que soient les gènes présents (ainsi que les autres gènes formant un génome), leur viabilité peut éventuellement être testée. Vous ne vouliez pas qu'il recherche une séquence spécifique, vous ne pouvez donc pas non plus vous permettre de le faire, et cela inclut des séquences spécifiques ayant des signaux de démarrage/arrêt malveillants. Prenez n'importe quel gène que vous trouvez et testez-le pour sa viabilité. Ce DMA aléatoire contiendra beaucoup, beaucoup de gènes. Les quelques viables survivront, et ils deviendront plus nombreux avec le temps.

Maintenant, est-ce que j'ai encore raté quelque chose ? Si vous le pensez, pouvez-vous utiliser des nombres pour réfuter les nombres ou la logique de Senapathy ?

Keith : On peut diviser sa théorie en deux versions,

  • Senapathy petite Formation de gènes par épissage aléatoire
  • Senapathy grande Origine indépendante de toutes les espèces

Senapathy grande est fatalement défectueux à plusieurs niveaux, pour un échantillonneur :

    Le développement de nombreux organismes exclut l'hypothèse de la "cellule germe"

Cela laisse Senapathy petite (c'est-à-dire la formation sénapathienne de gènes, mais l'évolution conventionnelle de l'organisme). Même si nous le réduisons pour répondre à mes critiques concernant le gain négligeable de la taille de l'ORF, il s'agit maintenant d'une théorie "exons-early", et en général, le bateau exons-early a ses plats-bords à peu près à la ligne de flottaison.

En résumé, le livre de Senapathy est un exercice grossièrement imparfait d'auto-illusion. Il existe une grande abondance de preuves pour réfuter ses grandes affirmations, et réduire ses affirmations ne le met pas non plus en bonne forme. De plus, en tant que théorie scientifique, Senapathy grande est totalement, absolument sans valeur - bien que je n'aie pas tout à fait décidé si c'est parce qu'il fait toutes les prédictions ou aucune prédiction (de toute façon, inutile). Cela contraste fortement avec l'évolution par descendance commune, qui est une théorie clé pour comprendre la biologie et un guide important pour une expérimentation réelle. S'il n'avait pas payé pour le publier, j'aurais supposé qu'il s'agissait d'une parodie élaborée de la science du culte du cargo, au lieu de cela, c'est tout simplement.

De Keith Robison (reprise) : En résumé, le livre de Senapathy est un exercice grossièrement imparfait d'auto-illusion. De plus, en tant que théorie scientifique, Senapathy grande est totalement, absolument sans valeur - bien que je n'aie pas tout à fait décidé si c'est parce qu'il fait toutes les prédictions ou aucune prédiction (de toute façon, inutile).

JM : et tout à coup, vous faites énormément de délires et de délires, mais vous n'offrez aucun chiffre ni aucune information pour étayer vos affirmations selon lesquelles le Dr Senapathy est fou. Tout ton post était comme ça.

Keith : Ok, j'admets que j'étais grincheux dans ce post. Mais les faits tiennent toujours : il existe une grande abondance de preuves pour réfuter ses grandes affirmations, et réduire ses affirmations ne le met pas non plus en bonne forme.

JM : Quelles preuves réfutent ses affirmations ? Les preuves qui soutiennent la macroévolution ne comptent pas - vous devez montrer quelles preuves existent qui ne correspondent pas à la théorie de Senapathy.

Keith : Senapathy fait un certain nombre d'affirmations sur les propriétés statistiques des introns et des exons, qui, selon lui, sont le résultat naturel de sa théorie (et donc la preuve). À savoir, Senapathy affirme explicitement que les tailles des exons suivent une distribution exponentielle, et sa logique implique que les tailles des introns devraient suivre une distribution similaire.

Les tailles des exons suivent une distribution beaucoup plus complexe (Stoltzfus et al ont raison dans leur réfutation de Science). Les tailles des introns ne sont pas non plus exponentielles (j'ai vu une présentation à ce sujet la semaine dernière) - elles me semblaient plutôt normales.

Les calculs de Senapathy sont désespérément naïfs, le vrai calcul est beaucoup plus difficile.

Keith : Encore une fois, le vrai calcul devrait prendre en compte la probabilité d'épissage des signaux - c'est-à-dire à quoi ressemble la distribution des longueurs d'ORF après la transcription aléatoire puis l'épissage des ARNm. La seule façon dont je pourrais le faire est par simulation, ce qui serait un peu plus de travail que ce que je suis prêt à faire. Néanmoins, nous pouvons faire une prédiction intelligente du résultat (voir ci-dessous).

. c'est de la foutaise. Tout ce qu'il prouve, c'est que vous pouvez trouver la séquence là-dedans si vous savez ce que vous cherchez

JM : Non, il montre que vous pouvez trouver n'importe quelle séquence (de longueur limitée spécifiée) dans une grande quantité donnée d'ADN aléatoire.

Keith : Mais, en général, une fois que vous transcrivez aveuglément une séquence aléatoire et l'épissez sur les sites d'épissage aléatoires, vous constaterez essentiellement que cela ressemble à l'ADN avec lequel vous avez commencé en termes de fréquences de trinucléotide (codon).

JM : Oui, et alors ? Je ne pense pas que Senapathy dise le contraire, n'est-ce pas ? Où?

Keith : Parce qu'il dit que dans un système biochimique, vous pouvez trouver des gènes dans l'ADN aléatoire si vous vous épissez, mais pas si vous n'épissez pas. En d'autres termes, le processus d'épissage ajoute en quelque sorte du contenu d'information. Mais ça NE PEUT PAS ! Parce qu'un pool de séquences transcrites au hasard + épissées a la même composition en trinucléotides que la séquence de départ non épissée, l'opération d'épissage n'a RIEN fait pour la probabilité de trouver un long ORF. C'est pourquoi tous les calculs de Senapathy ne sont que de la fumée.

JM : Je ne le lis pas comme ça. Il me semble que l'ADN aléatoire de Senapathy ressemble à de l'ADN eucaryote. Par exemple, dans la figure 7.4 (page 236), il écrit : « La seule façon dont un gène de plus de 600 nts pourrait provenir était de sélectionner des cadres de lecture courts et de les assembler en éditant les régions intermédiaires contenant de nombreux codons d'arrêt. l'épissage a abouti à un long cadre de lecture qui pourrait alors coder pour une longue protéine. Dans la biologie d'aujourd'hui, les morceaux de codage courts qui ont été épissés ensemble sont appelés exons, et les morceaux intermédiaires, les introns. C'est-à-dire qu'il dit que les morceaux courts et les RF (avant l'épissage) sont les exons et que les autres trucs font des introns.

Où dit-il que vous devez épisser avant de créer le gène eucaryote (complet avec les introns) ? La transcription et l'épissage sont effectués après que le morceau aléatoire d'ADN a été placé dans un génome.

Keith : . auparavant, vous étiez catégorique sur le fait que la bonne façon de faire un tel calcul consiste à ne considérer que les séquences observées, et non le spectre complet des séquences potentiellement interchangeables. As-tu changé d'avis?

JM : Non -- nous avons changé de sujet ici. Notre discussion précédente portait sur les mutations ponctuelles et l'obtention de nouveaux gènes à partir de celles-ci. Il s'agit de trouver n'importe quel gène dans un tas d'ADN aléatoire. Je n'ai pas rejeté vos objections à la logique de la mutation ponctuelle, mais nous avons atteint une impasse là-bas - finalement nous avons tous les deux dit que cela n'avait pas vraiment d'importance (parce que, de votre point de vue, le modèle de Senapathy est faux, et de mon point de vue il n'y a pas de modèle). Alors, oubliez la discussion sur la mutation ponctuelle car elle ne s'applique en aucune façon à la partie principale de la théorie de Senapathy concernant l'ADN dans l'étang.

Keith : Jeff, tu n'as pas compris. Lorsque nous avons discuté des mutations ponctuelles, vous avez soutenu (et Senapathy l'a utilisé) que la bonne question à poser était quelle était la probabilité que l'évolution arrive à la séquence observée, et non la possibilité de dessiner l'une des séquences isofonctionnelles possibles. Je suggère maintenant que vous (et Senapathy) restez cohérents - vous devez calculer la probabilité selon le modèle de Senapathy de dessiner chacun des génomes observés, et non de dessiner l'un des génomes isofonctionnels possibles.

La logique statistique sous-jacente est la même dans les deux arguments, mais Senapathy choisit celui qui correspond à ses objectifs (et vous avez continué ala-lemming). En d'autres termes, pour rester cohérent, vous et le Dr S. devez calculer la probabilité de trouver tous les génomes actuels dans la soupe. Astuce : pour le génome humain, c'est 4^[-1*(10^6)] répétition pour tous les génomes restants, en multipliant les probabilités.

JM : Il l'a fait. Avec l'exon le plus long spécifié, la longueur de l'ADN aléatoire est calculée, et dans cet ADN se trouveront probablement tous les exons possibles de cette longueur. Dans l'exemple de mot, tous les mots de 6 lettres seront probablement trouvés dans la séquence de 3 milliards de caractères aléatoires.

Keith : Alors, comment expliquez-vous tous ces gros exons (il y en a beaucoup plus de 400 nts, comme je l'ai posté -- aussi gros que 7 Ko si je me souviens bien).

JM : Senapathy utilise 600 nts comme valeur la plus longue typique, mais convient qu'il y en a qui sont plus longues. Qu'est-ce qui ne va pas avec ça? Si ses fréquences moyennes d'exons les plus longues sont fausses, quels sont les nombres corrects ?

Keith : Comme je l'ai déjà posté, il y a beaucoup d'exons plus longs. Calculez selon le modèle de Senapathy le nombre d'exons que vous vous attendez à trouver plus de 600 nts de longueur.

JM : Notez que la plupart des gènes ont les exons les plus longs de seulement 100-150 nts d'ADN total disponible dans l'étang = 10^30 à 10^35 nts.

Keith : (reprise) Comme le montre votre calcul, l'étang de Senapathy contient 10^5-10^10 kilogrammes d'ADN double brin de haut poids moléculaire. Les systèmes biologiques sont tout à fait capables de générer cela, un défi sérieux pour tout schéma d'abiogenèse qui génère les biomolécules (l'un vient d'être publié dans Nature). Senapathy dit "pas de problème" - et suppose ensuite qu'il sera polymérisé, double brin et à haut mw (ou bien ses calculs croasseront des "effets de bord" - vous ne pouvez pas exécuter un long gène dans l'ADN qui ne ' t existe). De plus, cet ADN est répliqué, transcrit et traduit.

  1. D'O VENAIT TOUT CET ADN ?
  2. Comment tout cela est-il si long ? Les calculs de Senapathy supposent que l'ADN est un long brin, ou du moins chaque brin est beaucoup, beaucoup plus long qu'un gène eucaryote. Comme je l'ai déjà souligné, maintenir un ADN d'une telle longueur est un défi, car l'ADN n'est pas structurellement très solide et se brisera facilement.
  3. D'où viennent la machinerie de transcription et la machinerie d'épissage ?

JM : Le hasard, comme tout le reste. Une fois que les choses ont commencé à fonctionner, les machines ont été répliquées (plus souvent que les choses qui ne fonctionnaient pas).

Je ne vois pas pourquoi il est nécessaire que l'ADN aléatoire soit en un seul long morceau. S'il tournait et que divers longs morceaux étaient formés, même brièvement, puis brisés et formés dans une autre séquence, cela ne fonctionnerait-il pas aussi.

Keith : (reprise) Vous avez complètement raté le point. Les mots anglais n'ont pas de traduction d'ARNm en phase. Il n'y a pas non plus d'équivalent génétique réel aux espaces - les sites d'épissage sont constitués des mêmes 4 lettres, et leur interprétation dépend du contexte (c'est-à-dire qu'un signal "fin d'épissage" n'est pas pertinent à moins qu'il ne suive un signal "début d'épissage") . Le problème est donc que lorsque vous frappez le prochain signal d'épissage aléatoire, il y a de fortes chances que votre traduction s'arrête.

JM : OK, ça s'arrête. Continuez et ne redémarrera-t-il pas finalement?

Keith : Non. Pas habituellement. Dans les systèmes bactériens, il redémarre fréquemment s'il y a une séquence de démarrage à proximité - mais il démarre une nouvelle chaîne peptidique !! (les codons d'arrêt sont en réalité des codons « d'arrêt de la traduction et de libération du peptide »). Très rarement, les ribosomes eucaryotes redémarreront, et encore une fois, ce sera une protéine distincte.

Et de toute façon, cela n'a pas vraiment d'importance. Rappelez-vous, Senapathy prétend (sauf là où il en a besoin) que l'évolution est impossible - c'est-à-dire que selon son modèle, chaque génome ressemble presque exactement à ce qu'il était le jour où il est sorti de la soupe.

Et encore une fois, Senapathy affirme explicitement que l'épissage est la voie vers de longs ORF. Ce que vous essayez de faire, c'est de trouver un moyen de contourner cela - sans contester que Senapathy a tort. Senapathy prétend que l'épissage construit de gros ORF, et il a tout simplement tort.

JM : Si vous pensez que Senapathy a tort, alors corrigez cette partie de sa théorie, changez les nombres et recalculez la quantité d'ADN nécessaire. Si vous avez raison, le nombre sera énorme et l'ADN impossible à obtenir. Ce serait beaucoup de travail et il n'est peut-être pas raisonnable pour vous de faire le calcul, mais c'est ce que vous devez faire pour montrer que la quantité d'ADN n'est pas suffisante pour satisfaire la théorie de Senapathy.

Keith : Je n'ai pas besoin de -- Senapathy l'a déjà fait pour nous, mais l'a mal étiqueté. Parce que les séquences épissées ressemblent aux séquences non épissées au niveau des ORF, nous pouvons utiliser son calcul : 10^120 nucléotides (pour trouver 200nt ORF à haute fréquence).

JM : Dire simplement qu'il a tort (plus précisément, vous avez dit : « Le livre de Senapathy est un exercice grossièrement imparfait d'auto-illusion. De plus, en tant que théorie scientifique, Senapathy grande est totalement, absolument sans valeur ») n'est pas un argument très convaincant. Pourquoi ne pouvez-vous pas quantifier vos arguments comme il l'a fait ?

Keith : (reprise) Et le fait est qu'il a surestimé [les chances de trouver des gènes eucaryotes] grossièrement. Il vous a conduit sur le chemin du jardin en assimilant les signaux d'épissure à des codons d'arrêt, alors qu'en réalité, cette petite ressemblance est probablement une coïncidence.

JM : Comment cela devrait-il fonctionner ? Quels sont vos chiffres sur ces cotes ?

Keith : Voir ci-dessus. Le fait est que ses chiffres n'ont absolument aucun sens. Tous ces calculs impressionnants - sans importance. Commencez-vous à comprendre ma frustration face à ce problème ? Senapathy enneige les lecteurs avec toutes ces choses, alors que c'est complètement inutile.

(reprise) Je vous en prie, dites ce qui applique la sélection. Selon le modèle de Senapathy, aucune sélection n'a lieu tant que tout le désordre n'est pas assemblé en une "cellule germe" (elle-même un concept horriblement imparfait en contradiction avec des faits bien établis).

JM : Quel est le fait établi qui réfute les cellules germinales de Senapathy ?

Keith : J'ai déjà posté ça.

    De nombreux métazoaires ("animaux multicellulaires") ont des schémas de développement qui nécessitent la localisation asymétrique des protéines et des ARNm dans l'ovule. Ces modèles sont définis par les cellules du corps de la mère. Cela résout le problème connu sous le nom de "rupture de symétrie" - comment un œuf apparemment symétrique peut-il générer un organisme asymétrique.

Les cellules souches de Senapathy n'auraient pas un tel modèle externe pour imposer des distributions asymétriques de protéines et d'ARN. De plus, si une cellule germe pouvait se développer sans eux, il n'y aurait aucune raison de s'attendre à ce que les exigences actuelles les concernent.

Encore une fois, l'étang de Senapathy ne pourrait pas générer une telle hétérogénéité contrôlée, et nous ne nous attendrions pas à ce que cela se produise si les mammifères de l'étang de Senapathy pouvaient émerger sans lui.

(reprise) Non, ce qui est le plus important, c'est qu'il est peu probable qu'une fois votre gène trouvé, il ait la constellation appropriée de sites régulateurs pour s'exprimer de manière utile.

JM : N'est-ce pas inscrit dans l'ADN de Senapathy ? C'est-à-dire qu'il y a une certaine probabilité que vous trouviez les signaux d'épissage et ainsi de suite, et dans la phase appropriée, dans l'ADN aléatoire. Si Senapathy a tort et si vous pensez qu'il a ignoré cela dans ses chiffres, alors s'il vous plaît proposez quelques chiffres alternatifs, montrant ce que serait le résultat si Senapathy l'avait fait "correctement".

Keith : Encore une fois, Senapathy est si bon avec les équations parce qu'il en choisit des triviales.Faire une bonne prédiction de signal transcriptionnel est DIFFICILE - vous devez faire beaucoup d'hypothèses sur les probabilités (certaines de ces choses ont des propriétés de localisation très étranges - toujours pas bien comprises). Je n'ai pas les chiffres, et donc je ne ferai pas d'équations assez vides de sens. Mais, étant donné qu'il existe probablement 10^4-10^5 modèles de transcription différents chez un humain, Senapathy a sous-estimé les choses d'au moins ce facteur.

(reprise) Encore une fois, comment la sélection agit-elle au sein du pool magique, quand les fonctions des gènes ne peuvent être testées qu'à leur sortie du pool ?

JM : La sélection de gènes viables se fait en dehors de l'étang. La réplication se produit à l'intérieur et à l'extérieur.

Keith : La sélection doit être couplée à la réplication pour que ce processus (généralement appelé sélection darwinienne) ait un effet.

(reprise) Tous les mélanges d'abiogenèse sont suicidaires (indice : lequel est le plus simple à former, un organisme totalement indépendant capable de subvenir à tous ses besoins ou un free-loader qui avale la soupe ?)

  1. Il faut de nombreux gènes pour fabriquer des biomolécules complexes.
  2. Les gènes pour utiliser des biomolécules complexes sont communs à toute vie.
  3. 1 et 2 impliquent qu'il y a moins de gènes requis pour construire un charognard par rapport à un synthétiseur.
  4. La probabilité qu'un organisme émerge d'un étang est proportionnelle au nombre de gènes requis.
  5. 3 + 4 impliquent que les charognards émergeront plus fréquemment que les synthétiseurs.
  6. Une seule mutation dans une voie de synthèse peut l'éliminer,
  7. Les mutations délétères sont fréquentes
  8. 6+7 impliquent que les synthétiseurs se transformeront fréquemment en charognards.

Ergo, des charognards sortiront de la soupe. De tels charognards dévoreront la soupe et, ce faisant, élimineront les enzymes qui dégradent les composants de la soupe (c'est une réalité – plonger le bout des doigts dans la piscine de Senapathy serait un génocide à grande échelle). Ces charognards consommeraient la soupe.

Conclusion : aucune soupe abiogénétique ne peut survivre longtemps à l'abiogenèse.

Jeff, je m'épuise. Permettez-moi de le dire de cette façon - qu'est-ce que la théorie de Senapathy ne prédit PAS. Et encore une fois, la rétrodiction/accommodation de l'homologie de Senapathy est basée sur sa théorie du recyclage du génome, dont j'ai souligné qu'elle n'est pas compatible avec les propriétés connues de l'ADN. J'ai également souligné que la soupe de Senapathy ne peut pas coexister avec des décomposeurs, et de tels décomposeurs existent depuis des millénaires.

J'essaie de rester calme, mais son livre est tellement exaspérant ! La raison pour laquelle cela a l'air bien (dans le livre) par rapport à l'évolution est que la théorie de l'évolution est une vraie science avec toutes ses verrues et ses défauts exposés, débattus et analysés. Senapathy présente une image éclatante, à défaut de présenter un défaut dans la théorie. J'en ai présenté (et d'autres) beaucoup, et ils sont flagrants. Une fois que vous avez éliminé toutes les fausses déclarations et hypothèses de « vache sphérique », il ne reste plus grand-chose du livre.

Placée dans un combat loyal avec la théorie de l'évolution moderne, la théorie de Senapathy n'offre tout simplement aucune promesse.


Trouver des exons dans un problème d'ADN - Biologie

Exons, Introns, Codons et leurs équivalents


Trois termes techniques courants en génétique moléculaire, exon, intron, et codons, ont des définitions techniques spécifiques, mais sont souvent mal utilisées dans les présentations hâtives ou abrégées. La principale chose à retenir est que l'exon et les introns sont des caractéristiques de l'ADN, tandis que les codons sont des caractéristiques de l'ARN. Les séquences homologues dans l'autre type de nucléique doivent être appelées autrement, sinon il y a un danger que les rôles de ADN et ARN dans le Dogme central ("ADNfait du ARNfait du Protéine") sera confus.

Par définition, les exons et les introns sont des séquences dans un codage des protéines région du gène d'un double brin ADN molécule (ADNdb) qui sont expressé comme protéines, ou entierveillant séquences pas ainsi exprimées. Les exons et les introns sont généralement représentés comme les séquences simple brin du Sens du brin du ADNdb, écrit 5'-3', de gauche à droite.

Transcription de la complémentaire Brin de modèle produit un ARN nucléaire hétérogène (hnARN) qui est identique (colinéaire) dans 5'-3' l'orientation et les séquences de base à la ADN Sense Strand, avec la substitution de U pour T. Les ARN séquences équivalentes à ADN exons et introns sont parfois eux-mêmes appelés "exons" et "introns, " mais cela est techniquement incorrect et confond également leur fonctionnel rôle dans la transcription et la traduction avec des exons et des introns comme séquences de gènes dans l'ADN. Les ARN séquences équivalentes à ADN exons et introns peuvent être appelés "transcriptions d'exons" et "transcriptions d'introns," ou "équivalents," respectivement.

Traitement de la hnARN à ARNm implique l'excision ('épissure') des transcrits d'intron et la ligature des exons restants. Une fois la finale ARNm est formé, Traduction est le processus de lecture (en acides aminés) d'une série de séquences à trois bases appelées codons. Les codons sont lus selon le Code génétique, qui est un code ARN. Parce que le ARNm région équivaut à ADN exon, le même série peut être identifié dans le Sens du brin (en remplaçant T pour U). Les trois bases ADN les motifs sont certains appelés "codons", mais c'est encore une fois techniquement incorrect et confond le contenu de l'information de Gènes avec le fonction de ARN dans le code génétique. Les ADN les équivalents aux codons peuvent être appelés 'triplés.'

En bioinformatique, les 64 triplets sont parfois présentés comme un "table de traduction" qui peut être utilisé directement avec le ADN Sense Strand séquence pour déduire la séquence protéique. C'est pratique, sauf que "Traduction" ici signifie 'extraction d'informations codées' n'est pas le même que le processus moléculaire de ARNm Traduction.


Introns, exons et autres (Partie II)

De Keith Robison : D'accord Jeff, je pense que vous êtes sur le point de comprendre l'argument, mais il vous échappe encore.

    Il est improbable de trouver des ORF en séquence aléatoire. "La seule façon dont un gène de plus de 600 nts pourrait provenir était de sélectionner des cadres de lecture courts et de les assembler en éditant les régions intermédiaires contenant de nombreux codons d'arrêt."

Comprenez vous? Il prétend que le processus d'épissage permet la formation de longues séquences porteuses d'ORF. Les ORF longs sont dans l'ARNm épissé, pas dans l'ADN. Mais comme la séquence initiale est aléatoire, les signaux d'épissage seront distribués de manière aléatoire. Et parce que les signaux d'épissage sont beaucoup plus gros que les signaux d'arrêt de la traduction et n'ont aucun lien avec eux, la séquence d'ARNm épissé de sortie ressemblera statistiquement à la séquence d'ADN aléatoire d'entrée. Il doit donc y avoir une autre source d'information pour que cela fonctionne.

En bref, votre chance de trouver un long ORF dans l'ARNm épissé transcrit à partir d'une séquence d'ADN aléatoire est identique à la chance de trouver un long ORF dans l'ADN aléatoire non épissé.

De Wesley R. Elsberry : Je suis intrigué. Pourquoi pensez-vous que le moment du copier-coller fait une différence, de sorte que le point de Robison ne s'applique plus ?

JM : C'est important pour notre discussion parce que l'ADN aléatoire ressemble à de l'ADN eucaryote. Si l'épissage avait été fait dans l'étang, avant la formation de la cellule germe, alors les gènes n'auraient pas eu d'exons et d'introns. La théorie du Dr Senapathy et les introns précoces sont très étroitement liés.

De Keith Robison : (reprise) Mais parce que la séquence initiale est aléatoire, les signaux d'épissage seront distribués de manière aléatoire. Et parce que les signaux d'épissage sont beaucoup plus gros que les signaux d'arrêt de la traduction et n'ont aucun lien avec eux, la séquence d'ARNm épissé de sortie ressemblera statistiquement à la séquence d'ADN aléatoire d'entrée. Il doit donc y avoir une autre source d'information pour que cela fonctionne.

JM : Donc, si les codons stop qui termineraient un gène ne sont pas liés aux signaux d'épissage qui démarrent et terminent un exon ou un intron, alors, après l'épissage, il y aurait toujours des codons stop partout dans les exons (et donc ce ne serait vraiment pas un gène). Je pense que cela résume votre point de vue, vous n'avez donc aucun doute maintenant que je comprends votre point de vue.

(reprise) En bref, votre chance de trouver un long ORF dans l'ARNm épissé transcrit à partir d'une séquence d'ADN aléatoire est identique à la chance de trouver un long ORF dans l'ADN aléatoire non épissé.

JM : Tout cela suppose que les codons stop et les signaux d'épissage ne sont pas liés les uns aux autres. Cependant, à partir de la page 244, Senapathy explique que les signaux d'épissage sont liés aux codons d'arrêt et que le mécanisme d'épissage doit être le résultat d'un processus de sélection afin d'obtenir cette relation. Il écrit : "Ce système [de distinction entre les exons et les introns] doit avoir été principalement capable de distinguer entre ce qui est un cadre de lecture et ce qui est un codon d'arrêt." Continuant à la page 245, il montre que les codons d'arrêt sont corrélés avec les sites d'épissage et que « le mécanisme qui a identifié les gènes sélectionne consécutivement ses exons successifs en recherchant des codons d'arrêt tout en lisant une séquence aléatoire de 5' à 3'... les séquences de jonction d'épissage. qui contiennent ces codons d'arrêt doivent provenir de ces raisons et servir de signaux moléculaires pour le processus d'épissage des exons."

Cela peut sembler donner une intelligence au processus d'épissage, mais ce n'est pas le cas, tout comme il n'y a pas d'intelligence derrière le fonctionnement putatif de la sélection naturelle. Senapathy dit: (1) nous voyons de longs cadres de lecture dans la vie, (2) il est apparemment nécessaire d'avoir de longs cadres de lecture pour la vie (au moins la vie telle que nous la connaissons), (3) le mécanisme d'épissage qui fonctionne doit être un qui aboutit à de longs cadres de lecture, et (4) ceci est confirmé en trouvant une corrélation entre les emplacements des codons d'arrêt et les signaux d'épissage "résultants". Si ce mécanisme particulier (ou un autre viable) ne s'était pas produit, nous ne serions pas là pour y réfléchir.

Keith : Senapathy a tout simplement tort. Pour une analyse minutieuse des signaux d'épissage, voir :

  • Stephens & Schneider, J Mol Biol, 228 : 1124-1136 (1992)
  • En particulier le logo de la séquence ftp://ftp.ncifcrf.gov/pub/delila/SequenceLogoSculpture.ps
  • Les logos de séquence sont expliqués dans http://www-lmmb.ncifcrf.gov/

Regarder les logos nous dit plusieurs choses :

    Le signal donneur ("start-splice") a le consensus

Oui, vous pouvez trouver tous les arrêts TAA et TGA ici, mais bien sûr seulement environ 50% du temps. De plus, l'arrêt se situerait en phase 1 (entre la première et la deuxième base d'un codon), et il y a un léger excès d'introns de phase 0. Donc, pour la majorité des données (introns de phase 0 + phase 2 > 50% de tous les introns), c'est une mauvaise explication

avec C presque équiprobable -- mais C prédominant. Encore une fois, la ressemblance avec un codon d'arrêt est ténue.

Dans tous les cas, il ne s'agit que de la probabilité de trouver un ORF. Les statistiques fantastiques de Senapathy prétendent que vous trouverez probablement une séquence d'isocodage pour des protéines connues. Mais, étant donné que la séquence aléatoire épissée a le même contenu d'informations que la séquence aléatoire non épissée, le processus d'épissage n'a rien gagné. Nous pouvons regarder des protéines connues et calculer leur contenu informationnel, qui peut ainsi être converti en probabilité de les trouver dans un ordre aléatoire. Cela a été assez bien fait par Hubert Yockey, et la probabilité est très faible.

(Note latérale : le livre de Yockey doute de toute origine de scénarios de vie pour des motifs similaires).

De Don Cates : Que dit le Dr S sur le fait que les différences de bases redondantes dans les codons imitent assez bien les relations morphologiques entre de nombreuses espèces. Par exemple. Prenez le code d'une enzyme presque universellement utilisée. Il existe de nombreuses séquences de bases différentes qui peuvent coder pour l'enzyme. Il arrive que plus deux espèces (ou sous-espèces ou même individus) se rapprochent évolutivement, plus les séquences se ressemblent.

JM : Le Dr Senapathy passe beaucoup de temps à parler de dégénérescence des codons, principalement en termes de redondance qui rend plus probable la probabilité de trouver des gènes pour des protéines particulières. Cependant, quant à l'utilisation de ces redondances lors de l'examen de génomes similaires, il écrit (à la page 434) :

"Les généticiens évolutionnistes font face à un problème inhérent lorsqu'ils analysent des similitudes de protéines à la recherche de relations évolutives supposées. Ils partent d'une notion d'évolution antérieure et fortement enracinée. Par conséquent, selon eux, ces protéines présentant des similitudes fonctionnelles ont évolué les unes des autres. Par conséquent, , ils s'attendent à ce que les protéines aient des similitudes structurelles et des similitudes de séquences. Donc, s'ils trouvent une similitude de séquences entre deux protéines ou gènes fonctionnellement similaires, ils pensent que c'est une preuve directe de la théorie de l'évolution de Darwin. »

"Parce que les évolutionnistes s'attendent à ce que deux protéines fonctionnellement similaires soient liées sur le plan de l'évolution, ils recherchent une similitude de séquence avant même de savoir si ces protéines ont une similitude de séquence. Lorsqu'une similitude de séquence est trouvée - ce qui est attendu simplement à cause de la similitude fonctionnelle même sans connexion évolutive - ils le fournissent avec confiance comme preuve de l'évolution qui s'est produite. D'autre part, s'il y a peu ou moins de similitude de séquences significative, ils essaient de contourner les méthodes d'alignement ou de recherche de similitude de séquences afin d'"améliorer" La similarité."

Et à la page 438 : « En analysant la séquence codante d'un gène donné trouvé dans de nombreux organismes, il existe un phénomène concernant les variations de codons. Si nous prenons un gène et analysons sa séquence codante dans de nombreux organismes différents, nous trouvons naturellement des variations de séquence . [snip] Habituellement, il y a trois ou quatre codons, avec les mêmes deux premières bases mais des troisièmes bases différentes, qui codent pour le même acide aminé. Par conséquent, si nous analysons la fréquence des différences de nucléotides aux trois positions de codon possibles dans la séquence d'un gène provenant de nombreux organismes différents, ils varient le plus à la troisième position du codon, moins à la deuxième et à la première. . ce phénomène peut survenir lorsque des organismes sont nés indépendamment - par des changements mutationnels du même gène dans chaque organisme sans altérer la fonction de base de la protéine. ou si deux séquences de gènes codant pour fonctionnellement la même protéine apparaissent indépendamment l'une de l'autre. Mais les évolutionnistes pensent que ce phénomène est dû à l'e évolution des organismes les uns des autres."

Don : C'est ce que je cherchais. Veuillez noter que, pour autant que je sache, la théorie du Dr S prédirait que la distribution des différences dans la troisième base de ces codons serait aléatoire entre les différents organismes "nés indépendamment". Cependant, ce n'est pas ce qui est observé. Les organismes qui sont considérés comme proches sur le plan de l'évolution sont plus susceptibles d'avoir une proportion plus élevée de mêmes "troisièmes bases".

. si deux séquences de gènes codant fonctionnellement pour la même protéine apparaissent indépendamment l'une de l'autre. Mais les évolutionnistes pensent que ce phénomène est dû à l'évolution des organismes les uns par rapport aux autres."

Don : Encore une fois, le fait n'est pas que ces similitudes existent. Ils existeraient aussi en "création spéciale" si le créateur utilisait les mêmes plans de base pour toutes ses créations. Ce qui est important, c'est le schéma des différences entre les différents organismes. Ce modèle est tout à fait cohérent avec l'évolution mais nécessite une sorte de plaidoyer spécial à la fois pour le Dr S et les créationnistes.

Voyez-vous pourquoi je pense que cette information pose un problème au Dr S (et aux créationnistes) ?

JM : Je pense que la plaidoirie spéciale est de votre côté. Bien que Senapathy n'ait pas utilisé le mot « modèle » (parce qu'il dirait qu'il n'y a pas de modèle), n'est-il pas vrai que le modèle que vous avez mentionné a été le fondement principal de l'arbre évolutif ? Si c'est le cas, alors vous ne pouvez pas prétendre que les preuves soutiennent l'évolution alors que c'est ces preuves qui ont été utilisées pour créer l'arbre !

Don : Arlin Stoltzfus a contré cet argument assez succinctement il y a longtemps. Le "modèle" important que nous voyons est que lorsque nous superposons des arbres générés à partir de différentes données (par exemple, différents gènes, différentes caractéristiques morphologiques), ils sont presque toujours congruents. C'est ce que la théorie de la « naissance indépendante » de Senapathy ne peut expliquer, sauf par le « plaidoyer spécial » de la réutilisation du génome.

De Keith Robison : . immuable dites-vous, je ne pense pas que vous vouliez dire immuable, car il est clairement démontré que les génomes sont "plastiques" à bien des égards.

JM : Ici, le terme « immuable » signifie qu'aucun nouveau gène ne pourrait voir le jour.

Keith : Et encore une fois, Senapathy bat .000 ici. Nous connaissons des exemples de nouveaux gènes apparaissant (par exemple, jingwei), et connaissons de nombreux autres mécanismes qui pourraient former des gènes. Notez que le scénario de Senapathy doit invoquer beaucoup de certains de ces mécanismes afin d'expliquer certains faits désagréables.

Par exemple, les génomes bactériens sont pour la plupart sans intron et certains génomes microbiens eucaryotes sont soit sans intron, soit pauvres en intron (comme le sont les génomes organellaires). La sénopathie doit invoquer de grandes quantités de perte d'intron par fusion d'exons. Mais il n'y a aucune raison particulière pour que deux exons de la même unité de transcription doivent être fusionnés - des fusions pourraient tout aussi bien se produire entre des gènes non apparentés. Chacune de ces fusions est potentiellement un nouveau gène, avec de nouvelles propriétés.

Et ainsi la tendance se poursuit. Les affirmations de Senapathy sont presque universellement soit contraires aux données connues, soit nécessitent des hypothèses invraisemblables.

JM : Je ne trouve aucune discussion dans The Book sur la façon dont les introns ont été supprimés pour former des procaryotes. J'ai raté ça ? Sinon, pourquoi supposez-vous qu'il n'y a qu'une seule méthode pour supprimer les introns ? Je suppose que mon problème ici est le suivant : supposez-vous un mécanisme particulier pour supprimer les introns, et pourquoi cela doit-il être la méthode que le Dr Senapathy devrait utiliser alors qu'il n'en discute même pas ?

Keith : Je vais devoir creuser, mais je crois que c'est là. De toute façon, ce n'est surtout pas une question de mécanisme. Si Senapathy a raison, alors d'une manière ou d'une autre tous ces introns ont dû être perdus, et cela seul représente un énorme degré d'évolution.

Il existe essentiellement deux manières de perdre un intron. L'une, la recombinaison entre le génome et un ARNm transcrit en inverse, peut potentiellement exciser « proprement » les introns. L'autre possibilité est des délétions génomiques excisant l'intron.

Notez que les deux mécanismes, dans le cadre des propriétés connues des génomes, sont susceptibles de conduire à un certain degré de formation de nouveaux gènes. Alors que la recombinaison avec un ARNm transcrit aurait généralement tendance à effacer proprement les introns, la présence de séquences répétitives dans l'ARNm (ce qui n'est pas rare) pourrait provoquer une recombinaison ailleurs dans le génome, conduisant à de nouveaux gènes chimériques. De même, les délétions sont susceptibles de provoquer des fusions entre gènes adjacents. Quoi qu'il en soit, à une certaine fréquence, de nouveaux gènes seront acquis par le génome et rendus disponibles pour l'évolution.

De Ralph M Bernstein : Il n'y a pas beaucoup de théories sur la façon dont les introns ont été perdus, c'est pourquoi.Est-ce que Senapathy et vous pouvez proposer une autre méthode ? Le meilleur que je connaisse est la " rationalisation du génome " de WF Doolittle -- très simplement : en raison des temps de réplication plus rapides et du besoin moindre des aspects réglementaires des introns, ils ont été " rationalisés ".

De Keith Robison : Il est intéressant de demander que même si Senapathy pouvait obtenir les bons calculs de probabilité ORF, quelle est la probabilité de trouver un gène particulier dans un étang Senapathian -- est-ce n'importe où dans le stade approximatif des calculs de Senapathy.

Dans son livre Théorie de l'information et biologie moléculaire, Hubert Yockey calcule le contenu en information de la protéine cytochrome c. Autrement dit, sur la base d'un alignement de nombreux cytochromes c, nous pouvons estimer le degré de plasticité autorisé - quel changement la protéine peut-elle tolérer et continuer à fonctionner comme le cytochrome c. Le contenu de l'information est directement convertible en probabilité de trouver une séquence de cytochrome c au hasard à partir d'un ORF de longueur similaire.

iso-1-cytochrome c a un contenu informationnel de 373,6 bits. Par conséquent, la probabilité de trouver un cytochrome c au hasard est

Les données réelles ne sont pas gentilles avec le Dr S.

JM : Par « ORF », voulez-vous dire un cadre de lecture long et ouvert d'un gène (sans introns) ou simplement la lecture d'un exon ? Si vous parlez d'un gène, alors votre calcul n'a rien à voir avec la probabilité de trouver une partie de ce gène, un exon, ce que le Dr S calcule. Si vous voulez dire un exon, alors le calcul de probabilité (chance de trouver un exon donné dans une série d'ADN aléatoire) est simple et je ne vois pas en quoi l'utilisation ésotérique du contenu informationnel est utile - comment s'applique-t-elle ?

Keith : Ce calcul évalue la probabilité de trouver un cytochrome c une fois que vous avez généré un ARNm traduisible.

Jeff, je suis surpris par toi. Vous réclamez toujours des estimations rigoureuses. C'est exactement ce que l'approche de la théorie de l'information essaie d'être - une estimation rigoureuse de la probabilité de trouver une séquence fonctionnelle du cytochrome c dans une montagne de séquences peptidiques aléatoires. Senapathy peut épisser et couper en dés tout ce qu'il veut - mais à moins que vous ne pensiez que le processus d'épissage peut générer >10^100 messages possibles, nous ne verrons pas de cytochrome c (ce qui serait une très bonne astuce avec 10^30 nucléotides !) .

De [email protected] : Une nouvelle théorie des introns précoces est présentée dans les numéros de septembre et novembre de Molecular Biology and Evolution , (volume 12, 949-958 pour le numéro de septembre intitulé : « A stem-loop 'kissing' modèle pour l'origine des introns et la recombinaison".

Il y a environ un an, Nature a rejeté la lettre suivante sur le sujet qui pourrait intéresser les lecteurs de ce groupe de discussion.

ALTERNATIVE INTRONS-PREMIÈRE THÉORIE

SIR - Dans son article New & Views intitulé "L'origine incertaine des introns"(1), Laurence Hurst présente quelques-uns des arguments en faveur des "introns précoces" (l'école Gilbert(2) et des "introns tardifs" (l'école Stoltzfus(3) Les deux écoles ne semblent pas avoir remarqué que les introns interrompent à la fois les parties codantes et non codantes des gènes(4). On sait depuis longtemps que les gènes des ARNr et des ARNt contiennent des interruptions, mais il peut s'agir de cas particuliers. Récemment, cependant, " Des ARNm" ont été découverts qui n'ont pas de produit protéique. Les gènes correspondants ressemblent à la plupart des gènes codant pour les protéines et possèdent plusieurs introns (5). Ainsi, les introns interrompent l'information génétique, pas seulement l'information codant pour la protéine. Ce n'est donc pas trop surprenant. , qu'il est difficile d'associer des exons à des domaines de structure ou de fonction protéique (2,3). Il ne s'ensuit pas que cela élimine le point de vue précoce des introns. Il peut y avoir d'autres théories des exons des gènes, ainsi que "l'exon" théorie des gènes (c'est-à-dire "la" théorie des introns).

Une théorie alternative des exons (introns précoces) peut être dérivée des preuves croissantes de l'implication des structures tige-boucle dans la recombinaison (6-12), un processus qui aurait dû survenir au début de l'évolution. Au début du "monde de l'ARN" (13), il est probable que l'échange de segments entre les réplicateurs protypiques aurait été avantageux (14). Ainsi, s'il était possible que la recombinaison ait surgi tôt, elle l'aurait fait. Des mutations favorisant la recombinaison auraient affecté soit les enzymes (ribozymes) impliquées dans la recombinaison, soit leur substrat, l'ARN lui-même (d'où les stem-loops). Finalement, le monde de l'ARN a cédé la place au monde de l'ADN, mais le potentiel de tige-boucle est resté. Conformément à cela, le potentiel tige-boucle est abondant et largement dispersé dans les génomes modernes (12).

Le postulat de base de la théorie de l'exon alternative proposée des gènes est que le potentiel tige-boucle était répandu dans les génomes à un stade précoce. Les informations relatives aux nouvelles fonctions au fur et à mesure qu'elles se présentaient devaient rivaliser avec les informations relatives à la fonction formant tige-boucle (c'est-à-dire les bases complémentaires dans les tiges). Dans le cas des fonctions de codage des protéines, le conflit a été géré de trois manières. Les premiers codons synonymes ont été utilisés afin qu'une séquence puisse à la fois optimiser sa propension au repliement et coder une protéine. Si cela échouait, des échanges d'acides aminés conservateurs étaient acceptés pour élargir la gamme de choix de codons sans altérer la fonction des protéines. Enfin, en cas d'échec, la protéine n'était autorisée à évoluer que dans des segments interrompus par des régions à fort potentiel tige-boucle. Remarquablement, des traces de cet arrangement primitif peuvent être discernées dans certains gènes modernes (12). Dans le génome compact de C. elegens, les tiges-boucles sont abondantes et 43 % d'entre elles se trouvent dans les introns, qui ne représentent que 20 % du génome(15).

  1. Hurst, L.D. Nature 371, 381-382 (1994).
  2. Gilbert, W. & Glynias, M. Gène 135, 137-144 (1994).
  3. Stoltzfus et al. Sciences 265, 202-207 (1994).
  4. Hawkins, J.D. Nucleic Acids Res. 16, 9853-9905 (1988).
  5. Pfeifer, K. & Tilghman, S.M. Développement des gènes. 8, 1867-1874 (1994).
  6. Sobell, S.M. Proc. nat. Acad. Sci. États-Unis 69, 2483-2487 (1972).
  7. Wagner, R.E. & Radman, M. Proc. nat. Acad. Sci. États-Unis 72, 3619-3622 (1975).
  8. Doyle, G.G. J. Théor. Biol. 70, 171-184 (1978).
  9. Kleckner, N. & Weiner, B.M. Symptôme du port de Cold Spring. Quant. Biol. 58, 553-565 (1991).
  10. Kleckner, N., Padmore, R. & Bishop, D.K. Symptôme du port de Cold Spring. Quant. Biol. 56, 729-743 (1993).
  11. Reed et al. J. Mol. Évol. 38, 352-362 (1994).
  12. Forsdyke, D.R. FASEB.J. 8, 1395A (1994).
  13. Joyce, G.F. & Orgel, L.E. The RNA World, 1-25 (Cold Spring Harbor Laboratory Press, New York, 1993).
  14. Bernstein, C. & Bernstein, H. Vieillissement, sexe et réparation de l'ADN (Academic Press, San Diego, 1991).
  15. Wilson et al. Nature 368, 32-38 (1994).

Si vous regardez la distribution phylogénétique actuelle des introns spliceosomal, ils sont limités aux génomes eucaryotes. Actuellement, la meilleure estimation de la phylogénie globale est un arbre dont la racine se situe entre les eubactéries d'une part, et un clade archéobactérien/eucaryote d'autre part. Les eubactéries et les archaebactéries sont dépourvues de TOUT intron spliceosomal. Donc, si les introns étaient présents dans l'ancêtre commun de toutes ces lignées, ils doivent avoir été COMPLÈTEMENT éteints chez les eubactéries et les archaebactéries. Si l'on considère ensuite ce qui est connu sur la phylogénie eucaryote, et l'on considère les informations sur la fréquence des introns dans les lignées eucaryotes. il devient clair qu'une densité élevée d'introns (plus de 4/kilobase) est limitée aux clades récemment évolués tels que les animaux, les plantes et CERTAINS champignons. Les lignées eucaryotes les plus profondes - les protistes comme Giardia, Trichomonas, Trypanosomes, Entamoebids et Heteroloboseans manquent complètement d'introns (pour autant que nous puissions le dire maintenant) ou en ont à de très faibles densités. Ainsi, plusieurs lignées indépendantes d'exogroupes d'animaux, de plantes et de champignons semblent avoir peu ou pas d'introns. Il est probable que l'ancêtre commun de tous les eucaryotes, s'il avait des introns, en avait très très peu (beaucoup moins de 1 par kilobase d'ARNm). L'interprétation alternative des "introns précoces" est que les introns continuent de se perdre de manière cataclysmique à plusieurs reprises indépendantes au cours de l'évolution, mais sont mystérieusement conservés dans les ancêtres communs de toutes les lignées eucaryotes. Ce n'est juste pas très parcimonieux. Nous ne voudrions pas prétendre que les ongles sont ancestraux de toute vie simplement parce que certains vertébrés en ont - je suggère que nous ne devrions pas affirmer que la densité élevée d'introns est ancestrale à toute vie simplement parce que certains clades eucaryotes récemment évolués en ont.

Le problème avec toute théorie précoce des introns qui s'intéresse aux introns spliceosomal, est que les preuves phylogénétiques suggèrent qu'ils ne sont PAS anciens. cela ne signifie pas que les stemloops n'auraient pas pu jouer un rôle important dans le monde de l'ARN - c'est juste qu'ils ne se sont probablement jamais transformés en introns spliceosomal.

D'Arlin Stoltzfus : (citant DR Forsdyke) : « Ainsi, les introns interrompent l'information génétique, pas seulement l'information codant pour la protéine. )."

Arlin : Euh, c'était surprenant pour ceux qui pensaient que les gènes des protéines évoluaient à l'origine par assemblage combinatoire d'exons, chaque exon contribuant à une caractéristique structurelle ou fonctionnelle discrète de la protéine. Ce point de vue, qui était appelé le point de vue "introns-early" jusqu'à il y a environ un an (:->), a été présenté comme un fait presque établi dans plusieurs manuels des années 1980.

Citant Forsdyke : « Il ne s'ensuit pas que ce [manque de correspondance] élimine le point de vue initial des introns.

Arlin : Ce n'est pas ce qui a été avancé dans la réf. 2. Au lieu de cela, il a été soutenu que le poids des preuves phylogénétiques (entre autres) favorisait fortement une origine récente des introns spliceosomal, étant donné qu'ils ne se trouvent que chez certains eucaryotes. Proposer que les introns spliceosomals en tant que famille sont anciens, c'est comme proposer que la méiose ou les mitochondries ou les microtubules sont anciens. Personne n'envisagerait même un tel point de vue à moins qu'il n'y ait des raisons logiques ou empiriques convaincantes de douter de la preuve (phylogénétique) claire que ce sont des caractères dérivés. Dans le cas des introns, il a été estimé qu'il y avait vraiment des preuves spécifiques - à savoir une correspondance générale exon-protéine - qui ne pouvait être prise en compte que par une vue précoce des introns. Le point de réf. 2 était que l'absence de toute preuve fiable d'une telle correspondance, bien qu'elle ne constitue pas une preuve, prive le point de vue introns-early de son seul argument probant.

Citant Ralph Bernstein : Je pense que le but de ceci était de consolider l'idée des introns dès le début. L'idée du 'kissing-loop' est un soutien très fort de ce concept."

Arlin : Je ne vois pas comment cela "consolide" la position initiale des introns. Il a été démontré de manière adéquate par Forsdyke et d'autres que les génomes phylogénétiquement largement dispersés ont un excès statistique de séquences à répétition inversée par rapport aux attentes aléatoires, même lorsque la composition de base locale est prise en compte. Cela inclut les organismes avec et sans introns.

Dans les organismes avec des introns, Forsdyke suggère pour des raisons discutables que les répétitions inversées sont plus fréquentes dans les introns que dans les exons. de contenir les séquences à répétition inversée de manière à stimuler la recombinaison.

La conclusion selon laquelle l'excès est dû à la sélection est discutable car l'alternative selon laquelle les répétitions inversées surviennent (que ce soit dans les introns, dans les exons ou dans les génomes bactériens sans intron) en raison de biais mutationnels n'est tout simplement jamais abordée. Au lieu de cela, il est supposé que tous les écarts par rapport au hasard doivent découler de la sélection postérieure à la mutation.

La suggestion que les introns sont anciens est gratuite. Il ressort clairement des comparaisons phylogénétiques des gènes contenant des introns que la plupart des positions des introns sont des acquisitions récentes. La conclusion mineure selon laquelle les répétitions inversées sont plus fréquentes dans les introns que dans les exons est également discutable car Forsdyke (voir son article dans le plus récent Mol. Biol. Evol.) doit exclure les exons longs afin de soutenir statistiquement cette conclusion. Son raisonnement est que les exons longs sont longs parce qu'ils étaient capables de faire évoluer les séquences à répétition inversée requises sans inclure d'introns. Le problème avec cette sous-division de l'ensemble de données est que, si l'on s'en tient à la position initiale stricte des introns sans insertion, il n'existe pas d'exon long ancestral. Lorsque des homologues d'un gène sont séquencés à partir de nombreux organismes différents, un grand nombre de positions d'intron différentes sont trouvées (par exemple, 45 dans GAPDH, 24 dans TPI, probablement 70 dans la tubuline, 40 dans l'actine, environ 20 dans la SOD, etc. -- avec plus d'introns trouvés chaque mois dans les gènes nouvellement séquencés). Un « exon long » dans un organisme est brisé plusieurs fois par les positions d'intron trouvées dans des homologues, alors que le point de vue de Forsdyke impliquerait qu'un long exon contenant une répétition inversée dans un organisme représente un état ancestral qui n'a pas besoin d'être brisé par les introns. Si l'on ne s'en tient pas à la stricte position initiale des introns, et admet plutôt que toutes ou la plupart des positions des introns sont apparues récemment (comme le montrent clairement les données), alors les répétitions inversées peuvent simplement être apparues récemment dans les introns, plus couramment que dans les introns. exons. Et enfin, si un exon long est apparu par délétion des introns intermédiaires, mais était encore capable d'évoluer des répétitions inversées, cela suggère encore une fois que les répétitions inversées ne doivent pas nécessairement être anciennes. Ainsi, de quelque manière que ce soit, il faut admettre que des répétitions inversées peuvent survenir récemment dans les introns et les exons, de sorte qu'il n'est pas nécessaire de proposer en plus que le modèle spécifique des répétitions inversées soit ancien.

Plus important encore, la probabilité que presque toutes les positions d'intron spliceosomal soient d'origine récente (c'est-à-dire postérieure aux eucaryotes) ne contredit en rien la suggestion majeure de Forsdyke selon laquelle les répétitions inversées existent pour stimuler la recombinaison. S'il y a effectivement une sélection favorisant la genèse des répétitions inversées dans un souci d'appariement recombinaison, alors de telles répétitions apparaîtront dans les introns, les exons, les gènes bactériens sans intron, dans les espaceurs intergéniques et dans l'ADN répété (ne serait-ce pas le meilleure façon de le faire - avoir une famille répétitive auto-répliquante portant des répétitions inversées, qui pourraient se propager dans tout le génome ?). Encore une fois, comme Forsdyke le soutient dans son article récent, si les contraintes sur les séquences sont plus faibles dans les introns que dans les exons, les répétitions inversées seront plus susceptibles de se produire et d'y être maintenues, plutôt que dans les exons.

Bien que la théorie du "baiser" n'éclaire pas l'origine des introns, elle indique une caractéristique générale des génomes (avec ou sans introns) qui nécessite une explication, probablement très intéressante.

JM : Il a fait des simulations informatiques avec de l'ADN aléatoire, et il passe en revue ce travail aux pages 273-288. Cela n'impliquait pas une série complète d'ADN (10^30 nts), mais suffisamment d'ADN simulé a été utilisé pour rechercher des gènes et d'autres choses.

De Dave Oldridge : Non. la simulation par ordinateur ne suffira pas ici. Sa simulation suppose qu'une trop grande partie de la théorie est vraie pour être un vrai test. Les émulations informatiques peuvent parfois nous aider à réfuter une théorie ou à la soutenir, mais je veux voir des tests physiques (dans ce cas biologiques).

Tout ce qui s'est passé, c'est qu'un programme que Senapathy a écrit (ou avait écrit) s'est comporté selon ses attentes. Il a peut-être (je ne l'admets pas sans voir tout le programme) avoir montré que sa thèse est possible, il n'a pas encore montré qu'elle est probable.

Et les travaux récents sur les molécules auto-répliquantes pointent dans une direction quelque peu différente. Je ne me souviens plus de la référence exacte, mais je suis sûr que quelqu'un la trouvera. l'année dernière, j'ai lu dans Scientific American une expérience avec des molécules auto-répliquantes très simples qui a montré que, même à ce niveau, une mutation et une sélection peuvent se produire. Il semble tout à fait probable que l'ADN lui-même soit le produit d'une évolution.

De Keith Robison : (citant JM) Cependant, Senapathy fournit beaucoup de détails, basés sur ses propres recherches sur de nombreuses années, pour les parties les plus importantes de la théorie - la formation de gènes à partir d'ADN aléatoire.

Keith : Jeff, vous n'avez jamais répondu à mes arguments de la théorie de l'information sur l'absurdité de la théorie de la formation des gènes de Senapathy. A savoir : la probabilité d'assembler un gène n'est pas facilitée par l'épissage, et de toute façon la quantité d'informations nécessaires pour construire un organisme moderne exclut de trouver un génome fonctionnel dans l'étang de Senapathy.

JM : Eh bien, je ne peux pas dire que j'accepte votre argument de théorie de l'information comme étant pertinent à cela. J'ai le livre de Yockey dans la bibliothèque (il est assis juste ici à mes pieds, comme vous le dites), et si vous me dites exactement où chercher les parties pertinentes pour trouver des gènes divisés, alors peut-être que je pourrai dépasser ça barrière. Quoi qu'il en soit, Yockey n'aime PAS DU TOUT l'idée de l'étang - alors comment pense-t-il que les choses ont commencé ?

Keith : Jeff, peu importe que les gènes soient divisés ou non. Pour qu'un message génétique soit lisible, il doit y avoir un moyen de décoder le message sans connaître le message à l'avance. Les trucs de Senapathy ne fonctionnent que parce qu'il recherche des messages connus -- il n'a fourni aucun mécanisme pour décoder la séquence aléatoire en messages intelligibles. Nous avons déjà examiné tout cela auparavant - les codons d'arrêt ne sont pas des sites d'épissage !

JM : OK, je peux oublier les codons stop. Mais les gènes eucaryotes sont aléatoires (selon les recherches du Dr Senapathy), et les signaux de tranche ne sont pas choisis par Senapathy - ils sont le résultat de processus chimiques qui fonctionnent correctement, nous sommes donc en vie pour les examiner. S'il y avait un ensemble différent de signaux d'épissure, nous les envisagerions à la place. Tu as dit un jour que j'avais prouvé que tu n'existais pas. Il me semble que vous prouvez maintenant que la vie n'existe pas. Peu importe qui dit qu'il est improbable de trouver des gènes dans l'ADN - ils sont là, et l'ADN eucaryote dans lequel ils se trouvent est aléatoire. Je dois manquer quelque chose dans votre argumentation. Pourriez-vous réessayer ou me renvoyer directement à la discussion de Yockey à ce sujet ?

JM : (continuant) Je ne peux pas dire que j'accepte votre argument de théorie de l'information comme étant pertinent à cela. J'ai le livre de Yockey dans la bibliothèque (il est assis juste ici à mes pieds, comme vous le dites), et si vous me dites exactement où chercher les parties pertinentes pour trouver des gènes divisés, alors peut-être que je pourrai dépasser ça barrière.

Keith : La vraie beauté de l'approche informatique dans cette situation est que l'épissage n'est pas pertinent . L'estimation IT est la probabilité de trouver un tel modèle au hasard après n'importe quelle séquence arbitraire de transformations déterministes. C'est-à-dire que peu importe si vous inversez toute la séquence, les traduisez selon un tableau, etc., tant que vous suivez des règles déterministes (c'est la raison pour laquelle Shannon a inventé la théorie après tout - pour prédire le comportement des messages sous compression, cryptage, etc.).

Ainsi, la théorie de Senapathy sur l'émergence de gènes et de génomes modernes à partir d'une soupe aléatoire est complètement absurde d'un point de vue statistique.

JM : Quant aux chances de trouver un organisme entier, alors je vais « réutiliser » votre argument selon lequel les chances que vous ou moi existions sont si grandes que nous ne pouvons pas exister.OK, donc cela ne s'applique pas strictement - je ne pouvais tout simplement pas m'en empêcher. Que diriez-vous de ceci : l'état de passer de la non-vie à la vie aurait pu être en plusieurs étapes. C'est-à-dire que vous permettez à la « sélection » d'opérer dans l'évolution (vous pouvez donc AJOUTER les probabilités de chaque étape), et il aurait très bien pu y avoir une certaine forme de « sélection » dans l'étang (bien que pas à un niveau vivant) qui ait causé les résultats du processus chimique dans l'étang pour migrer des ordures pures à la viabilité. C'est-à-dire que les résultats de certains processus chimiques pourraient avoir contribué au maintien de ces processus. Comme je l'ai déjà dit, cette partie de la nouvelle théorie peut nécessiter votre imagination, et vous refusez de vous laisser penser dans ce sens. (Cela n'a rien à voir avec Darwin. -- Keith : comment VOUS expliquez les origines de la vie ?)

Keith : Bonne question -- je n'essaie pas vraiment de le faire. De toute évidence, il y a eu une transition de clairement-pas-vie à clairement-vie, passant probablement par une longue phase de quelque part entre les deux. Cependant, ce stade précoce de la vie claire était beaucoup plus simple que l'ancêtre commun de tous les êtres vivants (CAoALT), et le CAoALT était un descendant.

De Keith Robison : (par e-mail) Je disais que la vie n'est pas improbable (nous y reviendrons), mais que la théorie de l'information dit que le scénario de Senapathy est improbable - les gènes modernes ne surgiront pas entièrement à partir d'un aussi petit pool de séquences aléatoires comme il le pose (j'espère que vous avez bien ri de son affirmation selon laquelle la probabilité de trouver 1 gène = la probabilité de trouver tous les gènes).

JM : Je sais qu'il a parlé des probabilités de trouver un gène et de trouver n'importe quel gène, mais je ne me souviens pas qu'il ait assimilé « un pour tous ». Où était-ce? Pouvez-vous me donner une page, une date ou une autre référence ?

Keith : Page 288 - vous ne pouvez pas le manquer :-)

JM : Encore une fois, je n'ai aucun mal à trouver une explication. Concernant : "La probabilité de trouver des millions de gènes est la même que la probabilité de trouver un gène." Lisez juste un peu plus loin. Dans le dernier paragraphe de la page suivante, vous trouverez : « si un gène typique pouvait apparaître de manière probabiliste dans l'USP, alors presque n'importe quel gène pour une fonction biochimique particulière . se produirait dans l'USP ». Ainsi, puisqu'il peut trouver un gène "typique" dans l'USP et qu'il existe des millions d'autres gènes ayant des caractéristiques similaires à ce gène typique (nécessaires pour les "multitudes de fonctions biochimiques uniques"), il peut trouver n'importe lequel de ces autres gènes ("presque n'importe quel gène pour n'importe quelle fonction biochimique particulière"), tous des millions d'entre eux, dans le même USP chacun avec la même probabilité. Il ne dit PAS P(1) = 10^6 * P(1), comme vous le prétendez. Vous y avez vu une déclaration manifestement ridicule -- parce que c'était ce que vous recherchiez. Je conviens que sa déclaration à la page 288 prête à confusion et qu'elle aurait pu être formulée plus clairement, mais vous avez refusé de voir sa véritable signification et vous vous êtes plutôt plaint du style.

Keith : Non, c'est la négligence typique des Senapathiens. Réfléchissez à la façon dont vous calculeriez réellement la probabilité de trouver chaque gène connu étant donné la probabilité de trouver un gène. Ce ne sont que des statistiques simples (un endroit où le Dr S. a tendance à glisser fréquemment).

JM : OK, j'ai réfléchi.

1. À la page 288, il ne parle pas de "tous les gènes connus". Il parle clairement de n'importe quel gène d'un groupe de millions de gènes qui sont similaires à un gène "typique". C'était l'objet de mon message précédent.

2. Étant donné tout gène ("g") qui est similaire en longueur et en composition exon/intron au gène "typique" "t" donné (en particulier, il n'a pas d'exons plus longs que ceux trouvés dans le gène typique), alors Je calculerais la probabilité de trouver ce gène comme suit :

C'est ce qu'il fait à la page 288.

3. La probabilité de trouver chacun de ces gènes connus est :

où "n" est le nombre de gènes connus. Mais je ne vois pas quel sens cela a. Pour une certaine cellule-graine, je n'ai qu'à trouver les quelque 20 000 gènes particuliers nécessaires. Donc:

Même cela, c'est comme me demander de calculer la probabilité que "Keith" ou "Jeff" soit conçu. Vous m'avez appris que faire cela est insensé, et c'est aussi pour la même raison. Revenons donc en arrière et examinons le problème.

Veuillez relire la page 287 qui mène à sa section « des millions de gènes ». Il ne calcule pas de probabilités là-bas, il calcule la quantité d'ADN nécessaire pour trouver (avec une probabilité très élevée) un gène typique et également en trouver un avec des longueurs d'intron raisonnables. Une fois qu'il aura calculé la quantité d'ADN nécessaire, vous trouverez TOUS et TOUS ces gènes typiques (ou plus courts) dans cette longueur d'ADN.

Ceci est analogue au calcul de la longueur d'une chaîne de lettres aléatoires nécessaire pour trouver un certain mot de trois lettres ("PAS") avec une probabilité très élevée (vous avez besoin de la longueur moyenne attendue multipliée par six - environ 10^5 caractères ), puis en disant que vous pouvez trouver N'IMPORTE QUEL mot de trois lettres ("AAA" à "ZZZ") dans cette chaîne aléatoire. (Référence : pages 223-225 et chapitre 7 notes de bas de page 9 et 10.) Il n'y a RIEN de mal avec cette logique ou ces mathématiques. Il calcule la quantité d'ADN nécessaire en utilisant les mêmes calculs que pour l'exemple du mot de trois lettres. Trouver un exon long (600 nt) semble ridicule, mais, avec suffisamment d'ADN aléatoire, ce n'est pas le cas.

BTW, toutes les exécutions de 600 nt ne seraient pas un exon valide, donc toutes les combinaisons de 600 nt n'auront jamais besoin d'être trouvées. C'est ce que vous entendez, je suppose, par "tous les gènes connus" -- seulement ceux qui sont valides et connus.

Bien que vous souligniez qu'il existe quelques exons plus longs que 600 nt, la plupart sont également beaucoup plus courts que 600 nt. Pourquoi y en a-t-il quelques-uns plus longs est une bonne question, mais celle-ci doit être répondue dans une discussion différente (il y a aussi beaucoup de cas exceptionnels autorisés à évoluer). Pour le moment, je pense que Senapathy est généreux en utilisant 600 nt si souvent plutôt qu'une valeur plus petite.

Maintenant, voulez-vous que je trouve un génome entier dans l'ADN aléatoire ? OK, je peux toujours, bien qu'avec un degré de certitude moindre. Mais, nous avons affaire à des probabilités si proches de un, que même les élever à la puissance 20 000 (le nombre de gènes dans un génome moyen) ne fait pas beaucoup de mal, et vous pouvez utiliser plus d'ADN très facilement car il y a beaucoup plus d'ADN disponible. Les probabilités de trouver tous les gènes nécessaires pour un génome seront plus petites d'une puissance de 2x10^5, mais regardez les chiffres aux pages 287-288 :

Keith : (reprise) Non, c'est un laisser-aller typiquement sénapathique.

JM : Alors, quel problème trouvez-vous ici ? Pouvez-vous être précis et me montrer la négligence des pages 287-288 ? Je suis d'accord avec vous que la formulation prête à confusion, mais regardons son sens et ses calculs, que je trouve très clairs et compréhensibles. Vous ne comprenez évidemment pas, mais je ne comprends pas pourquoi, et j'aimerais savoir.

Keith, c'est du déjà vu -- nous avons suivi ce processus sur les mutations ponctuelles, et vous avez fini par convenir que le calcul Senapathy/Mattox était correct, disant que c'était le modèle qui devait être faux. Si vous vous en souvenez, c'est VOUS qui avez initialement publié des calculs bâclés en disant que les calculs de Senapathy étaient faux. J'aimerais juste résoudre celui-ci aussi.

De Keith Robison : (par e-mail) Je n'aurais pas dû faire ça -- aucun de nous ne semble être très doué pour convaincre l'autre, et nous pouvons simplement continuer indéfiniment.

Je pense que la déclaration de Senapathy dépend de la façon dont vous définissez "chaque gène" - et je dirais qu'il soutient clairement que chaque gène connu peut être trouvé dans un étang de la taille qu'il indique. Comme aucun de nous ne peut lui sauter à la tête, je ne vois pas de vraie résolution.

JM : (reprise) Il calcule la quantité d'ADN nécessaire en utilisant les mêmes calculs que pour l'exemple du mot de trois lettres. Trouver un exon long (600 nt) semble ridicule, mais, avec suffisamment d'ADN aléatoire, ce n'est pas le cas.

Keith : C'est vrai, mais vous avez besoin de beaucoup plus que l'étang de Senapathy. Si je me souviens bien de mes calculs, son étang contient tous les 50-mers possibles - mais certainement seulement une petite fraction des 600-mers.

JM : (reprise) Pour le moment, je pense que Senapathy est généreux en utilisant 600 nt si souvent plutôt qu'une valeur plus petite.

Keith : Bien sûr, le point clé ici est que la distribution des longueurs d'exons ne ressemble en rien à ce que prétend Senapathy (ce n'est pas une simple dist exponentielle). Il y a donc beaucoup plus de problèmes que les longs exons.

Il n'y a pas vraiment de génome moyen, mais plutôt ils sont stratifiés en quelques catégories de taille. Il y a beaucoup, BEAUCOUP de génomes contenant plus de 50 000 à 100 000 gènes.

D'accord, peut-être que si S pouvait calculer correctement la probabilité d'un gène, alors peut-être qu'il n'est pas complètement hors de propos. Mais, comme je l'ai déjà dit, son calcul (p.287) est si grossièrement erroné qu'il n'a pas de sens.

  1. Il néglige les codons stop dans l'estimation
  2. Plus important encore, il sous-estime grossièrement le contenu en information d'une protéine (comme je l'ai déjà souligné).
  3. L'approche d'optimisation qu'il décrit en bas est complètement hors du champ gauche - elle n'a aucun fondement en biologie.

Quoi qu'il en soit, nous pourrions tous les deux continuer à ça pour toujours. Je pense que votre temps serait beaucoup plus productif si vous faisiez les choses suivantes :


Protéine de liaison C4b

Marcin Okrój , Anna M. Blom , dans The Complement FactsBook , 2018

Modules de protéines

C4BPα
1–48 Séquence de signaux exon 2
49–109(Uniprot)CCP domaine 1exon 3
111–172(Uniprot)CCP domaine 2exon 4/5
173–236(Uniprot)CCP domaine 3exon 6
237–296(Uniprot)CCP domaine 4exon 7
297–362(Uniprot)CCP domaine 5exon 8
363–424(Uniprot)CCP domaine 6exon 9
425–482(Uniprot)CCP domaine 7exon 10
483–540(Uniprot)CCP domaine 8exon 11
541–597 Domaine d'oligomérisation C-terminalexon 12
C4BPβ
1–17 Séquence de signauxexon 1
21–78(Uniprot)CCP domaine 1exon 1/2
79–136(Uniprot)CCP domaine 2exon 3
137–193(Uniprot)CCP domaine 3exon 4/5
193–252 Domaine d'oligomérisation C-terminalexon 5/6

Des biologistes découvrent des escargots envahissants grâce à une nouvelle technique de détection d'ADN

Des biologistes dirigés par l'Université de l'Iowa ont utilisé une technique spéciale appelée eDNA pour découvrir une espèce invasive de minuscules escargots dans les ruisseaux du centre de la Pennsylvanie où la présence des escargots était inconnue. L'escargot de boue envahissant de Nouvelle-Zélande s'est propagé à la côte est après son arrivée dans l'ouest des États-Unis il y a des décennies. Crédit : Edward Levri, Pennsylvania State University-Altoona

Espèces envahissantes, méfiez-vous : vos jours de cachette touchent peut-être à leur fin.

Des biologistes dirigés par l'Université de l'Iowa ont découvert la présence de l'escargot de boue invasif de Nouvelle-Zélande en détectant leur ADN dans les eaux qu'ils habitaient incognito. Les chercheurs ont utilisé une technique appelée ADN environnemental (eDNA) pour révéler l'existence des escargots, montrant que la méthode peut être utilisée pour détecter et contrôler de nouvelles incursions inconnues de l'escargot et d'autres espèces envahissantes.

"L'eDNA a été utilisé avec succès avec d'autres organismes aquatiques, mais c'est la première fois qu'il est appliqué pour détecter une nouvelle population envahissante de ces escargots, qui sont une espèce envahissante destructrice dans les eaux douces du monde entier", explique Maurine Neiman, professeur agrégé au Département de biologie et co-auteur de l'étude. "L'eDNA peut être utilisé pour trouver des organismes à des stades très précoces de l'invasion, de sorte qu'il peut détecter une population même lorsqu'il y a si peu d'organismes que les méthodes traditionnelles ne les trouveraient jamais."

Les biologistes se sont rendus dans le centre de la Pennsylvanie à la recherche de preuves de la présence de l'escargot de boue, qui, pendant des décennies, s'est propagé dans les eaux douces de la zone continentale des États-Unis, commençant dans le nord-ouest, se déplaçant vers les Grands Lacs et migrant maintenant le long de la côte est. Les densités de population des minuscules escargots aquatiques peuvent atteindre plus de 500 000 individus dans un mètre carré, couvrant le fond de l'eau et évinçant les espèces indigènes.

Les chercheurs ont collecté des échantillons sur huit sites répartis sur six rivières du bassin versant de la rivière Susquehanna, qui alimente la baie de Chesapeake et le bassin versant du centre de l'Atlantique. Six des sites n'avaient signalé aucun cas d'escargot de boue, malgré des enquêtes physiques, tandis que les deux autres sites n'avaient pas été étudiés.

Les chercheurs ont utilisé la technique eDNA pour rechercher l'ADN que les escargots laisseraient comme traceurs dans les cellules de la peau ou les déchets corporels. Après tout, ils ont découvert que les escargots étaient là : les résultats de l'eDNA ont confirmé que les escargots de boue se trouvaient sur un site où aucun n'avait été détecté auparavant, et étaient probablement à de faibles niveaux de population sur d'autres sites également.

"Cette étude présente un pas en avant important pour démontrer que l'eDNA peut être appliqué avec succès pour détecter de nouvelles invasions de P. antipodarum et nous permettra de suivre plus précisément et potentiellement d'arrêter l'expansion continue de l'aire de répartition de cette espèce envahissante destructrice", a écrit James Woodell, un chercheur technicien de soutien à l'Université d'Hawaï à Mānoa qui a effectué la recherche alors qu'il était étudiant à la maîtrise en biologie à l'Iowa et est l'auteur correspondant de l'étude.

La technique eDNA a été développée il y a moins d'une décennie. Il a été utilisé pour débusquer les espèces envahissantes, y compris les poissons, les grenouilles et les crustacés, dans les écosystèmes aquatiques. Pour cette étude, les biologistes ont affiné les protocoles de filtrage d'un système d'échantillonnage eDNA existant pour la détection des escargots de boue et l'ont testé pour la première fois sur le terrain.

L'étude, « Matching a snail's pace: Successful use of Environmental DNA techniques to detect early stages of invasion by the destructive New Zealand mud snail », a été publiée en ligne le 1er juin dans la revue Invasions biologiques.


Voir la vidéo: How to Retrieve Upstream,UTRs, Exons, Intron Sequences from a Gene using the UCSC Genome Browser (Février 2023).