Informations

Comment reconnaître un motif conservé de la protéine

Comment reconnaître un motif conservé de la protéine


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je voudrais m'assurer que mon raisonnement est correct. En supposant que je connaisse la séquence d'acides aminés de la protéine d'intérêt. Je ne peux rien dire sur la structure en regardant uniquement la séquence d'acides aminés de cette protéine. Mais si je connais cette protéine d'un autre organisme et que la structure de cette protéine est connue, alors je peux comparer les deux séquences et conclure quelque chose, n'est-ce pas ? ce que je veux dire, c'est qu'il n'y a pas de séquence spécifique correspondant, par exemple, au motif hélice-deux-tours-hélice, et que je peux prendre cette séquence, vérifier si ma protéine l'a et dire qu'il y a hélice-deux-tours -motif hélice ou non. Je ne peux le faire que par comparaison avec la protéine dont la structure est déjà connue, n'est-ce pas ?


Il me semble que vous posez une question sur la modélisation d'homologie. Dans ce cas, oui, vous devez comparer votre protéine d'intérêt à une protéine (ou des protéines) de structure connue. La modélisation d'homologie en un mot comprend trois (quatre ?) étapes : identification du modèle/alignement du modèle, modélisation, évaluation de la qualité.

Vous commencez par trouver un modèle pour votre modélisation. Cela se fait généralement par alignement de séquences, par exemple BLASTing. De préférence, vous utilisez un alignement de séquences multiples qui aligne de manière plus sensible les régions conservées. Vous voulez ensuite un modèle avec une identité de séquence aussi élevée que possible (au-dessus de 50 % produit généralement des modèles avec environ 1 RMSE [1] dans les atomes de la chaîne principale. Évitez moins de 30 % où les erreurs de modélisation augmentent rapidement.)

Il existe alors un certain nombre de stratégies de modélisation différentes (wikipédia). Mais fondamentalement, ils visent tous à prédire au mieux la structure du noyau protéique conservé (ce qui est généralement ce qui vous intéresse vraiment). Les acides aminés périphériques sont plus dynamiques et plus sujets à l'évolution et sont donc plus difficiles à prévoir. Ensuite, surtout, vous évaluez la qualité de votre modèle. Cela peut être fait en calculant les violations des potentiels statistiques ou des énergies conformationnelles basées sur la physique (ou en utilisant des méthodes plus avancées comme les méthodes de régression multivariée). Comme dans toute modélisation, c'est vraiment une étape cruciale car la prédiction avec un mauvais modèle est trompeuse et totalement inutile.

Si vous ne trouvez pas de modèle, vous pouvez recourir au domaine passionnant de la prédiction de la structure des protéines de novo, où le but est de prédire la structure à partir de la séquence d'acides aminés seule. Je ne connais pas très bien leurs méthodes, mais la prédiction de novo est difficile (!). Je ne me souviens pas de chiffres exacts, mais le nombre de conformations dans une protéine de taille normale est astronomiquement grand, ce qui entraîne de grands défis algorithmiques et informatiques. De plus, sans aucune séquence de référence, les hypothèses du modèle sont supérieures à celles de la modélisation par homologie. Cependant, j'ai entendu dire que le domaine a fait de grands progrès ces dernières années.


Edit : Il m'a semblé que vous vous posiez également des questions sur la reconnaissance des plis protéiques. Il existe un grand nombre d'outils et de méthodes différents pour reconnaître et localiser des domaines protéiques en utilisant la séquence d'acides aminés comme entrée. Beaucoup d'entre eux sont disponibles en tant que serveurs Web. Par exemple, phyre qui utilise le profil d'acides aminés et les structures secondaires prédites pour rechercher des bibliothèques de structures. Méthodes basées sur le thread comme MUSTER. Un nombre basé sur les modèles de Markov cachés (HMM) existe également. Par exemple FISH qui utilise des HMM à ancrage structurel.


L'interaction entre l'ATP, un nucléotide multifonctionnel et omniprésent, et les protéines initialise la phosphorylation, la synthèse des polypeptides et l'hydrolyse de l'ATP qui fournit de l'énergie pour le métabolisme. Cependant, les connaissances actuelles concernant les mécanismes par lesquels l'ATP est reconnu par les protéines sont incomplètes, dispersées et inexactes. Nous étudions systématiquement la séquence et les motifs structurels des protéines qui reconnaissent l'ATP. Nous avons identifié trois nouveaux motifs et affiné les p-boucle et motifs aminoacyl-ARNt synthétase de classe II. Les cinq motifs définissent cinq modes d'interaction ATP-protéine distincts qui concernent plus de 5 % des structures protéiques connues. Nous démontrons que bien que ces motifs partagent un tripeptide GXG commun, ils reconnaissent l'ATP à travers différents groupes fonctionnels. Les p-le motif boucle reconnaît l'ATP par les phosphates, le motif aminoacyl-ARNt synthétase de classe II cible l'adénosine et les trois autres motifs reconnaissent à la fois les phosphates et l'adénosine. Nous montrons que certains motifs sont partagés par différents types d'enzymes. Des tests statistiques démontrent que les cinq motifs de séquence sont significativement associés aux protéines de liaison aux nucléotides. Un test à grande échelle sur PDB révèle qu'environ 98% des protéines qui incluent l'un des motifs structuraux sont confirmées pour se lier à l'ATP.

(A) Amas superposé de structures de sites de liaison à l'ATP qui appartiennent au mode de liaison « aminoacyl-ARNt synthétase de classe II ». (B) Motif structurel identifié par une méthode de clustering pour le mode de liaison « classe II aminoacyl-ARNt synthétase ».


Commentaires du journaliste

Opportunité

Il n'y a aucune indication de la date de la dernière mise à jour du site ou de la version de chacune des bases de données de séquences recherchée.

Meilleure caractéristique

Le site est très simple d'utilisation, et l'intégration des différentes ressources est très utile. On peut créer un motif, rechercher des protéines avec le motif, puis déterminer si elles partagent à leur tour d'autres motifs.

Pire caractéristique

Malheureusement, les résultats sont d'une utilité douteuse. En utilisant l'une de mes protéines préférées - une glycosyltransférase putative de Arabidopsis - l'un des vrais motifs conservés a été enterré dans un fouillis de faux positifs (bien que la page affirme qu'aucun faux positif n'est attendu à cette rigueur). Pire encore, lorsque je suis allé vérifier la description du "vrai hit" dans la base de données BLOCKS à l'aide du lien fourni, j'ai reçu une erreur indiquant qu'un tel BLOCK n'existe pas. Lorsque j'ai utilisé le lien pour lancer un scan EMOTIF, on m'a présenté une liste substantielle de protéines correspondantes, provenant à la fois de SwissPROT et de GenBank. Mais une inspection plus approfondie a révélé qu'un certain nombre de protéines qui auraient dû correspondre au même motif n'étaient pas présentes. En effet, sur les 22 connus Arabidopsis protéines avec ce motif particulier de glycosyltransférase, pas une seule n'était dans la liste - une omission très flagrante. Par souci d'équité, j'ai décidé de tester une autre protéine : une protéine multifonctionnelle impliquée dans la bêta-oxydation des acides gras. Il existe plusieurs domaines très clairs dans cette protéine, qui correspondent aux séquences consensus PROSITE pour ces motifs. Un domaine a été identifié (en fait, 18 fois), mais les autres domaines ne l'ont pas été. Un scan EMOTIF avec plusieurs des correspondances de motifs a de nouveau révélé l'absence de l'un des Arabidopsis séquences contenant ces motifs. Bien que cela ne soit indiqué nulle part sur le site, il semble clair que seul un sous-ensemble de la base de données sur les protéines (ou une très ancienne version) est recherché.

Lorsque j'ai essayé d'autoriser une seule incompatibilité dans l'analyse EMOTIF, pensant qu'une seule incompatibilité d'acides aminés pourrait peut-être entraîner l'omission de certaines protéines, j'ai découvert que cette fonctionnalité était manifestement cassée. Au lieu d'une courte liste de protéines correspondantes avec le motif protéique mis en évidence, la recherche a plutôt commencé à cracher un nombre incroyable de séquences de protéines complètes, sans mise en évidence ni notation.

Il est à noter que le site EMOTIF a subi quelques révisions dans le mois qui a suivi la rédaction de ce rapport. La navigation n'a pas changé et il semble toujours y avoir des problèmes avec les résultats - il est maintenant plus probable qu'aucun résultat ne sera renvoyé que l'utilisateur n'en recevra de faux.

Liste de souhaits

Le site a besoin d'une meilleure documentation pour permettre aux gens de savoir comment fonctionnent les programmes et d'énoncer clairement les limites des outils. J'ai cherché dans la plupart des sites et les seules pages d'aide que j'ai pu trouver concernaient la construction d'EMOTIF à partir d'alignements de séquences multiples.

Sites Web connexes

Il n'y a aucune indication de la date de la dernière mise à jour du site ou de la version de chacune des bases de données de séquences recherchée.

Deux meilleurs sites pour les recherches de motifs sont les serveurs BLOCKS et la base de données PROSITE des familles et domaines de protéines.


Prédiction du domaine protéique

Les domaines protéiques sont des arrangements d'éléments de structure secondaires, qui confèrent une fonction biologique. Les protéines complexes ont évolué par un assemblage mix-and-match de domaines individuels ou en concaténant plusieurs unités du même domaine ensemble. Les domaines ont une fonction similaire dans différents organismes et l'organisation des domaines protéiques conduit à des indications sur la fonction des protéines. L'un des motifs les plus répandus est une "hélice-tour-hélice", qui suggère que votre protéine est capable de lier l'ADN dans une certaine mesure.

Exemples de programmes prédisant des domaines spécifiques :

Banc d'analyse de séquences de protéines PSIPRED – incluant la structure secondaire et la prédiction de protéines désordonnées

Phobius – segments hélicoïdaux transmembranaires et séquences signal

COILS – prédiction des régions coiled-coil, caractéristiques des protéines structurelles ou des protéines impliquées dans la régulation de la transcription


Motifs de conservation - une nouvelle classification des protéines basée sur l'évolution

Les modèles de conservation des protéines inter-espèces, tels que dirigés par la sélection naturelle, sont révélateurs de l'interaction entre la fonction des protéines, l'interaction protéine-protéine et l'évolution. Depuis le début de l'ère génomique, les protéines ont été caractérisées comme conservées ou non conservées. Cette classification simple est devenue archaïque et sommaire une fois que les données sur les orthologues des protéines sont devenues disponibles pour des milliers d'espèces.

Pour enrichir le langage utilisé pour décrire les modèles de conservation des protéines et pour comprendre leur signification biologique, nous avons classé 20 294 protéines humaines contre 1096 espèces. Les analyses des modèles de conservation des protéines humaines dans différents clades eucaryotes ont donné des modèles extrêmement variables et riches qui n'avaient jamais été caractérisés ou étudiés auparavant. À l'aide de classifications mathématiques, nous avons défini sept motifs de conservation : Étapes, Critique, Développement récent, Plateau, Perte de clade, Perte de traits et Gagner, qui décrivent l'évolution des protéines humaines.

Un type de motif, que nous avons appelé Gagner, décrit les protéines humaines qui sont hautement conservées dans un petit nombre d'organismes mais ne se trouvent pas dans la plupart des autres espèces. Fait intéressant, ce modèle prédit 73 cas possibles de transfert horizontal de gènes chez les eucaryotes.

Dans l'ensemble, notre travail propose de nouveaux termes pour les modèles de conservation et définit un nouveau langage destiné à classer les protéines en fonction de l'évolution, à révéler des aspects de l'évolution des protéines et à améliorer la compréhension des fonctions des protéines.


Comment reconnaître un motif conservé de la protéine - Biologie

Bonjour Nicolas, Merci beaucoup pour toutes ces informations. Les méthodes bioinformatiques II étaient peu difficiles mais comprises après avoir répété les discussions entre garçons. Merci beaucoup.

J'apprécie beaucoup ces séries de cours, je tiens à remercier le Pr Provart et ses collègues pour leur excellent travail de préparation et de présentation de ces séries. Merci beaucoup!

Dans ce module, nous explorerons les régions conservées au sein des familles de protéines. De telles régions peuvent nous aider à comprendre la biologie d'une séquence, dans la mesure où elles sont probablement importantes pour la fonction biologique, et peuvent également être utilisées pour aider à attribuer une fonction à des séquences où nous ne pouvons identifier aucun homologue dans les bases de données. Il existe différentes manières de décrire les régions conservées, des simples expressions régulières aux profils en passant par les modèles de Markov cachés (HMM).

Реподаватели

Nicolas James Provart

Екст идео

Très bien, dans le laboratoire d'aujourd'hui, nous examinons les motifs dans les protéines. Et souvent, la présence de ces motifs peut nous renseigner sur la fonction biologique d'une protéine donnée, surtout si nous ne pouvons trouver aucune homologie avec des séquences dans la base de données. Nous commençons donc à utiliser la base de données de domaines conservés au NCBI. Et, la question 1a demande quelles sont les bases de données sources qui composent le CDD, et cela devrait être assez facile à trouver dans la section d'aide. La question 1b porte sur la taille de la protéine BRCA2. Il est assez gros, plus de 3 000 acides aminés de long. La question 1c demande ensuite combien de domaines protéiques distincts BRCA2 possède-t-il. Et si nous comptons simplement le nombre d'accessions uniques, ou d'identifiants dans cette section ici. Nous verrons qu'il y a cinq domaines différents présents. La question 1d demande combien y a-t-il de domaines de répétition BRCA2 ? Et il y a huit de ces choses. Ce sont donc les taches vertes dans cette région de la protéine ici. D'accord. Ensuite, nous explorons ce qu'on appelle le CDART, qui est l'outil de récupération d'architecture de domaine conservé. Et cet outil vous permettra d'identifier des protéines qui ont des architectures de domaine similaires, c'est-à-dire une composition de domaines similaire à celle de votre protéine d'intérêt. Ils ne doivent donc pas nécessairement être homologues. Il devrait juste avoir les mêmes éléments constitutifs que notre protéine d'intérêt. [TOUX] La question 1e demande combien d'espèces eucaryotes contiennent la région répétée BRCA2. Région BRCA2 contenant OB1, OB2, OB3, mais manque en réalité de la région de répétition BRCA2, qui est désignée dans CDART par BRCA2. Nous pouvons utiliser l'outil de filtrage pour spécifier cela en incluant et en excluant ces deux domaines, et nous voyons qu'il existe plusieurs protéines qui manquent réellement de la région répétée, la région répétée BRCA2, mais contiennent les domaines OB1, OB2, OB3. Et cela suggérerait que ces domaines peuvent en fait fonctionner indépendamment les uns des autres. Ainsi, un domaine n'a pas besoin d'être là pour que l'autre fonctionne. Ainsi, ils remplissent probablement des fonctions indépendantes. Ainsi, le prochain outil ou la prochaine base de données que nous explorons est SMART. Et SMART scannera à nouveau une séquence protéique pour la présence de régions connues, de domaines ou de régions répétitives. Nous identifierons également les régions répétitives. Ou des peptides signaux, tous ces types de signaux dans des protéines qui sont importantes pour la fonction, et lorsque nous introduisons BRCA2 dans SMART, nous voyons qu'il n'y a en fait pas de peptides signaux ou de domaines transmembranaires. Donc, il ne semble pas être associé à, cela suggérerait qu'il n'est pas associé à la membrane et qu'il n'est pas ciblé sur un compartiment subcellulaire particulier. La question 1h demande combien de régions de faible complexité BRCA2 possède-t-il ? Et ce que nous recherchons ici, ce sont ces régions de faible complexité. Et nous les comptons simplement dans la liste. Cela vous aidera donc à répondre à l'une des questions du quiz. [TOUX] La prochaine base de données que nous explorons est Pfam et nous voici, encore une fois, en train d'alimenter nos séquences. Et demander combien de domaines protéiques différents Pfam identifie-t-il. Et là encore, nous en voyons cinq comme nous l'avons fait avec CDD. Encore une fois, nous voyons huit des répétitions BRCA2, ainsi que ces autres domaines uniques à cette extrémité. Donc, c'est agréable de voir la congruence entre la recherche CDD et Pfam. Ainsi, la question j demande si nous voyons ou non le domaine de répétition BRCA se produire dans les protéines orthologues non BRCA2. Donc, c'est un peu comme le retournement de la recherche que nous avons fait avec CDART. Où nous recherchions la présence des domaines de répétition non BRCA dans d'autres protéines en l'absence de la répétition BRCA. Donc, ici, nous faisons le contraire, nous demandons si la répétition BRCA se produit ou non dans les protéines orthologues non BRCA2. Et ce que nous pouvons faire, c'est simplement faire défiler la sortie graphique de notre recherche Pfam, et nous voyons qu'il y a des cas où nous voyons les répétitions BRCA dans les protéines, mais nous ne voyons pas ces autres régions ici. Cela indique donc à nouveau - confirme - que les deux domaines peuvent agir indépendamment, vraisemblablement indépendamment l'un de l'autre, avoir des fonctions différentes. qu'ils n'ont pas besoin d'être présents pour fonctionner ensemble. C'est donc un fait important. Et puis la question k demande, pouvons-nous dire quelque chose d'intéressant sur les espèces qui possèdent strictement les répétitions BRCA et aucun autre domaine de type BRCA2 et il semble y avoir une assez grande diversité d'espèces. Ainsi, il n'est pas limité à une espèce en particulier. D'accord. Voyons maintenant les séquences qui entrent dans la définition de la répétition BRCA2. Il s'agit du numéro d'entrée Pfam PF00634. Et si nous prenons toutes ces séquences qui se trouvent dans diverses séquences qui sont dans les bases de données, nous pouvons voir que la position la mieux conservée dans ce HMM pour cette répétition BRCA2 est en fait cette position ici. Position sept. Et c'est une phénylalanine. Il est presque entièrement conservé. Il y a un peu de variation, mais c'est presque toujours une phénylalanine à cette position. Si vous faites défiler vers la droite, vous trouverez ici la réponse à une autre question du quiz. [TOUX] Donc, la question m demande, comment ce HMM a-t-il été construit pour la répétition BRCA2. Et nous pouvons réellement voir les commandes, les commandes UNIX, qui ont été émises dans la version autonome de HMMer pour créer ce HMM. Et nous n'utilisons pas cela, mais il est bon de savoir que nous pouvons revenir aux commandes réelles qui ont été utilisées pour construire ce HMM. Ainsi, la dernière partie du laboratoire traite de l'utilisation d'InterProScan. Et comme je l'ai mentionné dans la conférence, InterPro est une collection globale de tous ces différents motifs et domaines qui ont été rassemblés dans une base de données principale. Et cela rend très facile la recherche de nombreuses bases de données différentes avec l'outil InterProScan. Et la question n demande, les résultats de notre InterProScan pour BRCA2 sont-ils congruents avec ceux de la recherche CDD ? Et la réponse est encore une fois oui, nous voyons une congruence. Voici donc les répétitions du BRCA. Il y en a huit plus ces autres domaines qui se trouvent vers l'extrémité C-terminale de la protéine BRCA2. Et l'une des questions du quiz demandait s'il y avait ou non un motif Prosite identifié et contenu dans l'InterPro. Et ce que nous recherchons ici, c'est la présence d'un désignateur PS sur les identifiants d'accession ici, donc s'il y a un PS, cela signifie Prosite, le motif vient de Prosite. Cela devrait donc vous aider à répondre à cette question du quiz. Très bien, à la fin du premier laboratoire de méthodes bioinformatiques II, vous devriez savoir pourquoi nous sommes intéressés par la recherche de motifs et de profils dans les séquences. Vous devez connaître les avantages et les inconvénients de représenter les éléments structurels dans les séquences protéiques sous forme de motifs, voire de profils, ce qui est légèrement mieux. Vous devriez être capable de générer un motif en fonction d'un alignement spécifique. Vous devriez également être capable de comprendre comment noter une séquence donnée avec une matrice de notation spécifique à une position donnée, PSSM, et vous devriez également être capable d'utiliser CDD, CDART, SMART, Pfam et InterProScan pour identifier des unités fonctionnelles spécifiques dans la séquence de protéines


Comment reconnaître un motif conservé de la protéine - Biologie

Bonjour Nicolas, Merci beaucoup pour toutes ces informations. Les méthodes bioinformatiques II étaient peu difficiles mais comprises après avoir répété les discussions entre garçons. Merci beaucoup.

J'apprécie beaucoup ces séries de cours, je tiens à remercier le Pr Provart et ses collègues pour leur excellent travail de préparation et de présentation de ces séries. Merci beaucoup!

Dans ce module, nous explorerons les régions conservées au sein des familles de protéines. De telles régions peuvent nous aider à comprendre la biologie d'une séquence, dans la mesure où elles sont probablement importantes pour la fonction biologique, et peuvent également être utilisées pour aider à attribuer une fonction à des séquences où nous ne pouvons identifier aucun homologue dans les bases de données. Il existe différentes manières de décrire les régions conservées, des simples expressions régulières aux profils en passant par les modèles de Markov cachés (HMM).

Реподаватели

Nicolas James Provart

Екст идео

[MUSIQUE] Très bien, bienvenue dans Bioinformatic Methods II. Je suis votre instructeur Nicholas Provart. Le matériel de cours pour ce cours a été développé par Ryan Austin, David Guttman, Laura Hug, Momoko Price et moi-même. Et le cours a été produit par Jamie Waese, Rohan Patel, William Heikoop et encore moi-même. Pour rappel, veuillez utiliser les outils Coursera pour discuter du contenu du cours et des travaux pratiques. Le format du cours et le programme sont les suivants. Le cours couvrira la recherche de motifs, les interactions protéine-protéine, la bioinformatique structurelle, l'expression des gènes, l'analyse des données et la prédiction des éléments cis. La plupart des outils utilisés pour l'exploration sont basés sur le Web. Semaine 1, nous couvrirons les motifs protéiques. Semaine 2, nous couvrirons les interactions protéine-protéine. Semaine 3, structure des protéines. Semaine 4 et 5, analyse de l'expression génique et semaine 6, éléments cis-régulateurs. Le matériel hebdomadaire se compose de mini-conférences d'environ 20 minutes et de courtes vidéos d'introduction et de résumé de 2 minutes. Ensuite, il y a les laboratoires hebdomadaires qui vous prendront environ 1 à 2 heures à faire, puis il y a des quiz de laboratoire associés à ceux-ci, des quiz de laboratoire assez courts. Il existe également une vidéo de discussion de laboratoire en ligne facultative que vous pouvez regarder pour vous aider à travailler dans le laboratoire. Et il y a deux quiz de section. Un après les trois premières semaines de matériel et l'autre à la fin du cours. Enfin, nous terminerons avec un devoir, qui est dû à la fin du cours. Je dois ajouter qu'il n'est pas nécessaire d'avoir suivi les méthodes bioinformatiques I pour ce cours de méthodes bioinformatiques II. Cela aiderait mais ce n'est pas nécessaire. Très bien, donc cette semaine, nous faisons une analyse de motifs et de profils et nous parlerons de motifs et de profils et de HMM de profil. Et touchez à un outil appelé HMMer et à une base de données de profils et de motifs. Alors pourquoi voulons-nous des motifs et des profils ? Pourquoi nous soucions-nous d'eux ? La raison en est que la divergence, la divergence évolutive, donne naissance à des familles de séquences. Des familles de protéines données ont des éléments structuraux apparentés nécessaires à la fonction biologique. Et il y a des contraintes strictes sur la composition en acides aminés et l'orientation nécessaire pour, par exemple, la géométrie correcte du site actif. Cependant, la divergence de séquence peut entraîner l'identification d'aucun homologue. Mais les éléments structurels peuvent toujours être présents et nous pouvons les utiliser pour déduire une fonction si nous ne pouvons pas identifier un homologue. Et aussi avoir le modèle des éléments structurels peut permettre un meilleur alignement d'un nouveau membre de la famille de séquences. Ce sont également des motifs de séquence qui peuvent être présents dans les promoteurs des gènes. Et ceux-ci sont nécessaires à la liaison des facteurs de transcription et d'autres protéines régulatrices. Et nous en discuterons plus en détail dans le laboratoire des éléments cis au cours de la semaine 6. Très bien, nous commencerons par des motifs qui sont également appelés motifs ou règles. Et c'est l'approche la plus simple pour l'identification des éléments structurels. Un exemple de base de données pour les motifs est Prosite. Donc, étant donné un alignement, voici un exemple d'alignement ici. Nous pouvons commencer à voir que certains résidus au sein de l'alignement sont conservés ou au moins semi-conservés. Par exemple, à la deuxième position, on voit dans l'aspartate qui semble être conservé. Et puis à la 4ème position, on voit une glycine qui semble être absolument conservée. Nous pouvons utiliser l'ensemble de règles suivant pour créer ou dériver un motif. Et les modèles de Prosite sont décrits en utilisant ces règles. Tout d'abord, nous utilisons le code à une lettre standard IUPAC pour les acides aminés. Nous utilisons un X pour désigner une position où n'importe quel acide aminé est accepté. Nous désignons les ambiguïtés entre parenthèses carrées. Donc, si nous voyons quelque chose qui ressemble à ceci, cela signifie qu'une alanine, une leucine ou une thréonine est autorisée à cette position. Des ambiguïtés plus générales utilisent une paire d'accolades pour indiquer ce qui est interdit à cette position. Ainsi, par exemple, ce signifie que tout acide aminé, à l'exception de l'alanine ou de la méthionine, est autorisé à cette position. Maintenant, chaque élément du motif est séparé à l'aide d'un tiret. Ce n'est pas une règle absolue, la répétition est indiquée à l'aide de valeurs numériques ou d'une plage numérique entre parenthèses. Ainsi, x 3 par exemple serait je veux dire trois X, x 2 virgule 4 signifierait que vous pourriez avoir deux X d'affilée, trois X d'affilée ou quatre X d'affilée. Les motifs à l'extrémité N ou C-terminale de la séquence peuvent être indiqués à l'aide de cette flèche pointant vers la gauche ou du symbole pointant vers la droite supérieur à, respectivement. Et une période termine le schéma qui n'est pas non plus toujours observé. Très bien, pour en revenir à notre alignement, nous utilisons ces règles pour dériver un motif, que nous pouvons voir ici. Et nous lirions ce motif comme une alanine ou une sérine en première position, suivie d'un aspartate absolument conservé suivi de IV ou L, suivi d'une glycine absolument conservée, N'importe lequel des quatre acides aminés, tout sauf la proline ou la glycine, suivi de une cystéine absolument conservée puis D ou E, l'arginine. N'importe laquelle de la phénylalanine ou de la tyrosine, deux fois, puis se retrouve avec une glutamine. Ainsi, un exemple réel serait le doigt de zinc C2H2. Et ici, nous voyons deux cystéines absolument conservées, qui sont des ligands du zinc, ainsi que les deux histidines absolument conservées, qui sont également des ligands du zinc, puis cette sorte de région d'espacement intermédiaire. Le problème avec l'approche par motif est qu'il n'y a pas de correspondance partielle. Ainsi, par exemple, si nous recherchons avec une séquence évolutivement divergente et essayons d'identifier les doigts de zinc C2H2. Si cette séquence n'a pas l'un de ces acides aminés dans la région d'espacement, elle ne sera pas trouvée lors d'une recherche dans la base de données. Cela nous amène donc à la prochaine manière de marquer des modèles et cela utilise des profils et nous sommes également appelés matrices de notation spécifiques à la position ou PSSM. Donc ici, nous avons un autre alignement de cinq séquences. Un, deux, trois, quatre cinq et il y a cinq positions dans cet alignement, cinq colonnes. Nous construisons donc une matrice de tous les acides aminés sur les lignes ici, la cystéine, la lysine, l'histidine, la sérine, etc. Et puis à chaque position dans la matrice, les positions correspondent aux colonnes d'alignement. Nous enregistrons simplement la valeur, le nombre de fois que nous voyons une cystéine ou une glycine ou une histidine à cette position. Ainsi, dans la première colonne, nous avons quatre des cinq acides aminés qui sont des cystéines. Nous avons donc mis une probabilité d'observer une cystéine dans cette position de 0,8. Et une probabilité d'observer une glycine de 0,2. Et nous le faisons pour tous les postes. Nous pouvons donc utiliser ce profil, ce PSSM, pour noter une séquence donnée, pour noter une séquence donnée quant à sa correspondance avec le profil. Donc si on nous donne une séquence, donc ici CGGSV, on peut calculer un score basé sur le profil que l'on a pour elle simplement en multipliant les probabilités d'observer un C à la première position par la probabilité d'observer un G à la seconde. position, un G à la troisième position, un S à la quatrième position et un V à la cinquième position pour arriver à un score global de 0,031. Cela semble donc être une bonne chose. On peut en effet prendre en compte l'abondance de certains acides aminés à des positions données. Une certaine latitude est donnée lors de la création des profils en termes de suppressions et de pondérations attribuées aux acides aminés improbables, etc. Mais ce sont toutes sortes de réglages qui doivent être effectués manuellement et cela nous conduit à un nouveau type de profil basé sur des modèles de Markov cachés. En passant, j'aimerais introduire des logos de séquence pour permettre la visualisation des résidus conservés. Donc, ce que nous regardons ici, même si vous ne pouvez rien voir, c'est un ensemble de séquences qui sont en commun entre les trioses phosphates isomérases. Cela provient d'une base de données de profils et nous voyons qu'il y a de la phénylalanine en première position, des tryptophanes ici en quelque sorte au milieu et ainsi de suite. Mais même si nous ajoutons de la couleur pour désigner les résidus qui ont les mêmes propriétés physico-chimiques, il est vraiment difficile de dire quels résidus sont conservés et à quel point ils sont conservés. Nous pourrions ramasser cette lysine ici à cette position ici, la bande rouge. Mais sinon, c'est un peu difficile, nous pouvons donc utiliser ce qu'on appelle des logos de séquence pour y parvenir de manière visuelle. Et là, c'est un logo séquence de cet alignement et ce que l'on voit en fait c'est qu'il y a conservation absolue à la de la lysine à la 7ème position, semi-conservation de l'asparagine à la cinquième position. Et ce tryptophane est ici aussi un peu conservé en sixième position. Or, la hauteur des lettres de ce logo de séquence est déterminée par la conservation, telle que mesurée par l'entropie. Et nous utilisons quelque chose appelé le score de bits pour calculer cela et le score de bits est calculé en fonction de cette équation ici. Fondamentalement, nous additionnons pour chaque acide aminé à une position donnée. Nous calculons la fréquence de cet acide aminé et nous la multiplions par le log 2 de la fréquence de cet acide aminé à cette position, puis nous additionnons tous les acides aminés à une position donnée. Et nous soustrayons cette valeur du log 2 de 20 dans le cas des séquences protéiques, des séquences d'acides aminés, il y a 20 acides aminés, et dans le cas des séquences nucléotidiques, nous soustrairons en fait la valeur d'entropie, la valeur d'entropie de Shannon, de la valeur log 2 sur quatre car il y a quatre nucléotides différents. Donc, la valeur maximale que vous pouvez avoir les résidus absolument conservés comme c'est le cas de ce résidu de lysine à la position 7 est de 4,32, alors gardez cela à l'esprit. L'autre avantage des logos de séquence est que vous pouvez lire une séquence de consensus en lisant simplement la lettre supérieure de chaque pile. Les lettres sont ordonnées dans chaque pile en fonction de leur abondance dans l'alignement des acides aminés à la position de colonne donnée. Donc, pour lire la séquence de consensus, nous lirons simplement la première lettre de chaque colonne. W V M G N W K M N G T et cela nous donnera la séquence consensus pour cet alignement particulier. Nous pouvons donc les utiliser pour examiner des éléments de biologie et examiner par exemple le complexe de liaison CAP-ADN. Nous voyons qu'il y a certains résidus sur la séquence d'ADN que cette protéine CAP reconnaît et ceux-ci sont visibles ici. Nous avons besoin d'un T G T G A et d'un T C A C A à cette position, puis de ceux-ci en terme de correspondance avec les résidus sur la structure de la protéine. ces résidus sur la structure de la protéine se lient à ces résidus d'ADN. Et nous voyons la conservation de ces résidus protéiques en termes de région de liaison à l'ADN du motif hélice-tour-hélice. Dans le cas des sites TATA de levure, nous voyons qu'il semble bien qu'il s'agisse d'un motif TATA. C'est le début de la transcription dans les promoteurs de levure, pour les promoteurs de levure. Certains sites au sein de la boîte TATA sont mieux conservés que d'autres. Par exemple, le deuxième A semble être une exigence absolue. On peut aussi voir dans le cas des jonctions d'épissage intron-exon que le signal est en fait assez faible. Il semble qu'il y ait une exigence de G et T à la première et à la deuxième position de l'intron, et A et G à la dernière position de l'intron. Et puis il y a cette polypyrimidine piégée ici vers l'extrémité trois premiers de l'intron qui est également requise. Mais là encore, ce n'est pas un signal très fort. Nous voyons également ici une exigence d'une certaine spécificité nucléotidique à l'extrémité 3 de l'exon. Nous revenons donc maintenant aux modèles de Markov cachés, et les modèles de Markov cachés ou HMM offrent une approche plus systématique pour estimer les paramètres du modèle. Si nous essayons de décrire un modèle structurel spécifique. It's a dynamic kind of statistical profile and as with an ordinary profile, we can build it by analyzing the distribution of the amino acids in the training set of related proteins of an alignment. However, an HMM has more complex topology than a profile. So rather than just having a matrix of values, we can use a finite state machine to represent not only the values at a given position but also the ability to transition into different states, so an insert state or delete state. And this little cartoon here just shows the kinds of states the hidden states that can exist within a model in terms of a finite state machine. In the case of a sequence HMM typically we have a certain number of match states for each position in the alignment that's well conserved / not gappy. And then we also have insert states as denoted by these characters here and then we also have delete states denoted by the circles. And to generate a sequence once we've created this HMM, we can actually generate a sequence by moving through the HMM starting at the beginning and then transitioning in any number of ways into either an insert state or a match state or a delete state. And the transition probabilities can all be described based on the data that we use to generate the HMM. And the emission probabilities associated with the match states and the insert states are also described based on the data that we use to generate the HMM. So this is sort of a cartoon of what a sequence HMM would look like. In the case of a real alignment, something like this where we have eight match states, we would basically for each match state in the sequence alignment where we have more than 50% of residues at each position, that's how we determine the number of match states with a simple heuristic here. there are more sophisticated ways of doing this, we would compute the frequency of each residue at each match state. So in this first column, for instance, we have one two, three, four five valines plus phenylalanine plus an isoleucine. And in the match state emission probability series, we would have the highest probability of emitting a valine at this given position followed by isoleucine and phenylalanine. We typically add in a very small probability of emitting other amino acids at a given position so that we can still use the HMM to score sequences rationally, and as I mentioned before we also capture the transition probabilities between states. So the transition probabilities here are denoted by the width of the arrows. So the vast majority of the the sequences don't contain any insertions or deletions. And so the transition would be typically in this direction. However, we can at some points transition into delete state or insert state. We would need to transition into an insert state to generate this sequence. Or to generate this sequence, we need to transition into a delete state, and then we finish up at the end. And then we can use this HMM using the Viterbi algorithm, sort of beyond the scope of this course. But we can use this model of sequence properties, alignment properties to then score any given sequence as to whether or not it matches the HMM or how well it matches the HMM. A database of profile HMMs is Pfam. And it encompasses a large collection of multiple sequence alignments, which are then used to generate a large collection of hidden Markov models. The current iteration encompasses around 18,000 protein families. A Pfam is formed in two separate ways. There are two flavours of Pfam models. Pfam-A HMMs are based on fairly accurate human-crafted multiple sequence alignments, whereby Pfam-B models are based on an automated clustering of the rest of SWISS-PROT using a program called Domainer. Pfam-A uses high-quality seed alignments to build HMMs and then additional sequences are added to generate a final set of aligned sequences. And the seeds for those alignments are honed by iterative methods. So there are issues. HMMs sound great and sounds like they've solved all our problems. They allow gaps. They allow deletions. However, it's a linear model and it's unable to capture a higher order correlations among amino acids in a protein molecule. So for instance, amino acids which are far apart in the linear chain, but which may be in proximity to each other when the protein folds, those interactions between, those amino acids, the dependencies can't be predicted with a linear model. And for HMMs, we assume that any amino acid in the sequence is independent of the probability of its neighbours. And this may not always be true. So in the case of a hydrophobic core of proteins, hydrophobic amino acids are likely to appear in proximity to each other. And so researchers have developed new kinds of statistical models and neural nets, hybrid HMMs, dynamic Bayesian nets, factorial HMMs, and so on. But for the purpose of this course, we're just going to explore HMMs and they really are quite useful. So in today's lab, we'll use several domain, motif, profile HMM databases and tools to examine a representative sequence. We'll look at the CDD, Conserved Domain Database. You should consider what was used to generate the CDD. We'll use CDART to identify conserved domain architectures. We'll look at SMART, which is Simple Modular Architecture Research Tool, look at Pfam. And if there's, actually, we won't be looking at HMMer, but there is a suite of tools for generating profile HMMs if you're interested in exploring that on your own. Interproscan offers a convenient way to search Pfam and other profile and motif databases. It's not completely comprehensive, but it's a really good starting place to scan for sequence patterns in a protein of unknown function if you can't find a homolog. All right, well, I hope you enjoy the lab and I'll see you in a bit.


A novel method to identify the DNA motifs recognized by a defined transcription factor

The interaction between a protein and DNA is involved in almost all cellular functions, and is vitally important in cellular processes. Two complementary approaches are used to detect the interactions between a transcription factor (TF) and DNA, i.e. the TF-centered or protein–DNA approach, and the gene-centered or DNA–protein approach. The yeast one-hybrid (Y1H) is a powerful and widely used system to identify DNA–protein interactions. However, a powerful method to study protein–DNA interactions like Y1H is lacking. Here, we developed a protein–DNA method based on the Y1H system to identify the motifs recognized by a defined TF, termed TF-centered Y1H. In this system, a random short DNA sequence insertion library was generated as the prey DNA sequences to interact with a defined TF as the bait. Using this system, novel interactions were detected between DNA motifs and the AtbZIP53 protein from Arabidopsis. We identified six motifs that were specifically bound by AtbZIP53, including five known motifs (DOF, G-box, I-box, BS1 and MY3) and a novel motif BRS1 [basic leucine zipper (bZIP) Recognized Site 1]. The different subfamily bZIP members also recognize these six motifs, further confirming the reliability of the TF-centered Y1H results. Taken together, these results demonstrated that TF-centered Y1H could identify quickly the motifs bound by a defined TF, representing a reliable and efficient approach with the advantages of Y1H. Therefore, this TF-centered Y1H may have a wide application in protein–DNA interaction studies.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


How to recognize a conserved motifs of the protein - Biology

There are many structural elements (motifs) that are conserved among different proteins. For example carbohydrates can be attached to the amino acid asparagine in proteins through N-glycosylation sites which are indicated by the consensus sequence Asn-Xaa-Ser/Thr. The first amino acid is Asparagine (Asn), the second amino acid can be any of the 20 amino acids (Xaa), and the third amino acid is either Serine (Ser) or Threonine (Thr). However, just because this consensus sequence appears does not mean that the site is glycosylated. You can also look for more complex motifs or domains, such as enzyme active sites and receptor binding sites.

We will look at four different programs.

CDART: gives an interactive graphical display of conserved motifs in a protein

The following three can be accessed through BIOLOGY WORKBENCH.

PROSITE analyzes a protein sequence for known motifs

RPSBLAST performs a blast search of your sequence vs. a database of conserved domains

BLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity

CDART: Conserved Domain Architecture Retrieval Tool. This program gives an interactive graphical display of the conserved motifs found in an amino acid sequence. You can click on each domain to learn more about its properties and consensus sequence. The program also provides graphical displays of all known proteins containing at least one of the domains found in your protein. One drawback is that this program only reports major domains, and not smaller motifs, and has fairly brief descriptions. It is a good place to start, but the programs described below under BIOLOGY WORKBENCH are more descriptive and thorough.

1. The program PROSITE analyzes a protein sequence for these known motifs and gives a description of each. This is useful when analyzing the sequence of a new protein to try to gain clues to its function.

Enter the amino acid sequence that you wish to analyze or the accession number of the protein and press Start the Scan . You will be given an output which lists several motifs present in the protein, indicating the sequence that was identified and its position in the protein. Each will also contain a link to more information on that particular motif.

For example the sequence being analyzed has potential N-glycosylation sites at amino acids 233 and 556. By clicking on PDOC00001 more information on N-glycosylation will be provided.

Other motifs are more complex and can include sites that bind cofactors or substrates (active site). Such information would be valuable in identifying the function of a protein.

2. RPSBLAST performs a blast search of your sequence vs. a database of conserved domains in families of proteins. Your sequence is compared to the consensus sequence of many families of proteins to look for a match. This is very useful in identifying which family your protein belongs to, especially over larger domains.

For example, if we sumbitted a serine protease we would get the following matches.

If we click on the link smart00020 we would learn about the consensus sequenced used, information on the family of proteins, and other sequences which are closely aligned to our sequence. There is a new 3D imaging program which allows one to view the aligned sequences. This is not loaded on our computer, but we can view it as an html image.

3. BLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity. A protein may overall have relatively low similarity to another protein, but if it has high similarity in specific important regions it may have the same activity and be a homologous protein. BLIMPS compares a protein or nucleic acid sequence against an the BLOCKS database of conserved protein motifs. The scores for high scoring BLOCKS found within the query sequence are totalled and a family classification is made based on the total score for each block found in the query sequence. Individual block scores are listed beneath the family classification along with the highest scoring alignments.

For example, the protein below matched 3 out of 3 blocks for the conserved sequence of an active site of a serine protease.


Voir la vidéo: Miksi hiilihydraatit ovat tärkeitä? (Février 2023).