
We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Je voudrais m'assurer que mon raisonnement est correct. En supposant que je connaisse la séquence d'acides aminés de la protéine d'intérêt. Je ne peux rien dire sur la structure en regardant uniquement la séquence d'acides aminés de cette protéine. Mais si je connais cette protéine d'un autre organisme et que la structure de cette protéine est connue, alors je peux comparer les deux séquences et conclure quelque chose, n'est-ce pas ? ce que je veux dire, c'est qu'il n'y a pas de séquence spécifique correspondant, par exemple, au motif hélice-deux-tours-hélice, et que je peux prendre cette séquence, vérifier si ma protéine l'a et dire qu'il y a hélice-deux-tours -motif hélice ou non. Je ne peux le faire que par comparaison avec la protéine dont la structure est déjà connue, n'est-ce pas ?
Il me semble que vous posez une question sur la modélisation d'homologie. Dans ce cas, oui, vous devez comparer votre protéine d'intérêt à une protéine (ou des protéines) de structure connue. La modélisation d'homologie en un mot comprend trois (quatre ?) étapes : identification du modèle/alignement du modèle, modélisation, évaluation de la qualité.
Vous commencez par trouver un modèle pour votre modélisation. Cela se fait généralement par alignement de séquences, par exemple BLASTing. De préférence, vous utilisez un alignement de séquences multiples qui aligne de manière plus sensible les régions conservées. Vous voulez ensuite un modèle avec une identité de séquence aussi élevée que possible (au-dessus de 50 % produit généralement des modèles avec environ 1 RMSE [1] dans les atomes de la chaîne principale. Évitez moins de 30 % où les erreurs de modélisation augmentent rapidement.)
Il existe alors un certain nombre de stratégies de modélisation différentes (wikipédia). Mais fondamentalement, ils visent tous à prédire au mieux la structure du noyau protéique conservé (ce qui est généralement ce qui vous intéresse vraiment). Les acides aminés périphériques sont plus dynamiques et plus sujets à l'évolution et sont donc plus difficiles à prévoir. Ensuite, surtout, vous évaluez la qualité de votre modèle. Cela peut être fait en calculant les violations des potentiels statistiques ou des énergies conformationnelles basées sur la physique (ou en utilisant des méthodes plus avancées comme les méthodes de régression multivariée). Comme dans toute modélisation, c'est vraiment une étape cruciale car la prédiction avec un mauvais modèle est trompeuse et totalement inutile.
Si vous ne trouvez pas de modèle, vous pouvez recourir au domaine passionnant de la prédiction de la structure des protéines de novo, où le but est de prédire la structure à partir de la séquence d'acides aminés seule. Je ne connais pas très bien leurs méthodes, mais la prédiction de novo est difficile (!). Je ne me souviens pas de chiffres exacts, mais le nombre de conformations dans une protéine de taille normale est astronomiquement grand, ce qui entraîne de grands défis algorithmiques et informatiques. De plus, sans aucune séquence de référence, les hypothèses du modèle sont supérieures à celles de la modélisation par homologie. Cependant, j'ai entendu dire que le domaine a fait de grands progrès ces dernières années.
Edit : Il m'a semblé que vous vous posiez également des questions sur la reconnaissance des plis protéiques. Il existe un grand nombre d'outils et de méthodes différents pour reconnaître et localiser des domaines protéiques en utilisant la séquence d'acides aminés comme entrée. Beaucoup d'entre eux sont disponibles en tant que serveurs Web. Par exemple, phyre qui utilise le profil d'acides aminés et les structures secondaires prédites pour rechercher des bibliothèques de structures. Méthodes basées sur le thread comme MUSTER. Un nombre basé sur les modèles de Markov cachés (HMM) existe également. Par exemple FISH qui utilise des HMM à ancrage structurel.
L'interaction entre l'ATP, un nucléotide multifonctionnel et omniprésent, et les protéines initialise la phosphorylation, la synthèse des polypeptides et l'hydrolyse de l'ATP qui fournit de l'énergie pour le métabolisme. Cependant, les connaissances actuelles concernant les mécanismes par lesquels l'ATP est reconnu par les protéines sont incomplètes, dispersées et inexactes. Nous étudions systématiquement la séquence et les motifs structurels des protéines qui reconnaissent l'ATP. Nous avons identifié trois nouveaux motifs et affiné les p-boucle et motifs aminoacyl-ARNt synthétase de classe II. Les cinq motifs définissent cinq modes d'interaction ATP-protéine distincts qui concernent plus de 5 % des structures protéiques connues. Nous démontrons que bien que ces motifs partagent un tripeptide GXG commun, ils reconnaissent l'ATP à travers différents groupes fonctionnels. Les p-le motif boucle reconnaît l'ATP par les phosphates, le motif aminoacyl-ARNt synthétase de classe II cible l'adénosine et les trois autres motifs reconnaissent à la fois les phosphates et l'adénosine. Nous montrons que certains motifs sont partagés par différents types d'enzymes. Des tests statistiques démontrent que les cinq motifs de séquence sont significativement associés aux protéines de liaison aux nucléotides. Un test à grande échelle sur PDB révèle qu'environ 98% des protéines qui incluent l'un des motifs structuraux sont confirmées pour se lier à l'ATP.
(A) Amas superposé de structures de sites de liaison à l'ATP qui appartiennent au mode de liaison « aminoacyl-ARNt synthétase de classe II ». (B) Motif structurel identifié par une méthode de clustering pour le mode de liaison « classe II aminoacyl-ARNt synthétase ».
Commentaires du journaliste
Opportunité
Il n'y a aucune indication de la date de la dernière mise à jour du site ou de la version de chacune des bases de données de séquences recherchée.
Meilleure caractéristique
Le site est très simple d'utilisation, et l'intégration des différentes ressources est très utile. On peut créer un motif, rechercher des protéines avec le motif, puis déterminer si elles partagent à leur tour d'autres motifs.
Pire caractéristique
Malheureusement, les résultats sont d'une utilité douteuse. En utilisant l'une de mes protéines préférées - une glycosyltransférase putative de Arabidopsis - l'un des vrais motifs conservés a été enterré dans un fouillis de faux positifs (bien que la page affirme qu'aucun faux positif n'est attendu à cette rigueur). Pire encore, lorsque je suis allé vérifier la description du "vrai hit" dans la base de données BLOCKS à l'aide du lien fourni, j'ai reçu une erreur indiquant qu'un tel BLOCK n'existe pas. Lorsque j'ai utilisé le lien pour lancer un scan EMOTIF, on m'a présenté une liste substantielle de protéines correspondantes, provenant à la fois de SwissPROT et de GenBank. Mais une inspection plus approfondie a révélé qu'un certain nombre de protéines qui auraient dû correspondre au même motif n'étaient pas présentes. En effet, sur les 22 connus Arabidopsis protéines avec ce motif particulier de glycosyltransférase, pas une seule n'était dans la liste - une omission très flagrante. Par souci d'équité, j'ai décidé de tester une autre protéine : une protéine multifonctionnelle impliquée dans la bêta-oxydation des acides gras. Il existe plusieurs domaines très clairs dans cette protéine, qui correspondent aux séquences consensus PROSITE pour ces motifs. Un domaine a été identifié (en fait, 18 fois), mais les autres domaines ne l'ont pas été. Un scan EMOTIF avec plusieurs des correspondances de motifs a de nouveau révélé l'absence de l'un des Arabidopsis séquences contenant ces motifs. Bien que cela ne soit indiqué nulle part sur le site, il semble clair que seul un sous-ensemble de la base de données sur les protéines (ou une très ancienne version) est recherché.
Lorsque j'ai essayé d'autoriser une seule incompatibilité dans l'analyse EMOTIF, pensant qu'une seule incompatibilité d'acides aminés pourrait peut-être entraîner l'omission de certaines protéines, j'ai découvert que cette fonctionnalité était manifestement cassée. Au lieu d'une courte liste de protéines correspondantes avec le motif protéique mis en évidence, la recherche a plutôt commencé à cracher un nombre incroyable de séquences de protéines complètes, sans mise en évidence ni notation.
Il est à noter que le site EMOTIF a subi quelques révisions dans le mois qui a suivi la rédaction de ce rapport. La navigation n'a pas changé et il semble toujours y avoir des problèmes avec les résultats - il est maintenant plus probable qu'aucun résultat ne sera renvoyé que l'utilisateur n'en recevra de faux.
Liste de souhaits
Le site a besoin d'une meilleure documentation pour permettre aux gens de savoir comment fonctionnent les programmes et d'énoncer clairement les limites des outils. J'ai cherché dans la plupart des sites et les seules pages d'aide que j'ai pu trouver concernaient la construction d'EMOTIF à partir d'alignements de séquences multiples.
Sites Web connexes
Il n'y a aucune indication de la date de la dernière mise à jour du site ou de la version de chacune des bases de données de séquences recherchée.
Deux meilleurs sites pour les recherches de motifs sont les serveurs BLOCKS et la base de données PROSITE des familles et domaines de protéines.
Prédiction du domaine protéique
Les domaines protéiques sont des arrangements d'éléments de structure secondaires, qui confèrent une fonction biologique. Les protéines complexes ont évolué par un assemblage mix-and-match de domaines individuels ou en concaténant plusieurs unités du même domaine ensemble. Les domaines ont une fonction similaire dans différents organismes et l'organisation des domaines protéiques conduit à des indications sur la fonction des protéines. L'un des motifs les plus répandus est une "hélice-tour-hélice", qui suggère que votre protéine est capable de lier l'ADN dans une certaine mesure.
Exemples de programmes prédisant des domaines spécifiques :
Banc d'analyse de séquences de protéines PSIPRED – incluant la structure secondaire et la prédiction de protéines désordonnées
Phobius – segments hélicoïdaux transmembranaires et séquences signal
COILS – prédiction des régions coiled-coil, caractéristiques des protéines structurelles ou des protéines impliquées dans la régulation de la transcription
Motifs de conservation - une nouvelle classification des protéines basée sur l'évolution
Les modèles de conservation des protéines inter-espèces, tels que dirigés par la sélection naturelle, sont révélateurs de l'interaction entre la fonction des protéines, l'interaction protéine-protéine et l'évolution. Depuis le début de l'ère génomique, les protéines ont été caractérisées comme conservées ou non conservées. Cette classification simple est devenue archaïque et sommaire une fois que les données sur les orthologues des protéines sont devenues disponibles pour des milliers d'espèces.
Pour enrichir le langage utilisé pour décrire les modèles de conservation des protéines et pour comprendre leur signification biologique, nous avons classé 20 294 protéines humaines contre 1096 espèces. Les analyses des modèles de conservation des protéines humaines dans différents clades eucaryotes ont donné des modèles extrêmement variables et riches qui n'avaient jamais été caractérisés ou étudiés auparavant. À l'aide de classifications mathématiques, nous avons défini sept motifs de conservation : Étapes, Critique, Développement récent, Plateau, Perte de clade, Perte de traits et Gagner, qui décrivent l'évolution des protéines humaines.
Un type de motif, que nous avons appelé Gagner, décrit les protéines humaines qui sont hautement conservées dans un petit nombre d'organismes mais ne se trouvent pas dans la plupart des autres espèces. Fait intéressant, ce modèle prédit 73 cas possibles de transfert horizontal de gènes chez les eucaryotes.
Dans l'ensemble, notre travail propose de nouveaux termes pour les modèles de conservation et définit un nouveau langage destiné à classer les protéines en fonction de l'évolution, à révéler des aspects de l'évolution des protéines et à améliorer la compréhension des fonctions des protéines.
Comment reconnaître un motif conservé de la protéine - Biologie
Bonjour Nicolas, Merci beaucoup pour toutes ces informations. Les méthodes bioinformatiques II étaient peu difficiles mais comprises après avoir répété les discussions entre garçons. Merci beaucoup.
J'apprécie beaucoup ces séries de cours, je tiens à remercier le Pr Provart et ses collègues pour leur excellent travail de préparation et de présentation de ces séries. Merci beaucoup!
Dans ce module, nous explorerons les régions conservées au sein des familles de protéines. De telles régions peuvent nous aider à comprendre la biologie d'une séquence, dans la mesure où elles sont probablement importantes pour la fonction biologique, et peuvent également être utilisées pour aider à attribuer une fonction à des séquences où nous ne pouvons identifier aucun homologue dans les bases de données. Il existe différentes manières de décrire les régions conservées, des simples expressions régulières aux profils en passant par les modèles de Markov cachés (HMM).
Реподаватели
Nicolas James Provart
Екст идео
Très bien, dans le laboratoire d'aujourd'hui, nous examinons les motifs dans les protéines. Et souvent, la présence de ces motifs peut nous renseigner sur la fonction biologique d'une protéine donnée, surtout si nous ne pouvons trouver aucune homologie avec des séquences dans la base de données. Nous commençons donc à utiliser la base de données de domaines conservés au NCBI. Et, la question 1a demande quelles sont les bases de données sources qui composent le CDD, et cela devrait être assez facile à trouver dans la section d'aide. La question 1b porte sur la taille de la protéine BRCA2. Il est assez gros, plus de 3 000 acides aminés de long. La question 1c demande ensuite combien de domaines protéiques distincts BRCA2 possède-t-il. Et si nous comptons simplement le nombre d'accessions uniques, ou d'identifiants dans cette section ici. Nous verrons qu'il y a cinq domaines différents présents. La question 1d demande combien y a-t-il de domaines de répétition BRCA2 ? Et il y a huit de ces choses. Ce sont donc les taches vertes dans cette région de la protéine ici. D'accord. Ensuite, nous explorons ce qu'on appelle le CDART, qui est l'outil de récupération d'architecture de domaine conservé. Et cet outil vous permettra d'identifier des protéines qui ont des architectures de domaine similaires, c'est-à-dire une composition de domaines similaire à celle de votre protéine d'intérêt. Ils ne doivent donc pas nécessairement être homologues. Il devrait juste avoir les mêmes éléments constitutifs que notre protéine d'intérêt. [TOUX] La question 1e demande combien d'espèces eucaryotes contiennent la région répétée BRCA2. Région BRCA2 contenant OB1, OB2, OB3, mais manque en réalité de la région de répétition BRCA2, qui est désignée dans CDART par BRCA2. Nous pouvons utiliser l'outil de filtrage pour spécifier cela en incluant et en excluant ces deux domaines, et nous voyons qu'il existe plusieurs protéines qui manquent réellement de la région répétée, la région répétée BRCA2, mais contiennent les domaines OB1, OB2, OB3. Et cela suggérerait que ces domaines peuvent en fait fonctionner indépendamment les uns des autres. Ainsi, un domaine n'a pas besoin d'être là pour que l'autre fonctionne. Ainsi, ils remplissent probablement des fonctions indépendantes. Ainsi, le prochain outil ou la prochaine base de données que nous explorons est SMART. Et SMART scannera à nouveau une séquence protéique pour la présence de régions connues, de domaines ou de régions répétitives. Nous identifierons également les régions répétitives. Ou des peptides signaux, tous ces types de signaux dans des protéines qui sont importantes pour la fonction, et lorsque nous introduisons BRCA2 dans SMART, nous voyons qu'il n'y a en fait pas de peptides signaux ou de domaines transmembranaires. Donc, il ne semble pas être associé à, cela suggérerait qu'il n'est pas associé à la membrane et qu'il n'est pas ciblé sur un compartiment subcellulaire particulier. La question 1h demande combien de régions de faible complexité BRCA2 possède-t-il ? Et ce que nous recherchons ici, ce sont ces régions de faible complexité. Et nous les comptons simplement dans la liste. Cela vous aidera donc à répondre à l'une des questions du quiz. [TOUX] La prochaine base de données que nous explorons est Pfam et nous voici, encore une fois, en train d'alimenter nos séquences. Et demander combien de domaines protéiques différents Pfam identifie-t-il. Et là encore, nous en voyons cinq comme nous l'avons fait avec CDD. Encore une fois, nous voyons huit des répétitions BRCA2, ainsi que ces autres domaines uniques à cette extrémité. Donc, c'est agréable de voir la congruence entre la recherche CDD et Pfam. Ainsi, la question j demande si nous voyons ou non le domaine de répétition BRCA se produire dans les protéines orthologues non BRCA2. Donc, c'est un peu comme le retournement de la recherche que nous avons fait avec CDART. Où nous recherchions la présence des domaines de répétition non BRCA dans d'autres protéines en l'absence de la répétition BRCA. Donc, ici, nous faisons le contraire, nous demandons si la répétition BRCA se produit ou non dans les protéines orthologues non BRCA2. Et ce que nous pouvons faire, c'est simplement faire défiler la sortie graphique de notre recherche Pfam, et nous voyons qu'il y a des cas où nous voyons les répétitions BRCA dans les protéines, mais nous ne voyons pas ces autres régions ici. Cela indique donc à nouveau - confirme - que les deux domaines peuvent agir indépendamment, vraisemblablement indépendamment l'un de l'autre, avoir des fonctions différentes. qu'ils n'ont pas besoin d'être présents pour fonctionner ensemble. C'est donc un fait important. Et puis la question k demande, pouvons-nous dire quelque chose d'intéressant sur les espèces qui possèdent strictement les répétitions BRCA et aucun autre domaine de type BRCA2 et il semble y avoir une assez grande diversité d'espèces. Ainsi, il n'est pas limité à une espèce en particulier. D'accord. Voyons maintenant les séquences qui entrent dans la définition de la répétition BRCA2. Il s'agit du numéro d'entrée Pfam PF00634. Et si nous prenons toutes ces séquences qui se trouvent dans diverses séquences qui sont dans les bases de données, nous pouvons voir que la position la mieux conservée dans ce HMM pour cette répétition BRCA2 est en fait cette position ici. Position sept. Et c'est une phénylalanine. Il est presque entièrement conservé. Il y a un peu de variation, mais c'est presque toujours une phénylalanine à cette position. Si vous faites défiler vers la droite, vous trouverez ici la réponse à une autre question du quiz. [TOUX] Donc, la question m demande, comment ce HMM a-t-il été construit pour la répétition BRCA2. Et nous pouvons réellement voir les commandes, les commandes UNIX, qui ont été émises dans la version autonome de HMMer pour créer ce HMM. Et nous n'utilisons pas cela, mais il est bon de savoir que nous pouvons revenir aux commandes réelles qui ont été utilisées pour construire ce HMM. Ainsi, la dernière partie du laboratoire traite de l'utilisation d'InterProScan. Et comme je l'ai mentionné dans la conférence, InterPro est une collection globale de tous ces différents motifs et domaines qui ont été rassemblés dans une base de données principale. Et cela rend très facile la recherche de nombreuses bases de données différentes avec l'outil InterProScan. Et la question n demande, les résultats de notre InterProScan pour BRCA2 sont-ils congruents avec ceux de la recherche CDD ? Et la réponse est encore une fois oui, nous voyons une congruence. Voici donc les répétitions du BRCA. Il y en a huit plus ces autres domaines qui se trouvent vers l'extrémité C-terminale de la protéine BRCA2. Et l'une des questions du quiz demandait s'il y avait ou non un motif Prosite identifié et contenu dans l'InterPro. Et ce que nous recherchons ici, c'est la présence d'un désignateur PS sur les identifiants d'accession ici, donc s'il y a un PS, cela signifie Prosite, le motif vient de Prosite. Cela devrait donc vous aider à répondre à cette question du quiz. Très bien, à la fin du premier laboratoire de méthodes bioinformatiques II, vous devriez savoir pourquoi nous sommes intéressés par la recherche de motifs et de profils dans les séquences. Vous devez connaître les avantages et les inconvénients de représenter les éléments structurels dans les séquences protéiques sous forme de motifs, voire de profils, ce qui est légèrement mieux. Vous devriez être capable de générer un motif en fonction d'un alignement spécifique. Vous devriez également être capable de comprendre comment noter une séquence donnée avec une matrice de notation spécifique à une position donnée, PSSM, et vous devriez également être capable d'utiliser CDD, CDART, SMART, Pfam et InterProScan pour identifier des unités fonctionnelles spécifiques dans la séquence de protéines
Comment reconnaître un motif conservé de la protéine - Biologie
Bonjour Nicolas, Merci beaucoup pour toutes ces informations. Les méthodes bioinformatiques II étaient peu difficiles mais comprises après avoir répété les discussions entre garçons. Merci beaucoup.
J'apprécie beaucoup ces séries de cours, je tiens à remercier le Pr Provart et ses collègues pour leur excellent travail de préparation et de présentation de ces séries. Merci beaucoup!
Dans ce module, nous explorerons les régions conservées au sein des familles de protéines. De telles régions peuvent nous aider à comprendre la biologie d'une séquence, dans la mesure où elles sont probablement importantes pour la fonction biologique, et peuvent également être utilisées pour aider à attribuer une fonction à des séquences où nous ne pouvons identifier aucun homologue dans les bases de données. Il existe différentes manières de décrire les régions conservées, des simples expressions régulières aux profils en passant par les modèles de Markov cachés (HMM).
Реподаватели
Nicolas James Provart
Екст идео
[MUSIQUE] Très bien, bienvenue dans Bioinformatic Methods II. Je suis votre instructeur Nicholas Provart. Le matériel de cours pour ce cours a été développé par Ryan Austin, David Guttman, Laura Hug, Momoko Price et moi-même. Et le cours a été produit par Jamie Waese, Rohan Patel, William Heikoop et encore moi-même. Pour rappel, veuillez utiliser les outils Coursera pour discuter du contenu du cours et des travaux pratiques. Le format du cours et le programme sont les suivants. Le cours couvrira la recherche de motifs, les interactions protéine-protéine, la bioinformatique structurelle, l'expression des gènes, l'analyse des données et la prédiction des éléments cis. La plupart des outils utilisés pour l'exploration sont basés sur le Web. Semaine 1, nous couvrirons les motifs protéiques. Semaine 2, nous couvrirons les interactions protéine-protéine. Semaine 3, structure des protéines. Semaine 4 et 5, analyse de l'expression génique et semaine 6, éléments cis-régulateurs. Le matériel hebdomadaire se compose de mini-conférences d'environ 20 minutes et de courtes vidéos d'introduction et de résumé de 2 minutes. Ensuite, il y a les laboratoires hebdomadaires qui vous prendront environ 1 à 2 heures à faire, puis il y a des quiz de laboratoire associés à ceux-ci, des quiz de laboratoire assez courts. Il existe également une vidéo de discussion de laboratoire en ligne facultative que vous pouvez regarder pour vous aider à travailler dans le laboratoire. Et il y a deux quiz de section. Un après les trois premières semaines de matériel et l'autre à la fin du cours. Enfin, nous terminerons avec un devoir, qui est dû à la fin du cours. Je dois ajouter qu'il n'est pas nécessaire d'avoir suivi les méthodes bioinformatiques I pour ce cours de méthodes bioinformatiques II. Cela aiderait mais ce n'est pas nécessaire. Très bien, donc cette semaine, nous faisons une analyse de motifs et de profils et nous parlerons de motifs et de profils et de HMM de profil. Et touchez à un outil appelé HMMer et à une base de données de profils et de motifs. Alors pourquoi voulons-nous des motifs et des profils ? Pourquoi nous soucions-nous d'eux ? La raison en est que la divergence, la divergence évolutive, donne naissance à des familles de séquences. Des familles de protéines données ont des éléments structuraux apparentés nécessaires à la fonction biologique. Et il y a des contraintes strictes sur la composition en acides aminés et l'orientation nécessaire pour, par exemple, la géométrie correcte du site actif. Cependant, la divergence de séquence peut entraîner l'identification d'aucun homologue. Mais les éléments structurels peuvent toujours être présents et nous pouvons les utiliser pour déduire une fonction si nous ne pouvons pas identifier un homologue. Et aussi avoir le modèle des éléments structurels peut permettre un meilleur alignement d'un nouveau membre de la famille de séquences. Ce sont également des motifs de séquence qui peuvent être présents dans les promoteurs des gènes. Et ceux-ci sont nécessaires à la liaison des facteurs de transcription et d'autres protéines régulatrices. Et nous en discuterons plus en détail dans le laboratoire des éléments cis au cours de la semaine 6. Très bien, nous commencerons par des motifs qui sont également appelés motifs ou règles. Et c'est l'approche la plus simple pour l'identification des éléments structurels. Un exemple de base de données pour les motifs est Prosite. Donc, étant donné un alignement, voici un exemple d'alignement ici. Nous pouvons commencer à voir que certains résidus au sein de l'alignement sont conservés ou au moins semi-conservés. Par exemple, à la deuxième position, on voit dans l'aspartate qui semble être conservé. Et puis à la 4ème position, on voit une glycine qui semble être absolument conservée. Nous pouvons utiliser l'ensemble de règles suivant pour créer ou dériver un motif. Et les modèles de Prosite sont décrits en utilisant ces règles. Tout d'abord, nous utilisons le code à une lettre standard IUPAC pour les acides aminés. Nous utilisons un X pour désigner une position où n'importe quel acide aminé est accepté. Nous désignons les ambiguïtés entre parenthèses carrées. Donc, si nous voyons quelque chose qui ressemble à ceci, cela signifie qu'une alanine, une leucine ou une thréonine est autorisée à cette position. Des ambiguïtés plus générales utilisent une paire d'accolades pour indiquer ce qui est interdit à cette position. Ainsi, par exemple, ce
The interaction between a protein and DNA is involved in almost all cellular functions, and is vitally important in cellular processes. Two complementary approaches are used to detect the interactions between a transcription factor (TF) and DNA, i.e. the TF-centered or protein–DNA approach, and the gene-centered or DNA–protein approach. The yeast one-hybrid (Y1H) is a powerful and widely used system to identify DNA–protein interactions. However, a powerful method to study protein–DNA interactions like Y1H is lacking. Here, we developed a protein–DNA method based on the Y1H system to identify the motifs recognized by a defined TF, termed TF-centered Y1H. In this system, a random short DNA sequence insertion library was generated as the prey DNA sequences to interact with a defined TF as the bait. Using this system, novel interactions were detected between DNA motifs and the AtbZIP53 protein from Arabidopsis. We identified six motifs that were specifically bound by AtbZIP53, including five known motifs (DOF, G-box, I-box, BS1 and MY3) and a novel motif BRS1 [basic leucine zipper (bZIP) Recognized Site 1]. The different subfamily bZIP members also recognize these six motifs, further confirming the reliability of the TF-centered Y1H results. Taken together, these results demonstrated that TF-centered Y1H could identify quickly the motifs bound by a defined TF, representing a reliable and efficient approach with the advantages of Y1H. Therefore, this TF-centered Y1H may have a wide application in protein–DNA interaction studies. Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution. There are many structural elements (motifs) that are conserved among different proteins. For example carbohydrates can be attached to the amino acid asparagine in proteins through N-glycosylation sites which are indicated by the consensus sequence Asn-Xaa-Ser/Thr. The first amino acid is Asparagine (Asn), the second amino acid can be any of the 20 amino acids (Xaa), and the third amino acid is either Serine (Ser) or Threonine (Thr). However, just because this consensus sequence appears does not mean that the site is glycosylated. You can also look for more complex motifs or domains, such as enzyme active sites and receptor binding sites. We will look at four different programs. CDART: gives an interactive graphical display of conserved motifs in a protein
A novel method to identify the DNA motifs recognized by a defined transcription factor
How to recognize a conserved motifs of the protein - Biology
The following three can be accessed through BIOLOGY WORKBENCH.
PROSITE analyzes a protein sequence for known motifs
RPSBLAST performs a blast search of your sequence vs. a database of conserved domainsBLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity
CDART: Conserved Domain Architecture Retrieval Tool. This program gives an interactive graphical display of the conserved motifs found in an amino acid sequence. You can click on each domain to learn more about its properties and consensus sequence. The program also provides graphical displays of all known proteins containing at least one of the domains found in your protein. One drawback is that this program only reports major domains, and not smaller motifs, and has fairly brief descriptions. It is a good place to start, but the programs described below under BIOLOGY WORKBENCH are more descriptive and thorough.
1. The program PROSITE analyzes a protein sequence for these known motifs and gives a description of each. This is useful when analyzing the sequence of a new protein to try to gain clues to its function.
Enter the amino acid sequence that you wish to analyze or the accession number of the protein and press Start the Scan . You will be given an output which lists several motifs present in the protein, indicating the sequence that was identified and its position in the protein. Each will also contain a link to more information on that particular motif.
For example the sequence being analyzed has potential N-glycosylation sites at amino acids 233 and 556. By clicking on PDOC00001 more information on N-glycosylation will be provided.
Other motifs are more complex and can include sites that bind cofactors or substrates (active site). Such information would be valuable in identifying the function of a protein.
2. RPSBLAST performs a blast search of your sequence vs. a database of conserved domains in families of proteins. Your sequence is compared to the consensus sequence of many families of proteins to look for a match. This is very useful in identifying which family your protein belongs to, especially over larger domains.
For example, if we sumbitted a serine protease we would get the following matches.
If we click on the link smart00020 we would learn about the consensus sequenced used, information on the family of proteins, and other sequences which are closely aligned to our sequence. There is a new 3D imaging program which allows one to view the aligned sequences. This is not loaded on our computer, but we can view it as an html image.
3. BLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity. A protein may overall have relatively low similarity to another protein, but if it has high similarity in specific important regions it may have the same activity and be a homologous protein. BLIMPS compares a protein or nucleic acid sequence against an the BLOCKS database of conserved protein motifs. The scores for high scoring BLOCKS found within the query sequence are totalled and a family classification is made based on the total score for each block found in the query sequence. Individual block scores are listed beneath the family classification along with the highest scoring alignments.
For example, the protein below matched 3 out of 3 blocks for the conserved sequence of an active site of a serine protease.
Voir la vidéo: Miksi hiilihydraatit ovat tärkeitä? (Février 2023).