Informations

Comment puis-je récupérer des séquences nucléotidiques en fonction des numéros d'accession et des positions ENA ?

Comment puis-je récupérer des séquences nucléotidiques en fonction des numéros d'accession et des positions ENA ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai une liste de numéros d'accession ENA et une position de début et de fin dans chaque séquence. En fin de compte, je veux aligner toutes ces séquences, mais je dois d'abord les récupérer et la liste est trop longue pour le faire manuellement.

Existe-t-il un outil ou un script pouvant récupérer toutes ces entrées d'une base de données et extraire le sous-ensemble correct de la séquence ?


J'éditerai ceci si vous mettez à jour votre question avec plus d'informations, mais pour le moment je suppose que vous avez accès à un système Linux/Unix et que votre fichier d'accessions ressemble à ceci :

A00145.1 123 456

Où la première colonne est l'accession et les deux suivantes sont le début et la fin de la région d'intérêt. Ainsi, en utilisant la même approche de base que la réponse de WYSIWIG, vous pouvez combiner cela avecfastasubseqdu disculper suite d'outils (sur les systèmes basés sur Debian, qui incluent Ubuntu et Mint, vous pouvez installer en exécutantsudo apt-get install exonérer). Copiez/collez simplement ceci dans votre terminal :

pendant la lecture acc début fin; do wget -q -O "$acc".fa "http://www.ebi.ac.uk/ena/data/view/$acc&display=fasta" && fastasubseq "$acc".fa $start $end > $ acc.$start-$end.fa rm "$acc".fa done < list.txt

Avec l'exemple ci-dessus, cette commande va créer un fichier appeléA00145.1.123-456.faqui contient la sous-séquence deA00145.1des positions 123 à 456. Puisqu'il doit d'abord télécharger la séquence entière, il crée également le fichier temporaireA00145.1.faqui est supprimé parrm "$acc".fa. Si vous souhaitez conserver le fichier, supprimez simplement lermligne.

Si vous ne pouvez pas installerdisculper, vous pouvez également extraire la sous-séquence manuellement mais c'est un peu plus complexe :

pendant la lecture acc début fin; do wget -q -O "$acc".fa "http://www.ebi.ac.uk/ena/data/view/$acc&display=fasta" && awk -v st=$start -v end=$end '{ if($1~/>/){print}else{s=s$0}}END{print substr(s,st,end) }' $acc.fa | fold -w 60 > "$acc.$start-$end.fa" && rm "$acc".fa done < list.txt

Je pense qu'expliquer ces scriptlets en détail n'est pas dans le champ d'application ici, mais je serais heureux de le faire si vous postez une question sur unix et linux.


De l'ENA

Pour récupérer les résultats par un identifiant unique pour tous les enregistrements autres que Taxon et Project, veuillez utiliser la syntaxe d'URL suivante :

http://www.ebi.ac.uk/ena/data/view/

Par exemple, l'URL suivante renvoie l'entrée EMBL-Bank avec le numéro d'accès A00145 au format HTML : http://www.ebi.ac.uk/ena/data/view/A00145

Vérifie ça.

Si vous utilisez un système *nix (tel que Linux, Unix ou OSX), vous pouvez le faire :

[ siliste.txtcontient tous vos identifiants ]

pour i dans 'cat list.txt'; do wget -q -O $i".fa" "http://www.ebi.ac.uk/ena/data/view/"$i"&display=fasta" ; terminé

OU SINON

Téléchargez l'intégralité de la base de données et récupérez les séquences en fonction de vos identifiants, hors ligne. Vous pouvez utiliser votre langage de programmation préféré pour récupérer des séquences. [Je préfère awk mais python est aussi bon]


Voir la vidéo: Concours ENA 2021 (Février 2023).