Informations

Système d'entrée de ligne à entrée moléculaire simplifié

Système d'entrée de ligne à entrée moléculaire simplifié


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

C'est peut-être une question un peu abrupte/vague, mais je ne savais pas comment procéder à la recherche pour obtenir la réponse.
Quelles sont les propriétés d'une biomolécule 3D qui sont ignorées lorsqu'une biomolécule 3D est convertie en représentation 1D dans SMILES (système d'entrée de ligne d'entrée moléculaire simplifié) ? deux propriétés que j'ai trouvées qui sont négligées sont les liens, les propriétés d'interaction. Par propriétés, j'entendais le nombre d'isomères, le seuil d'isomères, etc. Y a-t-il d'autres propriétés qui sont négligées ?


UNE 3D modèle d'une (bio)moelcule représente une physique en 3 dimensions. Pour une structure expérimentale, chaque atome a une coordonnée 3D (x, y, z) et, si elle est déterminée par cristallographie, un facteur B supplémentaire isotrope ou aniosotrope (qui modélise les fluctuations de l'atome).

Un SOURIRE « 1D » n'est pas un physique Représentation unidimensionnelle et peut être convertie en un graphique (mathématiques) représentant la structure chimique. La spécification de SMILES POUVEZ conserver des informations sur les isomères de structure, les stéréoisomères (cis/trans ; D/L), mais pas les conformères/rotomères, qui, contrairement aux structures chimiques plus petites, EST limité à certaines régions favorables pour les plus grosses biomolécules.

Par "liaison", si vous entendez une liaison chimique telle qu'une liaison disulfure, alors SMILES peut conserver ces informations. Par "interactions", si vous entendez les liaisons hydrogène, les ponts salins et même les interactions hydrophobes, etc., alors SMILES ne code pas ces informations, mais un modèle 3D non plus explicitement - ils sont implicites à partir des coordonnées 3D de chaque atome .

Ainsi, en passant d'un modèle 3D à SMILES, vous perdriez

  1. Longueur de liaison et angle de liaison inhabituels : ils sont nécessairement spécifiés à partir des coordonnées 3D, mais dans SMILES (ou le graphique suivant), ils sont considérés comme « idéaux ».

  2. Facteur B ou facteur de température

  3. Rotomères : par ex. Les protéines ont des angles dièdres favorisés dans le squelette et les chaînes latérales, ce qui n'est pas spécifié dans SMILES.

  4. « Interactions » : certaines interactions intramoléculaires inévitables (par exemple, le salicylaldéhyde) sont impliquées à la fois dans SMILES et dans un modèle 3D. La plupart des autres ne peuvent être déduits que dans le modèle 3D.


Système d'entrée de ligne à entrée moléculaire simplifiée

Les système d'entrée de ligne à entrée moléculaire simplifiée ou SOURIRE est une spécification sous la forme d'une notation linéaire pour décrire la structure des molécules chimiques à l'aide de courtes chaînes ASCII. Les chaînes SMILES peuvent être importées par la plupart des éditeurs de molécules pour être reconverties en dessins bidimensionnels ou en modèles tridimensionnels des molécules.

La spécification originale SMILES a été développée par Arthur Weininger et David Weininger à la fin des années 1980. L'Environmental Protection Agency a financé le projet initial de développement de SMILES. Il a depuis été modifié et étendu par d'autres, notamment par Daylight Chemical Information Systems Inc. En 2007, un standard ouvert appelé "OpenSMILES" a été développé par la communauté de chimie open-source Blue Obelisk. D'autres notations « linéaires » incluent la notation de ligne de Wiswesser (WLN), ROSDAL et SLN (Tripos Inc).

En juillet 2006, l'IUPAC a introduit l'InChI comme norme de représentation des formules. SMILES est généralement considéré comme ayant l'avantage d'être légèrement plus lisible par l'homme que InChI, il dispose également d'une large base de support logiciel avec un support théorique étendu (par exemple, la théorie des graphes).

Citations célèbres contenant les mots système et/ou simplifié :

&lquo En rien l'esclavage n'a été aussi sauvage et implacable que dans sa tentative de destruction des instincts familiaux de la race noire en Amérique. Les individus, pas les abris familiaux, pas les maisons de troupeau, pas les mariages, étaient les péchés cardinaux dans ce système d'horreurs. &rdquo
&mdashFannie Barrier Williams (1855 & 1501944)

&ldquo j'ai simplifié ma politique en une détestation totale de tous les gouvernements existants et, comme c'est le sentiment le plus court, le plus agréable et le plus sommaire qu'on puisse imaginer, le premier moment d'une république universelle me convertirait en un avocat du despotisme unique et non contredit. Le fait est que les richesses sont le pouvoir, et la pauvreté est l'esclavage sur toute la terre, et une sorte d'établissement n'est ni meilleure ni pire pour un peuple qu'une autre. &rdquo
&mdashGeorge Gordon Noel Byron (1788�)


Résumé

Une étude de la relation quantitative structure-activité (QSAR) basée sur un descripteur du système d'entrée de ligne d'entrée moléculaire simplifié (SMILES) a été réalisée sur un ensemble d'inhibiteurs de la protéase du VIH afin d'explorer les fonctionnalités structurelles pour l'inhibition de la protéase du VIH. À cette fin, un ensemble d'inhibiteurs du VIH a été collecté dans la littérature avec leurs constantes d'inhibition. Le logiciel CORAL basé sur l'optimisation Monte Carlo a été utilisé pour le développement du modèle QSAR. Premièrement, l'ensemble de données a été divisé en trois divisions aléatoires et deuxièmement, chaque division a été divisée en ensembles d'entraînement, d'étalonnage, de test et de validation. Un ensemble d'apprentissage a été utilisé pour le développement du modèle tandis que le reste des ensembles a été utilisé pour évaluer la qualité des modèles développés. Des modèles QSAR ont été développés avec et sans prise en compte de l'influence des anneaux cycliques sur l'activité inhibitrice. La qualité statistique des modèles QSAR développés à partir de toutes les divisions était très bonne et remplissait les critères. Les valeurs de R 2 , Q 2 , s, R 2 pred et r 2 m a expliqué que les modèles sélectionnés sont de nature robuste et suffisamment efficaces pour prédire l'activité inhibitrice des molécules en dehors de l'ensemble d'apprentissage. Les paramètres statistiques suggèrent également que la présence de cycles cycliques a un impact crucial sur l'activité inhibitrice. Les fragments moléculaires se sont avérés importants pour l'augmentation ou la diminution de l'activité inhibitrice, ce qui explique que les modèles ont une interprétation mécaniste. Cette étude QSAR basée sur un ligand peut fournir des orientations claires pour concevoir et moduler des inhibiteurs potentiels de la protéase du VIH.


Tutoriel SOURIRE

SOURIRE (Ssimplifié Moléculaire jeentrée Liné Entry System) est une notation chimique qui permet à un utilisateur de représenter une structure chimique d'une manière qui peut être utilisée par l'ordinateur. SOURIRE est une notation facile à apprendre et flexible. Les SOURIRE la notation exige que vous appreniez une poignée de règles. Vous n'avez pas à vous soucier des représentations ambiguës car le logiciel réorganisera automatiquement votre entrée dans un SOURIRE chaîne si nécessaire.

SOURIRE a été développé grâce au financement de la U.S. Environmental Protection Agency, Mid-Continent Ecology Division-Duluth, (MED-Duluth) Duluth, MN au projet de chimie médicinale au Pomona College, Claremont, CA et à la Computer Sciences Corporation, Duluth, MN. Plusieurs publications discutent SOURIRE plus en détail, y compris Anderson et al. 1987, Weininger 1988, Weininger et al. 1989, et Hunter et al., 1987.

SOURIRE a cinq règles de syntaxe de base qui doivent être respectées. Si les règles de base de la chimie ne sont pas suivies dans SOURIRE saisie, le système avertira l'utilisateur et demandera que la structure soit modifiée ou saisie à nouveau. Par exemple, si l'utilisateur place trop de liaisons sur un atome, un SOURIRE un avertissement apparaîtra que la structure est impossible. Les règles sont décrites ci-dessous et quelques exemples sont fournis. Les règles ci-dessous permettent la représentation d'une structure bidimensionnelle d'un produit chimique. Pour le système ASTER, une représentation en deux dimensions est adéquate. D'autres règles sont disponibles pour les produits chimiques qui sont des isomères structuraux, mais ne seront pas abordées dans ce didacticiel de base.

Règle 1 : Atomes et liaisons

SOURIRE prend en charge tous les éléments du tableau périodique. Un atome est représenté à l'aide de son symbole atomique respectif. Les lettres majuscules désignent les atomes non aromatiques, les lettres minuscules désignent les atomes aromatiques. Si le symbole atomique a plus d'une lettre, la deuxième lettre doit être en minuscule.

Les obligations sont désignées comme indiqué ci-dessous :

Les obligations simples sont la valeur par défaut et n'ont donc pas besoin d'être saisies. Par exemple, « CC » signifierait qu'il y a un carbone non aromatique attaché à un autre carbone non aromatique par une simple liaison, et l'ordinateur identifierait la structure comme étant l'éthane chimique. On suppose également que la liaison entre deux symboles atomiques en minuscules est aromatique. Un blanc termine le SOURIRE chaîne de caractères.

Règle 2 : chaînes simples

En combinant des symboles atomiques et des symboles de liaison, des structures de chaînes simples peuvent être représentées. Les structures saisies à l'aide SOURIRE sont supprimés en hydrogène, c'est-à-dire que les molécules sont représentées sans hydrogène. Les SOURIRE le logiciel comprend le nombre de connexions possibles qu'un atome peut avoir. Si suffisamment d'obligations ne sont pas identifiées par l'utilisateur via SOURIRE notation, le système supposera automatiquement que les autres connexions sont satisfaites par des liaisons hydrogène.

CC CH3CH3 Éthane
C=C CH2CH2 Éthène
CBr CH3Br Brométhane
C#N C=N Acide cyanhydrique
Na.Cl NaCl Chlorure de sodium

L'utilisateur peut explicitement identifier les liaisons hydrogène, mais si une liaison hydrogène est identifiée dans la chaîne, le SOURIRE l'interprète supposera que l'utilisateur a identifié tous hydrogènes pour cette molécule.

Parce que SOURIRE permet l'entrée de tous les éléments dans le tableau périodique et utilise également la suppression de l'hydrogène, l'utilisateur doit être conscient des produits chimiques avec deux lettres qui pourraient être mal interprétés par l'ordinateur. Par exemple, « Sc » pourrait être interprété comme un atome de soufre relié à un carbone aromatique par une simple liaison, ou il pourrait être le symbole du scandium. Les SOURIRE L'interpréteur donne la priorité à l'interprétation d'une simple liaison reliant un atome de soufre et un carbone aromatique. Pour identifier le scandium, l'utilisateur doit entrer [Sc].

Une branche d'une chaîne est spécifiée en plaçant le SOURIRE symbole(s) pour la branche entre parenthèses. La chaîne entre parenthèses est placée directement après le symbole de l'atome auquel elle est connectée. S'il est relié par une double ou triple liaison, le symbole de la liaison suit immédiatement la parenthèse gauche. Quelques exemples:

CC(O)C 2-Propanol
CC(=O)C 2-Propanone
CC(CC)C 2-Méthylbutane
CC(C)CC(=O) 2-Méthylbutanal
c1c(N(=O)=O)cccc1 Nitrobenzène
CC(C)(C)CC 2,2-Diméthylbutane

SOURIRE permet à un utilisateur d'identifier les structures annulaires en utilisant des nombres pour identifier l'atome d'ouverture et de fermeture du cycle. Par exemple, dans C1CCCCC1, le premier carbone a un numéro '1' qui se connecte par une simple liaison avec le dernier carbone qui a également un numéro '1'. La structure résultante est le cyclohexane. Les produits chimiques qui ont plusieurs anneaux peuvent être identifiés en utilisant des numéros différents pour chaque anneau. Si une liaison double, simple ou aromatique est utilisée pour la fermeture du cycle, le symbole de la liaison est placé avant le numéro de fermeture du cycle. Quelques exemples:

ou C=1CCCCC1 Cyclohexène
C*1*C*C*C*C*C1
c1ccccc1 Benzène
C1OC1CC Éthyloxirane
c1cc2ccccc2cc1 Naphtaline

Règle Cinq : Atomes Chargés

Les charges sur un atome peuvent être utilisées pour remplacer la connaissance concernant la valence qui est intégrée dans SOURIRE Logiciel. Le format d'identification d'un atome chargé se compose de l'atome suivi de crochets qui encadrent la charge sur l'atome. Le nombre de charges peut être explicitement indiqué (<-1>) ou non (<->). Par exemple:

Si vous avez des questions concernant le SOURIRE notation, contactez le support ECOTOX à -
T : (218) 529-5225 Courriel : [email protected]

Anderson, E., G.D. Veith et D. Weininger. 1987. SMILES : Une notation de ligne et un interpréteur informatisé pour les structures chimiques. Rapport n° EPA/600/M-87/021. Agence de protection de l'environnement des États-Unis, Laboratoire de recherche environnementale-Duluth, Duluth, MN 55804

Hunter, R.S., F.D. Culver et A. Fitzgerald. 1987. Manuel de l'utilisateur SMILES. Un système d'entrée de ligne d'entrée moléculaire simplifié. Comprend des SMILES étendus pour définir des fragments. Review Draft, Internal Report, Montana State University, Institute for Biological and Chemical Process Control (IPA), Bozeman, MT.

Weininger, D. 1988. SMILES, un langage chimique et un système d'information. 1. Introduction à la méthodologie et aux règles d'encodage. Journal d'information chimique et d'informatique 28 : 31-36.


Mots clés

  • APA
  • Standard
  • Harvard
  • Vancouver
  • Auteur
  • BIBTEX
  • SIF

Résultats de recherche : Contribution à la revue › Article › peer-review

T1 - Descripteurs optimaux simplifiés basés sur le système d'entrée de ligne d'entrée moléculaire

T2 - Relation quantitative structure-activité modélisant la mutagénicité des hydrocarbures aromatiques polycycliques nitrés

N2 - Nous avons développé un nouveau modèle QSAR, basé sur les descripteurs optimaux, calculés avec un système d'entrée de ligne d'entrée moléculaire simplifié. Ces descripteurs sont corrélés avec le potentiel mutagène pour un ensemble d'apprentissage et corrélés avec ce point final pour un ensemble de test. Les caractéristiques statistiques du modèle sont n = 28, r2 = 0,902, q2 = 0,892, s = 0,554, F = 240 (ensemble d'entraînement) et n = 20, r2 = 0,853, q2 = 0,823, s = 0,702, F = 105 ( ensemble d'essai).

AB - Nous avons développé un nouveau modèle QSAR, basé sur les descripteurs optimaux, calculés avec un système d'entrée de ligne d'entrée moléculaire simplifié. Ces descripteurs sont corrélés avec le potentiel mutagène pour un ensemble d'apprentissage et corrélés avec ce point final pour un ensemble de test. Les caractéristiques statistiques du modèle sont n = 28, r2 = 0,902, q2 = 0,892, s = 0,554, F = 240 (ensemble d'entraînement) et n = 20, r2 = 0,853, q2 = 0,823, s = 0,702, F = 105 ( ensemble d'essai).


Definiția SMILES ca iruri de limbaj pour le contexte

Din punctul de vedere al teoriei limbajului formal, SMILES este un cuvânt. Un SMILES est un analizat cu un analizor for context. Utilizarea acestei reprezentări a fost în predicția proprietăților biochimice (incl. Toxicitatea și biodegradabilitatea) pe baza principiului principal al chimioterapiei conforme căruia molécule similare au proprietăți similare. Modelele prédictif au implementat o abordare sintactică de recunoaștere a modelelor (care a implicat definirea unei distanțe moleculaire), precum și o schemă mai robustă bazată pe recunoașterea statistică a modelelor.


Système d'entrée de ligne simplifié à entrée moléculaire - Biologie

Rayonner - exprimer au moyen d'un sourire radieux

Beam est une boîte à outils gratuite dédiée à l'analyse et à la génération d'un système d'entrée de ligne d'entrée moléculaire simplifié - notations de ligne SMILES™. L'objectif principal de la bibliothèque est de gérer avec élégance la syntaxe SMILES™ et aussi rapidement que possible.

Remarque : Beam est toujours en développement et certaines API seront probablement modifiées jusqu'à ce qu'une version soit publiée.

L'un des principaux types de Beam est le Graph, qui fournit des méthodes pratiques pour lire directement la notation SMILES™.

et pour le réécrire en notation SMILES™.

Le faisceau fournit un excellent aller-retour, préservant exactement la façon dont l'entrée a été spécifiée. Sans tenir compte des entrées avec des crochets redondants et des numéros de sonnerie erronés/répétés - l'entrée réelle sera généralement identique à la sortie.

Bien que la préservation de la représentation ait été l'un des objectifs de conception pour le faisceau, il est courant de normaliser la sortie SMILES™.

Effondrer un graphique avec des hydrogènes marqués [CH3][CH2][OH] à un avec des hydrogènes implicites CCO .

Développer un graphique où les hydrogènes sont CCO implicites à un avec des hydrogènes marqués [CH3][CH2][OH] .

La spécification stéréo est persévérée par des réarrangements. L'exemple ci-dessous génère aléatoirement des SMILES™ arbitraires en préservant une configuration stéréo correcte.

La configuration à double liaison basée sur les liaisons est normale dans SMILES mais peut être problématique. Le problème est qu'un seul symbole peut spécifier deux configurations adjacentes. Une extension proposée consistait à utiliser une configuration à double liaison à base d'atomes.

Beam entrera, produira et convertira les spécifications stéréo à double liaison basées sur les atomes et les liaisons.

Convertir un graphe avec des liaisons délocalisées en représentation kekulé.

Avec la spécification stéréo à double liaison basée sur les liaisons, il existe deux manières possibles d'écrire chaque configuration basée sur les liaisons. beam vous permet de normaliser les étiquettes de sorte que le premier symbole soit toujours une barre oblique ( / ). Quelques exemples sont présentés ci-dessous.

beam est toujours en développement, mais vous pouvez obtenir la dernière version à partir du référentiel d'instantanés EBI. Un exemple de configuration pour maven est présenté ci-dessous.

Copyright (c) 2013, Institut Européen de Bioinformatique (EMBL-EBI) Tous droits réservés.

La redistribution et l'utilisation sous forme source et binaire, avec ou sans modification, sont autorisées à condition que les conditions suivantes soient remplies :

  1. Les redistributions du code source doivent conserver l'avis de droit d'auteur ci-dessus, cette liste de conditions et la clause de non-responsabilité suivante.
  2. Les redistributions sous forme binaire doivent reproduire l'avis de droit d'auteur ci-dessus, cette liste de conditions et la clause de non-responsabilité suivante dans la documentation et/ou d'autres documents fournis avec la distribution.

CE LOGICIEL EST FOURNI PAR LES TITULAIRES DES DROITS D'AUTEUR ET LES CONTRIBUTEURS « EN L'ÉTAT » ET TOUTE GARANTIE EXPRESSE OU IMPLICITE, Y COMPRIS, MAIS SANS S'Y LIMITER, LES GARANTIES IMPLICITES DE QUALITÉ MARCHANDE ET D'ADAPTATION À UN USAGE PARTICULIER SONT EXCLUES. EN AUCUN CAS LE PROPRIÉTAIRE DU DROIT D'AUTEUR OU LES CONTRIBUTEURS NE SONT TENUS RESPONSABLES DE TOUT DOMMAGE DIRECT, INDIRECT, ACCESSOIRE, SPÉCIAL, EXEMPLAIRE OU CONSÉCUTIF (Y COMPRIS, MAIS SANS S'Y LIMITER, L'ACHAT DE BIENS OU DE SERVICES DE SUBSTITUTION, LA PERTE D'UTILISATION, DE DONNÉES OU DE BÉNÉFICES OU COMMERCIAUX INTERRUPTION) TOUTEFOIS CAUSÉ ET SUR TOUTE THÉORIE DE RESPONSABILITÉ, QUE CE SOIT DANS UN CONTRAT, UNE RESPONSABILITÉ STRICTE OU DÉLICTUELLE (Y COMPRIS LA NÉGLIGENCE OU AUTRE) DÉCOULANT DE QUELQUE MANIÈRE QUE CE SOIT DE L'UTILISATION DE CE LOGICIEL, MÊME SI AVISÉ DE LA POSSIBILITÉ DE TELS DOMMAGES.

Les opinions et conclusions contenues dans le logiciel et la documentation sont celles des auteurs et ne doivent pas être interprétées comme représentant les politiques officielles, expresses ou implicites, du projet FreeBSD.


Atomes

Les atomes sont représentés par l'abréviation standard des éléments chimiques, entre crochets, comme [Au] pour l'or. L'anion hydroxyde est [OH-]. Les parenthèses peuvent être omises pour le "sous-ensemble organique" de B, C, N, O, P, S, F, Cl, Br et I. Tous les autres éléments doivent être mis entre parenthèses. Si les parenthèses sont omises, le nombre approprié d'atomes d'hydrogène implicites est supposé, par exemple le SMILES pour l'eau est simplement O.

Obligations

Les liaisons entre les atomes aliphatiques sont supposées être uniques sauf indication contraire et sont impliquées par la contiguïté dans les SMILES. Par exemple, les SMILES pour l'éthanol peuvent être écrits comme CCO. Les étiquettes de fermeture de cycle sont utilisées pour indiquer la connectivité entre les atomes non adjacents dans les SMILES, qui pour le cyclohexane et le dioxane peuvent être écrits comme C1CCCCC1 et O1CCOCC1 respectivement. Les doubles et triples liaisons sont représentées respectivement par les symboles '=' et '#' comme illustré par les SMILES O=C=O (dioxyde de carbone) et C#N (cyanure d'hydrogène).

Branchement

Les branches sont décrites entre parenthèses, comme dans CCC(=O)O pour l'acide propionique et C(F)(F)F pour le fluoroforme. Les anneaux substitués peuvent être écrits avec le point de ramification dans l'anneau comme illustré par les SMILES COc(c1)cccc1C#N (voir illustration) et COc(cc1)ccc1C#N (voir illustration) qui codent les isomères 3 et 4-cyanoanisole. L'écriture de SMILES pour les anneaux substitués de cette manière peut les rendre plus lisibles par l'homme.

Aromaticité

Les atomes aromatiques C, O, S et N sont indiqués en minuscules « c », « o », « s » et « n » respectivement. Le benzène, la pyridine et le furane peuvent être représentés respectivement par les SMILES c1ccccc1, n1ccccc1 et o1cccc1. Les liaisons entre atomes aromatiques sont, par défaut, aromatiques bien qu'elles puissent être spécifiées explicitement à l'aide du symbole ':'. Les atomes aromatiques peuvent être liés individuellement les uns aux autres et le biphényle peut être représenté par c1ccccc1-c2ccccc2. L'azote aromatique lié à l'hydrogène, tel que trouvé dans le pyrrole doit être représenté par [nH] et l'imidazole est écrit en notation SMILES par n1c[nH]cc1.

Les algorithmes Daylight et OpenEye pour générer des SMILES canoniques diffèrent dans leur traitement de l'aromaticité.

Stéréochimie

La configuration autour des doubles liaisons est précisée à l'aide des caractères "/" et "". Par exemple, F/C=C/F (voir illustration) est une représentation de trans-difluoroéthène, dans lequel les atomes de fluor sont sur les côtés opposés de la double liaison, alors que F/C=CF (voir illustration) est une représentation possible de cis-difluoroéthène, dans lequel les F sont du même côté de la double liaison, comme le montre la figure.

La configuration au carbone tétraédrique est spécifiée par @ ou @@. L-Alanine, l'énantiomère le plus courant de l'acide aminé alanine peut être écrit comme N[[email protected]@H](C)C(=O)O (voir la description). Le spécificateur @@ indique que, vu de l'azote le long de la liaison au centre chiral, la séquence des substituants hydrogène (H), méthyle (C) et carboxylate (C(=O)O) apparaît dans le sens des aiguilles d'une montre. La D-Alanine peut être écrite sous la forme N[[email protected]](C)C(=O)O (voir illustration). L'ordre des substituants dans la chaîne SMILES est très important et la D-alanine peut également être codée sous la forme N[[email protected]@H](C(=O)O)C (voir illustration).

Isotopes

Les isotopes sont spécifiés avec un nombre égal à la masse isotopique entière précédant le symbole atomique. Le benzène dans lequel un atome est le carbone-14 s'écrit [14c]1ccccc1 et le deutérochloroforme est [2H]C(Cl)(Cl)Cl.

Autres exemples de SOURIRE

La notation SMILES est décrite en détail dans le manuel théorique SMILES fourni par Daylight Chemical Information Systems et un certain nombre d'exemples illustratifs sont présentés. L'utilitaire de représentation de Daylight fournit aux utilisateurs les moyens de vérifier leurs propres exemples de SMILES et constitue un outil pédagogique précieux.


Système d'entrée de ligne simplifié à entrée moléculaire - Biologie

SMILES (Simplified Molecular Input Line Entry System) est un notation de ligne (méthode typographique utilisant des caractères imprimables) pour saisir et représenter des molécules et des réactions. Quelques exemples sont:

SOURIRENomSOURIRENom
CC éthane [OH3+] ion hydronium
O=C=O gaz carbonique [2H]O[2H] oxyde de deutérium
C#N cyanure d'hydrogène [235U] uranium-235
CCN(CC)CC triéthylamine F/C=C/F E-difluoroéthylène
CC(=O)O acide acétique F/C=CF Z-difluoroéthène
C1CCCCC1 cyclohexane N[[email protected]@H](C)C(=O)O L-alanine
c1ccccc1 benzène N[[email protected]](C)C(=O)O D-alanine

SOURIRE de réactionNom
[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCI réaction de déplacement
(C(=O)O).(OCC)>>(C(=O)OCC).(O) estérification intermoléculaire

SMILES contient les mêmes informations que celles que l'on peut trouver dans une table de connexion étendue. La principale raison pour laquelle SMILES est plus utile qu'une table de connexion est qu'il s'agit d'une construction linguistique plutôt que d'une structure de données informatiques. SMILES est un vrai langage, bien qu'avec un vocabulaire simple (symboles d'atomes et de liaisons) et seulement quelques règles de grammaire. Les représentations SMILES de la structure peuvent à leur tour être utilisées comme "mots" dans le vocabulaire d'autres langages conçus pour le stockage d'informations chimiques (informations sur les produits chimiques) et de l'intelligence chimique (informations sur la chimie).

Une partie de la puissance de SMILES réside dans le fait qu'il existe des SMILES uniques. Avec les SMILES standard, le nom d'une molécule est synonyme de sa structure avec des SMILES uniques, le nom est universel. Quiconque dans le monde utilise des SMILES uniques pour nommer une molécule choisira exactement le même nom.

Une autre propriété importante de SMILES est qu'il est assez compact par rapport à la plupart des autres méthodes de représentation de la structure. Un SMILES typique prendra 50% à 70% moins d'espace qu'une table de connexion équivalente, même des tables de connexion binaires. Par exemple, une base de données de 23 137 structures, avec une moyenne de 20 atomes par structure, n'utilise que 1,6 octet par atome lorsqu'elle est représentée avec SMILES. De plus, la compression ordinaire de SMILES est extrêmement efficace. La même base de données citée ci-dessus a été réduite à 27 % de sa taille d'origine par compression Ziv-Lempel (c'est-à-dire 0,42 octet par atome).

  • Clés d'accès à la base de données
  • Mécanisme permettant aux chercheurs d'échanger des informations chimiques
  • Système de saisie des données chimiques
  • Une partie des langages pour l'intelligence artificielle ou les systèmes experts en chimie

3.1 Canonisation

SOURIRE d'entréeSOURIRES uniques
OCC CCO
[CH3][CH2][OH] CCO
C-C-O CCO
C(O)C CCO
OC(=O)C(Br)(Cl)N NC(Cl)(Br)C(=O)O
ClC(Br)(N)C(=O)O NC(Cl)(Br)C(=O)O
O=C(O)C(N)(Br)Cl NC(Cl)(Br)C(=O)O

3.2 Règles de spécification SMILES

Il existe cinq règles d'encodage SMILES génériques, correspondant à la spécification des atomes, des liaisons, des branches, des fermetures de cycle et des déconnexions. Les règles pour spécifier divers types d'isomérie sont discutées dans la section suivante, SOURIRES ISOMÉRIQUES.

3.2.1 Atomes

C méthane (CH4)
P phosphine (PH3)
N ammoniac (NH3)
S sulfure d'hydrogène (H2S)
O l'eau (H2O)
Cl acide hydrochlorique (HCl)

Les atomes avec des valences autres que "normales" et les éléments ne faisant pas partie du "sous-ensemble organique" doivent être décrits entre parenthèses.

[S] soufre élémentaire
[Au] or élémentaire

Entre parenthèses, tous les hydrogènes et charges formelles attachés doivent toujours être spécifiés. Le nombre d'hydrogènes attachés est indiqué par le symbole H suivi d'un chiffre facultatif. De même, une charge formelle est représentée par l'un des symboles + ou -, suivi d'un chiffre facultatif. S'il n'est pas spécifié, le nombre d'hydrogènes et de charges attachés est supposé être égal à zéro pour un atome entre parenthèses. Les constructions de la forme [Fe+++] sont synonymes de la forme [Fe+3]. Les exemples sont :

[H+] proton
[Fe+2] cation fer (II)
[OH-] anion hydroxyle
[Fe++] cation fer (II)
[OH3+] cation hydronium
[NH4+] cation ammonium

3.2.2 Obligations

CC éthane (CH3CH3)
C=O formaldéhyde (CH2O)
C=C éthène (CH2=CH2)
O=C=O gaz carbonique (CO2)
COC éther diméthylique (CH3OCH3)
C#N cyanure d'hydrogène (HCN)
CCO éthanol (CH3CH2OH)
[H][H] hydrogène moléculaire (H2)

Pour les structures linéaires, la notation SMILES correspond à la notation schématique conventionnelle sauf que les hydrogènes et les liaisons simples sont généralement omis. Par exemple, le 6-hydroxy-1,4-hexadiène peut être représenté par de nombreux SMILES également valables, dont les trois suivants :

StructureSOURIRES valides
C=CCC=CCO
CH2=CH-CH2-CH=CH-CH2-OH C=C-C-C=C-C-O
OCC=CCC=C

3.2.3 Filiales

CCN(CC)CC CC(C)C(=O)O C=CC(CCC)C(C(C)C)CCC
Triéthylamine Acide isobutyrique 3-propyl-4-isopropyl-1-heptène

3.2.4 Structures cycliques

Il existe généralement de nombreuses descriptions différentes, mais également valables de la même structure, par exemple, les notations SMILES suivantes pour le 1-méthyl-3-bromo-cyclohexène-1 :

De nombreuses autres notations peuvent être écrites pour la même structure, dérivant de différentes fermetures d'anneaux. SMILES n'a pas d'entrée préférée en entrée bien que (a) ci-dessus puisse être le plus simple, d'autres sont tout aussi valables.

Un seul atome peut avoir plus d'une fermeture de cycle. Ceci est illustré par la structure de cubane dans laquelle deux atomes ont plus d'une fermeture de cycle :

Génération de SMILES pour cubane : C12C3C4C1C5C4C3C25.

Si vous le souhaitez, les chiffres indiquant les fermetures de bagues peuvent être réutilisés. A titre d'exemple, le chiffre 1 utilisé deux fois dans la spécification :

La possibilité de réutiliser les chiffres de fermeture des anneaux permet de spécifier des structures avec 10 anneaux ou plus. Les structures qui nécessitent plus de 10 fermetures annulaires pour être ouvertes à la fois sont extrêmement rares. Si nécessaire ou souhaité, des fermetures d'anneau plus numérotées peuvent être spécifiées en faisant précéder un nombre à deux chiffres avec un signe de pourcentage (%). Par exemple, C2%13%24 est un atome de carbone avec une fermeture de cycle 2, 13 et 24 .

3.2.5 Structures déconnectées

Les paires de chiffres correspondant aux spécifications des atomes impliquent que les atomes sont liés les uns aux autres. La liaison peut être explicite (symbole de liaison et/ou direction précédant le chiffre de fermeture du cycle) ou implicite (une liaison simple ou aromatique non directionnelle). Cela est vrai que la liaison finisse ou non dans le cadre d'un anneau.

Les atomes adjacents séparés par des points (.) impliquent que les atomes ne sont pas liés les uns aux autres. Cela est vrai que les atomes soient ou non dans le même composant connecté.

Par exemple, C1.C1 spécifie la même molécule que CC(éthane)

3.3 SOURIRE Isométrique

Les règles de spécification des isomères SMILES permettent de spécifier complètement la chiralité pour toute structure, si elle est connue. Contrairement à la plupart des nomenclatures chimiques existantes telles que CIP et IUPAC, ces règles sont également conçues pour permettre des partiel spécification de la chiralité. Mis à part l'utilisation dans les macros, la recherche de sous-structures et d'autres opérations de mise en correspondance de motifs, cela est important car une grande partie des informations chimiques disponibles dans le monde sont connues pour les structures avec des chiralités incomplètement résolues (tous les centres chiraux possibles ne sont pas séparés, connus ou rapportés).

Toutes les règles de spécification des isomères dans SMILES sont donc facultatives. L'absence de spécification pour un attribut implique que la valeur de cet attribut n'est pas spécifiée.

3.3.1 Spécification isotopique

Sourires Nom
[12C] carbone-12
[13C] carbone-13
[C] carbone (masse non spécifiée)
[13CH4] C-13 méthane

3.3.2 Configuration autour des doubles liaisons

Une différence importante entre les conventions de chiralité de SMILES et d'autres telles que CIP est que SMILES utilise chiralité locale représentation (par opposition à chiralité absolue), ce qui permet partiel Caractéristiques. Un exemple de ceci est illustré ci-dessous :

F/C=C/C=C/C F/C=C/C=CC
(complètement spécifié) (partiellement spécifié)

3.3.3. Configuration autour des centres tétraédriques

Le type de chiralité le plus simple et le plus courant est le tétraèdre à quatre atomes voisins disposés uniformément autour d'un atome central, connu sous le nom de "centre chiral". Si les quatre voisins sont différents les uns des autres de quelque manière que ce soit, les images miroir de la structure ne seront pas identiques. Les deux images miroir sont appelées "énantiomères" et sont les deux seules formes qu'un centre tétraédrique peut avoir. Si deux (ou plus) des quatre voisins sont identiques, l'atome central ne sera pas chiral (ses images miroir peuvent se superposer dans l'espace).

Dans SMILES, les centres tétraédriques peuvent être indiqués par une spécification chirale simplifiée (@ ou @@) écrit comme une propriété atomique suivant le symbole atomique de l'atome chiral. Si une spécification chirale n'est pas présente pour un atome chiral, sa chiralité n'est implicitement pas spécifiée. Par exemple:

NC(C)(F)C(=O)O N[[email protected]](C)(F)C(=O)O
NC(F)(C)C(=O)O N[[email protected]@](F)(C)C(=O)O
(chiralité non précisée) (chiralité spécifiée)

En regardant de l'aminé N à le chiral C (comme s'écrit le SMILES), les trois autres voisins apparaissent dans le sens inverse des aiguilles d'une montre dans l'ordre où ils sont écrits dans les SMILES du haut, N[[email protected]](C)(F)C(=O)O (méthyl-C, F, carboxy-C), et dans le sens des aiguilles d'une montre dans celui du bas, N[[email protected]@](F)(C)C(=O)O. Le symbole "@" indique que les voisins suivants sont répertoriés dans le sens inverse des aiguilles d'une montre (il s'agit d'un " mnémonique visuel " en ce sens que le symbole ressemble à une spirale dans le sens inverse des aiguilles d'une montre autour d'un cercle central). "@@" indique que les voisins sont répertoriés dans le sens des aiguilles d'une montre (vous l'avez deviné, dans le sens inverse des aiguilles d'une montre).

Si le carbone central n'est pas le tout premier atome dans les SMILES et a un hydrogène implicite attaché (il peut en avoir au plus un et toujours être chiral), l'hydrogène implicite est considéré comme le premier atome voisin des trois voisins qui suivent un spécification tétraédrique. Si le carbone central est le premier dans les SMILES, l'hydrogène implicite est considéré comme l'atome « de ». Les hydrogènes peuvent toujours être écrits explicitement (comme [H]) auquel cas ils sont traités comme n'importe quel autre atome. Dans chaque cas, le l'ordre implicite est exactement comme écrit dans SMILES. Certains des SMILES valides pour l'alanine sont :

N[[email protected]@]([H])(C)C(=O)O N[[email protected]]([H])(C)C(=O)O
N[[email protected]@H](C)C(=O)O N[[email protected]](C)C(=O)O
N[[email protected]](C(=O)O)C N[[email protected]@H](C(=O)O)C
[H][[email protected]](N)(C)C(=O)O [H][[email protected]@](N)(C)C(=O)O
[[email protected]](N)(C)C(=O)O [[email protected]@H](N)(C)C(=O)O

L'ordre chiral de la liaison de fermeture de cycle est impliqué par l'ordre lexical dans lequel le chiffre de fermeture de cycle apparaît sur l'atome chiral (pas dans l'ordre lexical de l'atome "substituant").

C[[email protected]]1CCCCO1
ou
O1CCCC[[email protected]@H]1C

3.3.4 Spécification chirale générale

La spécification chirale générale utilisée dans SMILES comporte trois parties : la @ symbole, suivi d'un indicateur de classe chirale à deux lettres, suivi d'un indicateur numérique de permutation chirale. Une classe chirale par défaut est attribuée à chaque degré (nombre de connexions) la classe par défaut pour quatre connexions est tétraédrique (TH). La plupart des chiralités ont plus de deux choix possibles, les choix sont attribués numériquement à partir d'un tableau. Dans la plupart des cas, le @1 la désignation signifie "dans le sens inverse des aiguilles d'une montre autour de l'axe représenté par l'ordre SMILES" et @2 signifie "dans le sens des aiguilles d'une montre". Notations sous la forme "@@" et "@@@" sont interprétés comme "@2" et "@3" (analogue à "+++" sens "+3"). Les "@" et "@@" les notations utilisées ci-dessus sont des raccourcis pour les spécifications complètes "@TH1" et "@TH2". En pratique, les spécifications chirales complètes ne sont pas souvent nécessaires.

SMILES gère toute la gamme des spécifications chirales, y compris la résolution de la « chiralité réduite » (où le nombre d'énantiomères est réduit par symétrie) et de la « chiralité dégénérée » (où le centre devient non chiral en raison d'une substitution symétrique). Comme avec d'autres aspects de SMILES, le langage garantit la capacité de spécifier exactement ce qui est connu, y compris les spécifications partielles. The SMILES system will generate unique isomeric SMILES for any given specification, and substructure recognition will operate correctly on all types of chirality.

The rest of this section will be limited to discussing the following chiralities: tetrahedral, allene-like, square-planar, trigonal-bipyramidal, and octahedral. Although many more chiral classes can be handled by this system (it's table-driven), these five classes are very common in chemistry and cover most of the issues to be encountered in the remainder.

Tetrahedral. The tetrahedral class symbol is TH. This is the default chiral class for degree four. Possible values are 1 and 2. @TH1 (or just @) indicates that, looking from the first connected atom, the following three connected atoms are listed anticlockwise @TH2 (ou @@) indicates clockwise.

Allene-like. The allene-like class symbol is AL. This is the default chiral class for degree 2 (the chiral center is the central atom with two double bonds). Although substituted C=C=C structures are most common, C=C=C=C=C structures are also allene-like, as are any odd number of serially double-bonded atoms. Possible values are @AL1 (or just @) et @AL2 (ou @@) these are interpreted by superimposing the substituted atoms and evaluating as per tetrahedral. Hydrogens attached to substituted allene-like atoms are taken to be immediately following that atom, as shown below:

OC(Cl)=[[email protected]]=C(C)F OC=[[email protected]]=CF
OC(Cl)=[[email protected]]=C(C)F OC([H])=[[email protected]]=C([H])F

Square-planar. The square-planar class symbol is SP Possible values are @SP1, @SP2, et @SP3 this is not the default chiral class for degree four, so shorthand specifications are not allowed. Square-planar is also somewhat unusual in that the ideas of clockwise and anticlockwise do not apply.

F[[email protected]](Cl)(Br)I (SP1 lists in a "U shape")
F[[email protected]](Br)(Cl)I (SP2 lists in a "4-shape")
F[[email protected]](Cl)(I)Br (SP3 lists in a "Z shape")

Trigonal-bipyramidal. The trigonal-bipyramidal class symbol is TB. This is the default chiral class for degree five. Possible values are @TB1 à @TB20. @TB1 (or just @) indicates that, when the SMILES is listed from one axial connection to the other, the three intermediate, equatorially-connected atoms are listed anticlockwise @TB2 (ou @@) indicates clockwise. This is illustrated below.

Octahedral . The octahedral class symbol is OH. This is the default chiral class for degree six. Possible values are @OH1 à @OH30. @OH1 (or just @) indicates that, when the SMILES is listed from one axial connection to the other, the four intermediate, equatorially-connected atoms are listed anticlockwise @OH2 (ou @@) indicates clockwise. This is illustrated below.

3.4 SMILES Conventions

3.4.1 Hydrogens

  • Implicitly. for atoms specified without brackets, from normal valence assumptions.
  • Explicitly by count. inside brackets, by the hydrogen count supplied zero if unspecified.
  • As explicit atoms. as [H] atoms.

There is no distinction between "organic" and "inorganic" SMILES nomenclature. One may specify the number of attached hydrogens for any atom in any SMILES. For example, propane may be entered as [CH3][CH2][CH3] instead of CCC.

There are four situations where specification of explicit hydrogen specification is required:

  • charged hydrogen, i.e. a proton, [H+]
  • hydrogens connected to other hydrogens, e.g., molecular hydrogen, [H][H]
  • hydrogens connected to other than one other atom, e.g., bridging hydrogens and
  • isotopic hydrogen specifications, e.g. in heavy water, [2H]O[2H].

3.4.2 Aromaticity

The SMILES algorithm uses an extended version of Hueckel's rule to identify aromatic molecules and ions. To qualify as aromatic, all atoms in the ring must be sp 2 hybridized and the number of available "excess" p-electrons must satisfy Hueckel's 4N+2 criterion. As an example, benzene is written c1ccccc1, but an entry of C1=CC=CC=C1 - cyclohexatriene, the Kekulé form - leads to detection of aromaticity and results in an internal structural conversion to aromatic representation. Conversely, entries of c1ccc1 et c1ccccccc1 will produce the correct anti-aromatic structures for cyclobutadiene and cyclooctatetraene, C1=CC=C1 et C1=CC=CC=CC=C1. In such cases the SMILES system looks for a structure that preserves the implied sp 2 hybridization, the implied hydrogen count, and the specified formal charge, if any. Some inputs, however, may not only be incorrect but also impossible, such as c1cccc1. Ici c1cccc1 cannot be converted to C1=CCC=C1 since one of the carbon atoms would be sp 3 with two attached hydrogens. In such a structure alternating single and double bond assignments cannot be made. The SMILES system will flag this as an "impossible" input. Please note that only atoms on the following list can be considered aromatic: C, N, O, P, S, As, Se, and * (wildcard). In addition, exocyclic double bonds do not break aromaticity.

C1=COC=C1 C1=CN=C[NH]C(=O)1 C1=C*=CC=C1
c1cocc1 c1cnc[nH]c(=O)1 c1c*ccc1

It is important to remember that the purpose of the SMILES aromaticity detection algorithm is for the purposes of chemical information representation only! To this end, rigorous rules are provided for determining the "aromaticity" of charged, heterocyclic, and electron-deficient ring systems. The "aromaticity" designation as used here is not intended to imply anything about the reactivity, magnetic resonance spectra, heat of formation, or odor of substances.

3.4.3 Aromatic Nitrogen Compounds

n1ccccc1 O=n1ccccc1 [O-][n+]1ccccc1 Cn1cccc1 [nH]1cccc1
Pyridine Pyridine-N-oxide Methyl and 1H-pyrrole

Note that the pyrrolyl nitrogen in 1H-pyrrole is written [nH] to distinguish this kind of nitrogen from a pyridyl-N. Alternative valid SMILES for 1H-pyrrole include [H]n1cccc1 (with explicit hydrogen) and N1C=CC=C1 (aliphatic form) all three input forms are equivalent.

3.4.4 Bonding Conventions

Given one valence model of a structure, chemical database systems such as THOR and Merlin have the ability to retrieve data about that structure even if the data were stored under a different valence model of the structure. With such systems, the choice of valence conventions is not critical to either database design nor database query.

3.4.5 Tautomers

O=c1[nH]cccc1 Oc1ncccc1
2-pyridone 2-pyridinol

3.5 Extensions for Reactions

The SMILES language is extended to handle reactions. There are two areas where SMILES is extended: distinguishing component parts of a reactions and atom maps.

Component parts of a reaction are handled by introducing the ">" character as a new separator. Any reaction must have exactly two > characters in it. ">>" is a valid reaction SMILES for an empty reaction. Each of the ">"-separated components of a reaction must be a valid molecule SMILES.

As an aside, molecule SMILES never have a ">" character. In a program, one can quickly determine if a SMILES refers to a reaction or molecule by searching for a ">" character in the string.

Reaction SMILES Grammar:

Par exemple: C=CCBr>>C=CCI This is a valid reaction. Note that there are no agent molecules. Also note that several atoms are missing from the reaction (the product "Br" and the reactant "F").

[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCI This is a more complete version of the same reaction. It has been canonicalized. It would form the root of a datatree when stored in a THOR database.

C=CCBr.[Na+].[I-]>CC(=O)C>C=CCI.[Na+].[Br-] This version of the reaction includes an agent. Note that the SMILES does not indicate how the agent participates. Whether the agent is a solvent, catalyst, or performs another function within the reaction must be stored separately as data. This SMILES could be stored in a THOR database as an absolute SMILES and would appear on the same datatree page as the previous example.

In the above example, note that the reaction is ambiguous with respect to the carbon atoms involved. One might assume that a normal Sn2 displacement is occurring. In fact, an equally reasonable allylic displacement is possible, via either an Sn1-like allyl cation. Recognize that the reaction SMILES given above do not say which carbons are which and hence do not discriminate between the two alternate mechanisms.

This case demonstrates the use and need for atom maps for reaction processing. Atom maps are used primarily to further define the overall reaction in cases where the reaction mechanism may not be evident from the reactant and product molecules. Atom maps are non-negative integer atom modifiers. They follow the ":" character within an atom expression. They must be the last modifier within the atom expression:

SMILES Atom Expression Grammar:

Atom maps are an atomic biens. They can legally appear in a SMILES for any atom, whether or not it is part of a reaction. Atom with atom map labels in a molecule SMILES are considered valid the atom maps are ignored for molecule processing. Absolute and unique SMILES generated by the system for molecules never include atom maps.

Finally, there are some differences in the handling of atom maps and agent components in the unique contre absolu SMILES for reactions. Atom maps and agent components are not part of the unique SMILES specification. This is important for the THOR database, where the datatree roots are formed from the unique SMILES. The net result is that each reaction datatree may contain multiple specific reactions with different agents and atom maps.

3.5.1 Reaction Atom Maps

Atom mappings are properties of the atoms in the reaction molecules. The mappings represent equivalence classes of atoms within a reaction. In effect, the map tells the computer which atoms are the same on the reactant and products sides of a reaction. Without this map information, it is difficult to derive the reaction bond changes which occur.

Within the SMILES language, atom maps are represented as a non-negative numeric atom modifier following the ":" character (e.g. [CH3:2] is a carbon in class 2).

Within the Daylight toolkit, the atom maps are manipulated as sets of mapped atoms. The atom map class numbers which are used in SMILES do not appear in the toolkit interface to a reaction. The map class numbers in SMILES do not have any additional significance, except to associate all atoms with the same map class label to one another.

There are no requirements for completeness or uniqueness of the atom mappings. Atom mappings are independent of the connectivity and properties of the underlying molecules. This is so for several reasons: first, there are limits to the valence representation of molecules which appear when processing reactions. For example the oxygens in sodium acetate (CC(=O)[O-].[Na+]) are chemically indistinguishable, even though the valence model used in the toolkit requires that they be connected differently. Some systems (CAS, for example) recognize this equivalence in their structural representation (the tautomer bond). It is often useful to map these to the same class for reaction purposes: [CH3:1][C:2](=[O:3])[O-:3].[Na+:4]

A second case is where there is ambiguity in a reaction mechanism which one wants to express:

can undergo a cope rearrangement before reaction (which yields the same molecule graph). In effect, there are two distinct mechanisms by which the product is produced. This can be expressed as part of a reaction by: [CH2:1]=[CH:2][CH2:1][CH2:3][C:4](C)[CH2:3]

A third case is simply a lack of information about the reaction itself. It should be possible to omit some atom maps or specify partial information for sets of atoms which *might* end up in a given position in the product. It is never acceptable to force a user to make up data in order to register a reaction. One should only store exactly what is known about the reaction. Atom maps are, by definition ambiguous with respect to the underlying molecules. Atom maps do not appear in the lexical representation of a unique SMILES. They do appear in the lexical representation of an absolute SMILES.

Finally, atom maps are arbitrary class designations the values of the numbers have no meaning. The Daylight system reserves the right to change the class numbers upon canonicalization of a reaction. The system will reorder the atom map classes over the entire reaction during canonicalization. The resulting maps are guaranteed to have the same meaning as the reaction before canonicalization. Practically, the maps are renumbered as small, dense integers in canonical atom order, but this is not guaranteed. Also, during canonicalization, the atom map classes for agent atoms are removed.

3.5.2 Hydrogens

Hydrogens in reactions are handled as with molecules they are suppressed unless "special". Recall that for molecules, hydrogens are special if they are: charged, isotopic, bonded to another hydrogen, or multiply bonded. With reactions, there is an additional case which will make a hydrogen special. It is often desirable (eg. 1,5-hydride shift) to store information about the location of hydrogens as part of the atom map of a reaction. Hydrogens with a supplied atom map are considered "special" and these hydrogens are not suppressed. These mapped hydrogens appear explicitly in Absolute SMILES for reactions. Otherwise, atom-mapped hydrogens do not appear in Unique SMILES.


Rozšíření

SMARTS je liniový zápis pro specifikaci substrukturních vzorů v molekulách. I když používá mnoho stejných symbolů jako SMILES, umožňuje také specifikaci zástupných atomů a vazeb, které lze použít k definování substrukturálních dotazů pro vyhledávání v chemické databázi . Jedna běžná mylná představa je, že substrukturální vyhledávání založené na SMARTS zahrnuje porovnávání řetězců SMILES a SMARTS. Ve skutečnosti jsou řetězce SMILES i SMARTS nejprve převedeny na interní grafové reprezentace, které jsou hledány pro izomorfismus podgrafu .

SMIRKS, nadmnožina „reakce SMILES“ a podmnožina „reakce SMARTS“, je řádkový zápis pro specifikaci reakčních transformací. Obecná syntaxe pro rozšíření reakcí je REACTANT>AGENT>PRODUCT (bez mezer), kde kterékoli z polí může být buď prázdné, nebo vyplněno několika molekulami s tečkou ( . ) a další popisy závislé na základním jazyce. Atomy lze dodatečně identifikovat číslem (např. [C:1] ) Pro mapování, například v [CH2:1]=[CH:2][CH:3]=[CH:4][CH2:5][H:6]>>[H:6][CH2:1][CH:2]=[CH:3][CH:4]=[CH2:5] .