اسمایلز
پسوند(های) نام پرونده | .smi |
---|---|
نوع رسانهٔ اینترنتی | chemical/x-daylight-smiles |
گونه | chemical file format |
سیستم خطی سادهشدهٔ دروندهی مولکولی (انگلیسی: Simplified molecular-input line-entry system) که به اختصار به آن «اسمایلز» (SMILES) میگویند نوعی فرمول خطی برای توصیف ساختار گونههای شیمیایی با استفاده از رشتههای کوتاه ASCII است. بسیاری از برنامههای رایانهایِ ویرایشِ مولکول، قادر به استفاده و درونریزی رشتههای اسمایلز برای تبدیل مجدد آنها به نقشههای دو بعدی یا مدلهای سه بعدی مولکولی هستند.
جزئیات اولیه اسمایلز در دهه ۱۹۸۰ در آزمایشگاهی در دانشگاه مینهسوتا در دلوث تعریف و ارائه شد و از آن زمان تغییراتی یافته و توسعه پیدا کرده است.[۱][۲][۳][۴] در سال ۲۰۰۷، یک استاندارد باز به نام «اوپنمایلز» در جامعه علمی متنباز شیمی توسعه یافت. تأمین بودجه و حمایت مالی برای آغاز و توسعه این پروژه به عهدهٔ آژانس حفاظت محیط زیست ایالات متحده آمریکا بود.[۵][۶]
در ژوئیهٔ ۲۰۰۶، «آیوپاک» شناسه شیمیایی بینالمللی (InChI) را به عنوان استانداردی برای نمایش فرمولهای شیمیایی معرفی کرد. اسمایلز عموماً خوانایی آسانتری نسبت به شناسه شیمیایی بینالمللی برای انسان دارد. اسمایلز همچنین پایگاه گستردهای از پشتیبانی نرمافزاری با پشتوانه نظری گسترده (مانند نظریه گراف) دارد.
توصیف
[ویرایش]اتمها
[ویرایش]اتمها با علامت اختصاری استاندارد عناصر شیمیایی، در قلاب (کروشه) نشان داده میشوند، مانند [Au]
برای طلا. ممکن است براکتها در حالت معمول حذف شوند؛ برای اتمهایی که:
- اتمهای اصلی زیستی-حیاتی B، C، N، O، P، S، F، Cl، Br یا I، و
- بار قراردادی ندارند، و
- تعداد هیدروژنهای متصلشده توسط مدل ظرفیتی اسمایلز مشخص شده است (معمولاً ظرفیت طبیعی آنها، اما برای نیتروژن و فسفر ۳ یا ۵ است، و برای گوگرد ۲، ۴ یا ۶ است)، و
- ایزوتوپ معمولی هستند، و
- مراکز دستوارگی نیستند.
تمام عناصر دیگر باید در قلاب (کروشه) قرار گیرند و بار الکتریکی و هیدروژنها هم نمایش داده شوند. برای مثال، اسمایلز برای آب ممکن است به صورت O
یا [OH2]
نوشته شود. هیدروژن همچنین ممکن است به عنوان یک اتم جداگانه نوشته شود. آب را میتوان بهصورت [H]O[H]
هم نمایش داد.
هنگامی که از قلاب (کروشه) استفاده میشود، اگر اتم داخل کروشه به یک یا چند هیدروژن پیوند داشته باشد، نماد H
اضافه میشود، به دنبال آن؛ تعداد اتمهای هیدروژن اگر بیشتر از ۱ باشد و سپس علامت +
برای بار الکتریکی مثبت یا -
برای بار الکتریکی منفی افزوده میشود. به عنوان مثال، [NH4+]
برای آمونیوم (NH+
4). اگر بیش از یک بار الکتریکی وجود داشته باشد، معمولاً به صورت عددی نوشته میشود. با این حال، میتوان علامت مثبت یا منفی را به تعداد دفعاتی که یون بار الکتریکی دارد تکرار کرد: برای تیتانیم(IV) Ti4+ میتوان نوشت [Ti+4]
یا [Ti++++]
. بنابراین، آنیون هیدروکسید ( OH−) با [OH-]
، کاتیون هیدرونیوم (H
3O+
) با [OH3+]
و کاتیون کبالت (III) (Co3+) هم یا [Co+3]
یا [Co+++]
است.
پیوندها
[ویرایش]پیوند شیمیایی با یکی از این علائم نشان داده میشود: . - = # $ : / \
.
پیوندهای بین اتمهای ترکیبات آلیفاتیک منفرد فرض میشوند، مگر اینکه طور دیگری در فرمولنویسی خطی اسمایلز مشخص شده باشد. اگرچه پیوندهای منفرد ممکن است به صورت -
نوشته شوند، این معمولاً این علامت را حذف میکنند. برای مثال، اسمایلز برای الکل طبی ممکن است به صورت C-C-O
، CC-O
یا C-CO
نوشته شود، اما معمولاً CCO
نوشته میشود.
پیوندهای شیمیایی دوگانه، سهگانه و چهارگانه را بهترتیب با علائم =
، #
، و $
نمایش میدهند؛ مثلا: O=C=O
(کربن دیاکسید CO2)، C#N
(هیدروژن سیانید HCN) و [Ga+]$[As-]
(گالیم آرسنید)
یک نوع دیگر از پیوند، «غیر-پیوند» است که با .
نشان داده شده است، تا نشان دهد که دو قسمت به هم متصل نیستند. برای مثال، سدیم کلرید آبی را به صورت [Na+].[Cl-]
مینویسند تا این عدم اتصال را نشان داده باشند.
یک پیوند آروماتیک «یکی و نصفی» را میتوان با :
نشان داد.
پیوندهای منفرد مجاور با پیوندهای دوگانه ممکن است با استفاده از /
یا \
برای نشان دادن پیکربندی استریوشیمیایی مولکول نشان داده شوند.
حلقهها
[ویرایش]ساختارهای حلقه با شکستن هر حلقه در یک نقطه دلخواه نوشته میشوند (اگرچه برخی از انتخابها منجر به خوانایی بهتر اسمایلز نسبت به سایر فرمولها میشود) تا یک ساختار غیر چرخهای ایجاد شود و برچسبهای عددی بسته شدن حلقه برای نشان دادن اتصال بین اتمهای غیر همجوار اضافه شود.
به عنوان نمونه، سیکلوهگزان و دیاُکسان ممکن است به ترتیب به صورت C1CCCCC1
و O1CCOCC1
نوشته شوند. برای حلقه دوم، برچسب ۲ خواهد بود. برای مثال، دکالین (دکاهیدرونافتالین) ممکن است به صورت C1CCCC2C1CCCC2
نوشته شود.
خصلت آروماتیکی
[ویرایش]حلقههای آروماتیک همچون بنزن به یکی از سه صورت زیر نوشته میشود:
- به صورت ککوله با پیوندهای منفرد و دوتایی متناوب، به عنوان مثال:
C1=CC=CC=C1
- با استفاده از نماد پیوند آروماتیک
:
. مثلا:C:1:C:C:C:C:C1
، یا - معمولاً با نوشتن اتمهای تشکیل دهنده بور، کربن، نیتروژن، اکسیژن، فسفر و گوگرد به ترتیب با حروف کوچک
b
،c
،n
،o
،p
وs
در مورد آخری، پیوندهای بین دو اتم آروماتیک (اگر به صراحت نشان داده نشده باشد) به عنوان پیوندهای آروماتیک فرض میشوند؛ بنابراین، بنزن، پیریدین و فوران را میتوان به ترتیب با c1ccccc1
, n1ccccc1
and o1cccc1
. نشان داد.
نیتروژن آروماتیک متصل به هیدروژن، که مثلا در پیرول یافت می شود، باید حتما به صورت [nH]
نشان داده شود. بنابراین ایمیدازول با نماد اسمایلز به صورت n1c[nH]cc1
نوشته میشود.
هنگامی که اتمهای آروماتیک به صورت مجزا به یکدیگر پیوند میخورند، مانند بیفنیل، یک پیوند منفرد باید به وضوح ارائه شود: c1ccccc1-c2ccccc2
. این یکی از معدود مواردی است که نماد پیوند منفرد -
مورد نیاز است. (در واقع، اکثر نرمافزارهای اسمایلز میتوانند به درستی استنباط کنند که پیوند بین دو حلقه نمیتواند آروماتیک باشد و بنابراین فرم غیر استاندارد c1ccccc1c2ccccc2
را میپذیرد).
شاخهها
[ویرایش]شاخهها با کمان (پرانتز) نمایش داده میشوند، مانند CCC(=O)O
برای پروپانوئیک اسید و FC(F)F
برای فلوئوروفرم. نخستین اتم داخل پرانتز و نخستین اتم بعد از گروه پرانتزشده، هر دو به یک اتم نقطه شاخهای متصل هستند. نماد پیوند باید در داخل پرانتز ظاهر شود و خارج آن (به عنوان مثال: CCC=(O)O
) پذیرفته نیست.
حلقههای جایگزین را میتوان با نقطه انشعاب در حلقه نوشت، همانطور که در COc(c1)cccc1C#N
(تصویر) و COc(cc1)ccc1C#N
(تصویر) دیده میشوند که ایزومرهای ۳ و ۴-سیانوآنیزول را کد میکنند. نوشتن اسمایلز برای حلقههای جایگزین به این روش میتواند آنها را برای انسان خواناتر میکند.
یکی از شاخههایی که نیازی به استفاده از پرانتز در فرمولنویسی ندارد، پیوندهای حلقه بسته هستند. انتخاب مناسب پیوندهای تکمیل حلقه میتواند تعداد پرانتزهای مورد نیاز را کاهش دهد. به عنوان مثال، تولوئن معمولاً به صورت Cc1ccccc1
or c1ccccc1C
نوشته میشود تا از بهکارگیری پرانتزهای مورد نیاز در روش c1cc(C)ccc1
یا c1cc(ccc1)C
اجتناب شود.
ایزوتوپ
[ویرایش]ایزوتوپها با عددی برابر با جرم ایزوتوپی عدد صحیح قبل از نماد اتمی مشخص میشوند. بنزن که یک اتم آن کربن-۱۴ است بهصورت [14c]1ccccc1
و دئوتراتد کلروفرم بهصورت [2H]C(Cl)(Cl)Cl
نوشته میشود.
مثالها
[ویرایش]مولکول | ساختار | فرمول اسمایلز |
---|---|---|
دینیتروژن | N≡N | N#N
|
متیل ایزوسیانات (MIC) | CH3−N=C=O | CN=C=O
|
مس(II) سولفات | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-]
|
وانیلین | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
| |
ملاتونین (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
| |
فلاووپررئین (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
| |
نیکوتین (C10H14N2) | CN1CCC[C@H]1c2cccnc2
| |
اوئنانتوتوکسین (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
| |
پیرترین II (C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
| |
آفلاتوکسین B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
| |
گلوکز (β-D-گلوکوپیرانوز) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
| |
برژنین (کاسکاتین، نوعی صمغ) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
| |
یک فرومون شپشک کالیفرنیایی | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
| |
(2S،5R)-کالکوگران: یک فرومون در سوسکهای پوستهنشین «پیتیوجنس کالکوگرافوس»[۷] | CC[C@H](O1)CC[C@@]12CCCO2
| |
آلفا-توژون (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
| |
تیامین (ویتامین ب۱, C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N
|
برای نشان دادن یک مولکول با بیش از ۹ حلقه، مولکول «سفالوستاتین-۱» را در نظر بگیرید[۸] یک پیرازین استروئیدی ۱۳ حلقهای با فرمول تجربیC54H74N2O10 که از یکی از نیمطنابداران اقیانوس هند به نام «سفالودیسکوس گیلکریستی» بهدست آمد:
با گروه متیل در منتهیالیه سمت چپ شکل شروع کنید:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
در جلوی شاخص برچسبهایِ تکمیلِ حلقه (بیش از ۹ حلقه) ظاهر میشود.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Weininger D (February 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Computer Sciences. 28 (1): 31–6. doi:10.1021/ci00057a005.
- ↑ Weininger D, Weininger A, Weininger JL (May 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling. 29 (2): 97–101. doi:10.1021/ci00062a008.
- ↑ Weininger D (August 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling. 30 (3): 237–43. doi:10.1021/ci00067a005.
- ↑ Swanson RP (2004). "The Entrance of Informatics into Combinatorial Chemistry" (PDF). In Rayward WB, Bowden ME (eds.). The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation. Medford, NJ: Information Today. p. 205. ISBN 978-1-57387-229-4.
- ↑ Anderson E, Veith GD, Weininger D (1987). SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.
- ↑ "SMILES Tutorial: What is SMILES?". U.S. EPA. Archived from the original on 28 March 2008. Retrieved 2012-09-23.
- ↑ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay". Journal of Chemical Ecology. 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
- ↑ "CID 183413". PubChem (به انگلیسی). Retrieved May 12, 2012.