این دستور cdhit است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.
برنامه:
نام
cdhit - به سرعت توالی ها را گروه بندی کنید
خلاصه
cdhit [گزینه]
شرح
====== CD-HIT نسخه 4.6 (ساخته شده در 23 ژانویه 2016) ======
گزینه
-i نام فایل ورودی با فرمت fasta، مورد نیاز است
-o نام فایل خروجی، مورد نیاز
-c آستانه هویت توالی، پیشفرض 0.9 این «جهانی» cd-hit پیشفرض است
هویت توالی" محاسبه شده به صورت: تعداد اسیدهای آمینه یکسان در تراز
تقسیم بر طول کامل دنباله کوتاهتر
-G از شناسه توالی جهانی استفاده کنید، اگر روی 1 تنظیم شود، پیش فرض 0 باشد، سپس از دنباله محلی استفاده کنید
هویت، محاسبه شده به صورت: تعداد اسیدهای آمینه یکسان در تراز تقسیم بر
طول تراز توجه داشته باشید!!! استفاده نکنید -G 0 مگر اینکه از تراز استفاده کنید
کنترل های پوشش گزینه ها را ببینید -aL, -AL, -مانند, -مانند
-b پهنای باند تراز، پیشفرض 20
-M محدودیت حافظه (در مگابایت) برای برنامه، پیش فرض 800. 0 برای نامحدود؛
-T تعداد رشته ها، پیش فرض 1; با 0، تمام CPU ها استفاده خواهند شد
-n word_length، پیش فرض 5، راهنمای کاربر برای انتخاب آن را ببینید
-l طول توالیهای دور انداختن، پیشفرض 10
-t تحمل برای افزونگی، پیش فرض 2
-d طول توضیحات در فایل clstr.، پیش فرض 20 اگر روی 0 تنظیم شود، فستا را می گیرد
defline و در اولین فاصله متوقف می شود
-s برش اختلاف طول، به طور پیش فرض 0.0 اگر روی 0.9 تنظیم شود، دنباله های کوتاهتر نیاز دارند
حداقل 90% طول نماینده خوشه باشد
-S برش اختلاف طول در اسید آمینه، به طور پیش فرض 999999 اگر روی 60 تنظیم شود، طول
تفاوت بین دنباله های کوتاهتر و نماینده خوشه می تواند
بزرگتر از 60 نباشد
-aL پوشش تراز برای دنباله طولانی تر، پیش فرض 0.0 اگر روی 0.9 تنظیم شود،
تراز باید 90٪ از دنباله را پوشش دهد
-AL کنترل پوشش تراز برای دنباله طولانی تر، پیش فرض 99999999 اگر روی 60 تنظیم شود،
و طول دنباله 400 است، سپس تراز باید >= 340 (400-60) باشد.
مانده ها
-مانند پوشش هم ترازی برای دنباله کوتاهتر، 0.0 پیشفرض اگر روی 0.9 تنظیم شود
تراز باید 90٪ از دنباله را پوشش دهد
-مانند کنترل پوشش هم ترازی برای دنباله کوتاهتر، اگر روی 99999999 تنظیم شود، 60 پیشفرض است.
و طول دنباله 400 است، سپس تراز باید >= 340 (400-60) باشد.
مانده ها
-A کنترل پوشش حداقل تراز برای هر دو دنباله، تراز پیش فرض باید 0 باشد
cover >= این مقدار برای هر دو دنباله
-uL حداکثر درصد نامتناسب برای دنباله طولانی تر، اگر روی 1.0 تنظیم شود 0.1 پیش فرض،
منطقه بی همتا (به استثنای شکاف های پیشرو و باطله) نباید بیش از 10٪ باشد.
از دنباله
-uS حداکثر درصد غیر مشابه برای دنباله کوتاهتر، اگر روی 1.0 تنظیم شود 0.1 پیشفرض،
منطقه بی همتا (به استثنای شکاف های پیشرو و باطله) نباید بیش از 10٪ باشد.
از دنباله
-U حداکثر طول نامتناسب، پیشفرض 99999999 اگر روی 10 تنظیم شود، منطقه بیهمتا
(به استثنای شکاف های پیشرو و دم) نباید بیش از 10 پایه باشد
-B 1 یا 0، پیشفرض 0، بهطور پیشفرض، اگر روی 1 تنظیم شود، توالیها در RAM ذخیره میشوند.
بر روی هارد دیسک ذخیره می شوند، توصیه می شود از آن استفاده کنید -B 1 برای پایگاه داده های بزرگ
-p 1 یا 0، 0 پیش فرض اگر روی 1 تنظیم شود، همپوشانی چاپ در فایل clstr.
-g 1 یا 0، پیش فرض 0 توسط الگوریتم پیش فرض cd-hit، یک دنباله در خوشه
اولین خوشه ای که آستانه را برآورده می کند (خوشه سریع). اگر روی 1 تنظیم شود، برنامه این کار را انجام می دهد
آن را در شبیه ترین خوشه ای که آستانه را برآورده می کند (دقیق اما کند) خوشه کنید
حالت) اما 1 یا 0 نمایندگان خوشه های نهایی را تغییر نمی دهد
-بک نوشتن فایل خوشه پشتیبان (1 یا 0، پیش فرض 0)
-h چاپ این راهنما
سوالات، اشکالات، تماس با Limin Fu در l2fu@ucsd.edu، یا Weizhong لی در liwz@sdsc.edu
برای اطلاع از نسخه های به روز شده و اطلاعات به این آدرس مراجعه کنید: http://cd-hit.org
وب سرور cd-hit نیز در دسترس است http://cd-hit.org
اگر cd-hit را مفید میدانید، لطفاً ذکر کنید:
"خوشه بندی توالی های بسیار همولوگ برای کاهش اندازه پروتئین بزرگ
پایگاه داده"، ویژونگ لی، لوکاس یاروسفسکی و آدام گودزیک. بیوانفورماتیک، (2001)
17:282-283 "تحمل مقداری افزونگی به طور قابل توجهی سرعت خوشه بندی بزرگ را افزایش می دهد.
پایگاههای اطلاعاتی پروتئین، ویژونگ لی، لوکاس یاروسفسکی و آدام گودزیک. بیوانفورماتیک،
(2002) 18:77-82
با استفاده از خدمات onworks.net از cdhit آنلاین استفاده کنید