انگلیسیفرانسویاسپانیایی

Ad


فاویکون OnWorks

htseq-count - آنلاین در ابر

htseq-count را در ارائه دهنده هاست رایگان OnWorks از طریق Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا کنید.

این دستور htseq-count است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

برنامه:

نام


htseq-count - شمارش تعداد خوانده شده در یک فایل تراز SAM که به ویژگی های GFF نگاشت می شود.

با توجه به یک فایل با خواندن توالی هم تراز و لیستی از ویژگی های ژنومی، یک کار رایج است
شمارش تعداد دفعات خواندن نقشه برای هر ویژگی است.

یک ویژگی در اینجا یک بازه (یعنی محدوده ای از موقعیت ها) در یک کروموزوم یا یک اتحاد از
چنین فواصل

در مورد RNA-Seq، ویژگی‌ها معمولاً ژن‌ها هستند، جایی که هر ژن در نظر گرفته می‌شود
در اینجا به عنوان اتحاد همه اگزون های آن. همچنین می توان هر اگزون را به عنوان یک ویژگی در نظر گرفت، به عنوان مثال، در
به منظور بررسی اتصال جایگزین برای مقایسه Chip-Seq، ویژگی ها ممکن است باشد
منطقه الزام آور از یک لیست از پیش تعیین شده

برای تصمیم گیری در مورد نحوه برخورد با خواندن هایی که بیش از یک مورد همپوشانی دارند، باید مراقبت ویژه ای انجام شود
ویژگی. این htseq-count اسکریپت امکان انتخاب بین سه حالت را فراهم می کند. البته اگر هیچ کدام
از این موارد متناسب با نیاز شماست، می توانید اسکریپت خود را با HTSeq بنویسید. فصل را ببینید سفر
برای یک راهنمای گام به گام در مورد نحوه انجام این کار.

سه حالت وضوح همپوشانی از htseq-count به صورت زیر کار کنید برای هر موقعیت i in
خواندن، یک مجموعه S(i) به عنوان مجموعه ای از موقعیت های همپوشانی همه ویژگی ها تعریف می شود i. سپس،
مجموعه را در نظر بگیرید S، که (با i در حال اجرا در تمام موقعیت های موجود در خواندن)

· اتحاد همه مجموعه ها S(i) برای حالت اتحادیه.

· تقاطع همه مجموعه ها S(i) برای حالت تقاطع-سخت.

· تقاطع تمام مجموعه های غیر خالی S(i) برای حالت تقاطع - خالی.

If S دقیقاً شامل یک ویژگی است، خواندن برای این ویژگی محاسبه می شود. اگر حاوی باشد
بیش از یک ویژگی، خوانده شده به حساب می آید مبهم (و برای هیچ کدام حساب نمی شود
ویژگی ها)، و اگر S خالی است، خوانده شده به حساب می آید no_feature.

شکل زیر تأثیر این سه حالت را نشان می دهد: [تصویر]

طریقه استفاده


پس از نصب HTSeq (نگاه کنید به نصب)، می توانید بدوید htseq-count از دستور
خط:

htseq-count [گزینه ها]

اگر فایل htseq-qa در مسیر شما نیست، می توانید متناوباً با اسکریپت تماس بگیرید

python -m HTSeq.scripts.count [گزینه‌ها]

را شامل خواندن های تراز شده در قالب SAM است. (توجه داشته باشید که SAMtools
حاوی اسکریپت های پرل برای تبدیل اکثر فرمت های تراز به SAM باشد.) حتما از a استفاده کنید
تراز کننده با آگاهی از اتصال مانند TopHat. HTSeq-count به طور کامل از اطلاعات موجود در آن استفاده می کند
میدان سیگار

برای خواندن از ورودی استاندارد، استفاده کنید - as .

اگر داده های جفت شده دارید، ابتدا باید فایل SAM را بر اساس نام خوانده شده مرتب کنید. (اگر شما
ابزار مرتب سازی نمی تواند فایل های بزرگ را مدیریت کند، به عنوان مثال Ruan Jue's را امتحان کنید msort، موجود از SOAP
سایت اینترنتی.)

در شامل ویژگی های موجود در GFF قالب.

اسکریپت یک جدول با تعداد برای هر ویژگی و به دنبال آن شمارنده های ویژه را خروجی می دهد.
این تعداد خوانده شده است که به دلایل مختلف برای هیچ ویژگی شمارش نشده است، یعنی:

· no_feature: خواندنی هایی که نمی توانند به هیچ ویژگی اختصاص داده شوند (مجموعه S همانطور که در بالا توضیح داده شد
خالی بود).

· مبهم: خواندنی هایی که می توانستند به بیش از یک ویژگی اختصاص داده شوند و از این رو بودند
برای هیچ یک از اینها محاسبه نمی شود (مجموعه S بیش از یک عنصر داشت).

· too_low_aQual: خوانده شده که به دلیل شمارش نشد -a گزینه زیر را ببینید

· non_aligned: در فایل SAM بدون تراز می خواند

· alignment_not_unique: با بیش از یک تراز گزارش شده خوانده می شود. این خوانده ها هستند
شناخته شده از NH تگ فیلد SAM اختیاری. (اگر aligner این فیلد را تنظیم نکند،
ضرب‌خوان‌های تراز شده چندین بار شمارش می‌شوند.)

مهم: پیش‌فرض برای Strandedness است بله. اگر داده RNA-Seq شما ساخته نشده باشد
با یک پروتکل رشته خاص، این باعث می شود نیمی از خواندن ها از بین بروند. از این رو، بسازید
حتما گزینه را تنظیم کنید --stranded=خیر مگر اینکه داده های رشته خاصی داشته باشید!

گزینه
-m ، --mode=
حالت برای رسیدگی به خواندن بیش از یک ویژگی با هم تداخل دارند. مقادیر ممکن برای
هستند اتحادیه, تقاطع-سخت و تقاطع - خالی (پیش فرض: اتحادیه)

-s <بله، نه or معکوس>، --stranded= نه ، or معکوس>
آیا داده ها از یک سنجش رشته ای خاص هستند (پیش فرض: بله)

برای stranded=no، خواندن با یک ویژگی بدون توجه به همپوشانی در نظر گرفته می شود
خواه به همان رشته یا رشته مخالف ویژگی نگاشت شده باشد. برای
stranded=بله و خواندنهای یک پایانی، خوانده شده باید به همان رشته نگاشت شود
ویژگی برای خواندن های زوجی، اولین خواندن باید در همان رشته و
دوم در رشته مخالف خوانده می شود. برای stranded=reverse، این قوانین هستند
معکوس شد

-a ، --a=
رد شدن از همه خواندن ها با کیفیت تراز کمتر از مقدار حداقل داده شده (پیش فرض:
0)

-t <ویژگی نوع>، --نوع= نوع>
نوع ویژگی (ستون سوم در فایل GFF) مورد استفاده قرار می گیرد، همه ویژگی ها از نوع دیگر هستند
نادیده گرفته شد (پیش‌فرض، مناسب برای RNA-Seq و گروه GTF فایل ها: اگزون)

-i <id ویژگی>، --idattr= ویژگی>
ویژگی GFF برای استفاده به عنوان شناسه ویژگی. چندین خط GFF با شناسه ویژگی یکسان
به عنوان بخشی از همان ویژگی در نظر گرفته خواهد شد. شناسه ویژگی برای شناسایی استفاده می شود
تعداد در جدول خروجی پیش فرض، مناسب برای RNA-SEq و Ensembl GTF است
فایل ها، است gene_id.

-o ، --samout=
تمام رکوردهای تراز SAM را در یک فایل SAM خروجی به نام بنویسید ،
حاشیه نویسی هر خط با انتساب آن به یک ویژگی یا یک شمارنده خاص (به عنوان یک
فیلد اختیاری با برچسب 'XF')

-q، --ساکت
سرکوب گزارش پیشرفت و هشدارها

-h، --کمک
نمایش خلاصه استفاده و خروج

از htseq-count به صورت آنلاین با استفاده از خدمات onworks.net استفاده کنید


سرورها و ایستگاه های کاری رایگان

دانلود برنامه های ویندوز و لینوکس

دستورات لینوکس

Ad