عربيالفرنسيةالإسبانية

Ad


OnWorks فافيكون

getData - عبر الإنترنت في السحابة

قم بتشغيل getData في موفر الاستضافة المجاني OnWorks عبر Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

هذا هو الأمر getData الذي يمكن تشغيله في موفر الاستضافة المجاني OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

برنامج:

اسم


getData - يسترد قواعد البيانات من الإنترنت

موجز


الحصول على البيانات [--mirrordir ]

الحصول على البيانات --قائمة

الوصف


تواجه المعلوماتية الحيوية مشكلة جوهرية تتمثل في تقديم البيانات البيولوجية إلى المستخدم النهائي.
يواجه علماء الفلك نفس المشكلة، وقد طرحها علماء فيزياء الجسيمات
مع (أولاً) الويب و(ثانيًا) الشبكات الحسابية لمعالجة مشكلاتهم.
يساعد دبيان في البرامج ولكنه لن يوفر مثل هذه مجموعات البيانات الضخمة المتساوية
يتم تحديثه بشكل متكرر - ولا حتى في volatile.debian.org. معظم الباحثين في مجال المعلوماتية الحيوية سيفعلون ذلك
لا تحتاج إلى الكثير من قواعد البيانات هذه. والأكثر من ذلك سوف نستمر بكل سرور في استخدام الجمهور
الخدمات عن بعد.

بالنسبة لأولئك الذين يحتاجون إلى مجموعة من قواعد البيانات بشكل منتظم، يجب أن يكون هذا البرنامج النصي بمثابة بداية
أتمتة العبء لتحميل البيانات وتحديث المؤشرات وما شابه. العالم لديه
رأيت مثل هذا السحر من قبل باستخدام أداة Prisma من Lion Biosciences
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) ولكن ماذا عن شيء أبسط
(كبداية) تقترب على الأقل مما نرغب فيه وتكون مجانية. يجب أن يكون الهدف
تلبية احتياجات جميع (معظم) المجتمعات، وليس فقط عالم المعلوماتية الحيوية. ال
ومن ثم تم صنع البذور باستخدام قواعد بيانات من علم الفلك.

يرجى الاتصال بمجتمع Debian-Med إذا كنت ترى أن هذا البرنامج جاهز تقريبًا
لاحتياجاتك وشرح ما لا يزال يتعين إضافته. قواعد البيانات العامة التي قمت بإدارتها
للتكامل مع هذا النظام، نرحب ترحيبًا حارًا أيضًا كتعليقات.

OPTIONS


--مساعدة
هذه المساعدة

--رجل
تقديم وصف أكثر تفصيلا في شكل صفحة دليل.

- الإسراف
قل كلمة أو كلمتين أكثر من المطلوب.

--mirrordir
يحدد دليل الوجهة. سيتم عكس البيانات إلى المجلد
$mirrordir/$dbname/. يرجى العلم أنه لا يتم تخزين هذا Mirrordir في أي مكان. ال
وبالتالي يمكن نقل الدليل إلى مواقع عشوائية في أي وقت، إذا كان المستخدمون
من البيانات هي فقط على علم بهذا التحرك.

--قائمة
يسرد كافة قواعد البيانات التي قد يُطلب تثبيتها.


ولن يتم تنزيل سوى قواعد البيانات التي تم طلب تنزيلها بشكل صريح
تم تنزيله. قد تتطلب قواعد البيانات هذه نطاقًا تردديًا كبيرًا، لذا يرجى التأكد من ذلك
أعلم أنك تفعل الشيء الصحيح.

--بريد
قم بإجراء عملية التفريغ/الفهرسة فقط، ولكن لا تقم باسترداد/تحديث قواعد البيانات. هذا
يعتبر الخيار مفيدًا عند إضافة نظام إدارة قاعدة بيانات جديد إلى
النظام، على سبيل المثال بعد تثبيت EMBOSS.

--مصدر
قم بإجراء عملية التفريغ/الفهرسة فقط، ولكن لا تقم باسترداد/تحديث قواعد البيانات. هذا
قد يكون الخيار مفيدًا عندما يكون مسؤول الموقع على علم بالتحليلات الحالية التي
لا ينبغي أن تنزعج من عملية الفهرسة ولكن يمكن التنزيل من الشبكة
بدأت بالفعل.

--confd
يسمح بتحديد الدليل الذي يمكن تخزين ملفات متعددة فيه
سيتم قراءتها بواسطة getData عند استدعائها. هذه قد تضيف قيمًا إلى العالمية
المتغير %toBeMirrored الذي يحدد قواعد البيانات ونصوص التنزيل الخاصة بها.

--config
إعداد ملف التكوين الذي سيتم إعادة استخدامه لنظام معين
الذي يتعامل مع قاعدة البيانات. تتم طباعة التكوين على stdout ومن المتوقع
ليتم نسخها يدويًا إلى الملف أو المجلد المناسب. يمكن للمرء أن يتصور هذه العملية ل
يمكن أن تكون آلية، على الرغم من أن هذا لم يتم تنفيذه بعد. متاح حاليا هو دعم ل
نظامين:

زخرف يحدد هذا مجموعة أدوات EMBOSS للمعلوماتية الحيوية (www.emboss.org)
والتي تتوفر أيضًا كحزمة دبيان. التكوين ل Uniprot
ستسمح قواعد البيانات باسترجاع التسلسل باستخدام أداة seqret.

dre - بيئة تشغيل شبكة ARC
بيئات وقت التشغيل (REs) هي مفهوم للبرمجيات الوسيطة لشبكة ARC
يمكن تعلم المزيد عن http://www.nordugrid.org. هناك حاجة إلى البرنامج النصي ل
تشير إلى وجود بيئة وقت التشغيل. هنا اسم البرنامج النصي
أمر مهم، وهو أمر لا يمكن تعريفه بواسطة getData على الرغم من أنه يكتب إليه فقط
com.stdout.

لسوء الحظ، لم يتم العثور على التكوين حتى الآن ليكون نمطيًا. كل ذلك يحتاج
أن يحدث داخل البرنامج النصي getData نفسه.

--يزيل
يقوم هذا الأمر بإزالة المجلدات التي تخزن البيانات. من حيث المبدأ، يمكن تنفيذ هذا
يدويًا، على الرغم من أن بعض قواعد البيانات قد يكون لها متطلبات خاصة قبل أو بعد الإزالة،
والتي يمكن تحديدها بشكل فردي لكل قاعدة بيانات.

SPECIFICATION OF قواعد بيانات


يتم تحديد قواعد البيانات للتنزيل والمعالجة اللاحقة في موقعين مختلفين.
أحدهما هو البرنامج النصي getData نفسه، والآخر عبارة عن ملفات مخزنة في /etc/getData.d. أيضاً
سيحدد عناصر تجزئة كبيرة إلى حد كبير. المفتاح هو المعرف الذي هو أيضا
يظهر بواسطة التوجيه "getData --list". القيمة هي إشارة إلى تجزئة أخرى، والتي
يعين قيمًا لجميع الخصائص الموجودة في قاعدة البيانات لتنزيلها ونشرها
المعالجة:

الاسم - اسم مطبوع بشكل جميل يمكن قراءته بواسطة الإنسان أو وصف قصير يوضح بوضوح
العالم ما هي قاعدة البيانات هذه حول.
ومن الأمثلة السيئة على ذلك مجرد تخصيص "DE405"، الذي يفهمه القليل من الناس. افضل
المثال هو "Pfam-A: عائلات ومجالات البروتين المنسقة يدويًا، فقط البذور هي
"مقدم."" يمكن للمرء أن يجادل بأنه ينبغي إعادة تسمية هذا الحقل إلى "الوصف".

أوامر source-shell لإجراء التنزيل الأولي والتحديثات اللاحقة
عادةً ما يتم استخدام أداة wget للتنزيل. هذا السيناريو الصغير المقدم هو
يتم تنفيذه أسفل دليل Mirrordir. أحد الأمثلة البسيطة هو "wget ​​--mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". مع الزيادة
الكفاءة في استخدام wget، يميل المرء إلى استبدال "--mirror" بـ "--recursive"
--لا توجد أدلة مضيفة --لا توجد أدلة --المستوى 1 --لا يوجد أحد الوالدين".

ما بعد التنزيل - أوامر shell التي يتم تنفيذها بعد تنزيل البيانات.
المثال البسيط (وغير الضروري عند استخدام العلامات الصحيحة لـ wget) هو مجرد مثال
إعداد رابط رمزي:

"post-download" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405 ."

تم بذل المزيد من الجهد في TrEMBL لدمج الإصدارات مع الإصدارات اللاحقة
التحديثات والفهرسة لـ EMBOSS:

"d=uncompressed; إذا [ ! -d \$d ]; ثم mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(ابحث عن ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& القرص المضغوط \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto"،

النقاط تربط السلاسل في بيرل. وهذا يساعد على سهولة قراءة التعليمات البرمجية. متى
عند كتابة هذه النصوص، يرجى العلم أن الأسطر الجديدة لا تفصل بين الفرد
الأوامر هنا. الفاصلة المنقوطة مطلوبة.

يوصي - يقترح وجود سلسلة من الحزم لاستخدام قاعدة البيانات أو
أداء الفهرسة.
لا يتم استخدام هذه المعلومات في الوقت الحالي، وذلك أيضًا لجعل هذا البرنامج النصي أكثر فائدة
توزيعات لينكس أخرى غير دبيان.

getWgetOptions - أمر خاص للحصول على خيارات wget
يتم استخدام هذا في وقت التنزيل بواسطة ملفات makefiles، وليس المقصود استخدامه بشكل تفاعلي،
ويمكن إزالتها في أي وقت.

أمثلة


فيما يلي قائمة بالمعرفات وأوصاف قواعد البيانات الأربع الأولى التي
المنطقة المتاحة عبر getData على نظامك.

./getData --mirrordir=/local/databases/mirrored --list | الرأس 4

لتثبيت أي قاعدة بيانات معينة، قم فقط بإعطاء اسمها كوسيطة. إذا كان التثبيت
يتم تنفيذه في دليل آخر غير الدليل الافتراضي، فيجب أن يكون --mirrordir مرة أخرى
تعيين.

./getData swiss.dat

لإزالة قاعدة البيانات مرة أخرى، قم بإعطاء البرنامج النصي تلميحًا باستخدام علامة --remove

./getData - إزالة swiss.dat

لإجراء الفهرسة فقط والتحايل على التنزيل (انتبه، هذا أمر خطير
نظرًا لأن ملفات الفهرس ستبدو أحدث من قاعدة البيانات)، فافعل

./getData --post swiss.dat

الاستثناء الخاص لهذه البرامج النصية الإضافية هو علامة --config حيث أنها تأخذ قائمة
الحجج الإضافية. ويجب أن يشير كل منها إلى نظام معين قد تكون قاعدة البيانات هذه تابعة له
الفائدة ل. يوجد اليوم نظامان مدعومان:

ALL


نحتاج الآن إلى آلية يمكن للحزم من خلالها تحديد الخطافات التي سيتم استدعاؤها
تحديث قاعدة بيانات. لكن لا يمكننا أن نفترض أن كل الفهرسة يمكن إجراؤها
نظرًا لرغبة المستخدم أيضًا في تثبيت بعض الحزم. كيفية تكوين
هذا صحيح متروك ليتقرر.

استخدم getData عبر الإنترنت باستخدام خدمات onworks.net


خوادم ومحطات عمل مجانية

قم بتنزيل تطبيقات Windows و Linux

أوامر لينكس

Ad