ภาษาอังกฤษภาษาฝรั่งเศสสเปน

Ad


ไอคอน Fav ของ OnWorks

getData - ออนไลน์ในคลาวด์

เรียกใช้ getData ในผู้ให้บริการโฮสต์ฟรีของ OnWorks ผ่าน Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

นี่คือคำสั่ง getData ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


getData - ดึงฐานข้อมูลจากอินเทอร์เน็ต

เรื่องย่อ


getData [ --mirrordir ]

getData -- รายการ

DESCRIPTION


ชีวสารสนเทศมีปัญหาที่แท้จริงในการนำข้อมูลทางชีววิทยาไปยังผู้ใช้ปลายทาง
นักดาราศาสตร์ก็มีปัญหาเท่ากัน นักฟิสิกส์อนุภาคก็โผล่มา
ด้วย (อันดับแรก) เว็บและ (ที่สอง) กริดการคำนวณเพื่อแก้ไขปัญหา
Debian ช่วยด้วยโปรแกรมต่างๆ แต่จะไม่ให้ชุดข้อมูลขนาดใหญ่ที่เท่ากัน
อัปเดตบ่อยครั้ง - ไม่แม้แต่ใน volatile.debian.org นักวิจัยด้านชีวสารสนเทศส่วนใหญ่จะ
ไม่ต้องการฐานข้อมูลดังกล่าวมากเกินไป และยิ่งไปกว่านั้นยินดีที่จะใช้สาธารณะต่อไป
บริการจากระยะไกล

สำหรับผู้ที่ต้องการชุดฐานข้อมูลเป็นประจำ สคริปต์นี้จะเป็นการเริ่มต้น
ทำให้ภาระในการดาวน์โหลดข้อมูลและอัปเดตดัชนีและอื่น ๆ เป็นไปโดยอัตโนมัติ โลกมี
เคยเห็นเวทมนตร์ดังกล่าวมาก่อนด้วยเครื่องมือ Lion Biosciences Prisma
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) แต่สิ่งที่ง่ายกว่านี้ล่ะ
(เป็นจุดเริ่มต้น) ที่อย่างน้อยก็ใกล้เคียงกับสิ่งที่เราต้องการและเป็นอิสระ จุดมุ่งหมายต้องเป็นไป
ตอบสนองความต้องการของทุกชุมชน (ส่วนใหญ่) ไม่ใช่แค่โลกชีวสารสนเทศเท่านั้น NS
ดังนั้นเมล็ดพันธุ์จึงถูกสร้างขึ้นด้วยฐานข้อมูลจากดาราศาสตร์

โปรดติดต่อชุมชน Debian-Med หากคุณคิดว่าโปรแกรมนี้พร้อมแล้ว
สำหรับความต้องการของคุณและอธิบายสิ่งที่ยังต้องเพิ่ม ฐานข้อมูลสาธารณะที่คุณจัดการ
ในการผสานรวมกับระบบนี้ ได้รับการตอบรับเป็นอย่างดี

OPTIONS


--ช่วยด้วย
ความช่วยเหลือนี้

--ชาย
นำเสนอรายละเอียดเพิ่มเติมในรูปแบบของ man page

--รายละเอียด
พูดหนึ่งหรือสองคำเกินความจำเป็น

--mirrordir
ระบุไดเร็กทอรีปลายทาง ข้อมูลจะถูกมิเรอร์ไปยังโฟลเดอร์
$mirrordir/$dbname/. โปรดทราบว่า mirrordir นี้ไม่มีการจัดเก็บไว้ที่ใด NS
ไดเร็กทอรีจึงสามารถย้ายไปยังตำแหน่งใดก็ได้เมื่อใดก็ได้ หากผู้ใช้
ของข้อมูลจะได้รับแจ้งเกี่ยวกับการย้ายเท่านั้น

--รายการ
แสดงรายการฐานข้อมูลทั้งหมดที่อาจร้องขอให้ติดตั้ง


เฉพาะฐานข้อมูลที่ร้องขอให้ดาวน์โหลดอย่างชัดแจ้งเท่านั้นที่จะเป็น
ดาวน์โหลดแล้ว ฐานข้อมูลดังกล่าวอาจต้องใช้แบนด์วิธมาก ดังนั้นโปรดแน่ใจว่าคุณ
รู้ว่าคุณกำลังทำสิ่งที่ถูกต้อง

--โพสต์
ดำเนินการเฉพาะการเปิดออก/สร้างดัชนี แต่ห้ามดึง/อัปเดตฐานข้อมูล นี้
ตัวเลือกถือว่ามีประโยชน์เมื่อเพิ่มระบบการจัดการฐานข้อมูลใหม่ให้กับ
ระบบ เช่น หลังจากติดตั้ง EMBOSS

--แหล่งที่มา
ดำเนินการเฉพาะการเปิดออก/สร้างดัชนี แต่ห้ามดึง/อัปเดตฐานข้อมูล นี้
ตัวเลือกอาจเป็นประโยชน์เมื่อผู้ดูแลเว็บไซต์ทราบถึงการวิเคราะห์ในปัจจุบันว่า
ไม่ควรถูกรบกวนโดยกระบวนการสร้างดัชนี แต่การดาวน์โหลดจากเน็ตสามารถทำได้
ได้เริ่มต้นขึ้นแล้ว

--confd
อนุญาตให้กำหนดคุณสมบัติของไดเร็กทอรีที่สามารถจัดเก็บไฟล์ได้หลายไฟล์นั้น
จะถูกอ่านโดย getData เมื่อเรียกใช้ สิ่งเหล่านี้อาจเพิ่มมูลค่าให้กับโลก
ตัวแปร %toBeMirrored ที่ระบุฐานข้อมูลและสคริปต์การดาวน์โหลด

--config
การจัดเตรียมไฟล์คอนฟิกูเรชันที่จะนำมาใช้ใหม่สำหรับระบบโดยเฉพาะ
ที่เกี่ยวข้องกับฐานข้อมูล การกำหนดค่าถูกพิมพ์ไปที่ stdout และคาดว่า
เพื่อคัดลอกไปยังไฟล์หรือโฟลเดอร์ที่เหมาะสมด้วยตนเอง เราสามารถจินตนาการถึงกระบวนการนี้เพื่อ
เป็นไปโดยอัตโนมัติแม้ว่าจะยังไม่ได้ดำเนินการก็ตาม ปัจจุบันมีการสนับสนุนสำหรับ
สองระบบ:

emboss ระบุชุดเครื่องมือ EMBOSS สำหรับชีวสารสนเทศ (www.emboss.org)
ที่มีให้เป็นแพ็คเกจ Debian ด้วย การกำหนดค่าสำหรับ Uniprot
ฐานข้อมูลจะอนุญาตให้ดึงข้อมูลลำดับด้วยเครื่องมือ seqret

dre - สภาพแวดล้อมรันไทม์ของ ARC Grid
สภาพแวดล้อมรันไทม์ (RE) เป็นแนวคิดของมิดเดิลแวร์กริด ARC ซึ่ง
สามารถเรียนรู้เพิ่มเติมเกี่ยวกับ http://www.nordugrid.org. ต้องใช้สคริปต์เพื่อ
บ่งชี้ว่ามีสภาวะแวดล้อมรันไทม์ นี่ชื่อสคริปต์
มีความสำคัญ ซึ่ง getData กำหนดไม่ได้ เพราะมันเขียนถึง . เท่านั้น
มาตรฐาน

ขออภัย การกำหนดค่ายังไม่พบว่าเป็นแบบโมดูลาร์ ทุกความต้องการ
ให้เกิดขึ้นภายในสคริปต์ getData เอง

--ลบ
คำสั่งนี้จะลบโฟลเดอร์ที่เก็บข้อมูล โดยหลักการแล้วสิ่งนี้สามารถทำได้
ด้วยตนเอง แม้ว่าฐานข้อมูลบางแห่งอาจมีข้อกำหนดพิเศษก่อนหรือหลังการลบ
ซึ่งสามารถระบุเป็นรายบุคคลสำหรับทุกฐานข้อมูล

คุณสมบัติ OF ฐานข้อมูล


ฐานข้อมูลสำหรับการดาวน์โหลดและหลังการประมวลผลมีการระบุไว้ที่ตำแหน่งที่แตกต่างกันสองแห่ง
หนึ่งคือสคริปต์ getData เอง อีกไฟล์หนึ่งคือไฟล์ที่จัดเก็บไว้ใน /etc/getData.d ทั้ง
จะกำหนดองค์ประกอบของแฮชขนาดใหญ่มาก กุญแจสำคัญคือตัวระบุซึ่งก็คือ
แสดงโดยคำสั่ง 'getData --list' ค่านี้อ้างอิงถึงแฮชอื่นซึ่ง
กำหนดค่าให้กับคุณสมบัติทั้งหมดที่ฐานข้อมูลมีสำหรับการดาวน์โหลดและหลัง
การประมวลผล:

ชื่อ - ชื่อพิมพ์สวยที่มนุษย์อ่านได้หรือคำอธิบายสั้น ๆ ที่ทำให้ .ชัดเจน
โลกว่าฐานข้อมูลนี้เกี่ยวกับอะไร
ตัวอย่างที่ไม่ดีคือการมอบหมาย "DE405" เพียงอย่างเดียวซึ่งมีเพียงไม่กี่คนที่เข้าใจ ที่ดีกว่า
ตัวอย่างคือ "Pfam-A : แฟมิลีและโดเมนที่ดูแลจัดการด้วยตนเอง มีเพียงเมล็ดเท่านั้นคือ
นำเสนอ." อาจมีคนโต้แย้งว่าควรเปลี่ยนชื่อฟิลด์นั้นเป็น "คำอธิบาย"

แหล่งที่มา - คำสั่งเชลล์เพื่อดำเนินการดาวน์โหลดเริ่มต้นและอัปเดตที่ตามมา
โดยทั่วไปแล้วเครื่องมือ wget จะใช้สำหรับการดาวน์โหลด สคริปต์เล็ก ๆ ที่นำเสนอดังกล่าวคือ
ดำเนินการภายใต้ไดเร็กทอรี mirrordir ตัวอย่างง่ายๆ อย่างหนึ่งคือ "wget ​​--mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". เพิ่มขึ้นเรื่อยๆ
ความชำนาญในการใช้ wget ถูกล่อลวงให้แทนที่ "--mirror" ด้วย "--recursive
--no-host-directories --no-directories --ระดับ 1 --no-parent"

หลังการดาวน์โหลด - คำสั่งเชลล์ที่จะดำเนินการหลังจากดาวน์โหลดข้อมูลแล้ว
ตัวอย่างง่ายๆ (และไม่จำเป็นเมื่อใช้แฟล็กที่เหมาะสมกับ wget) คือเพียง
การตั้งค่าลิงก์สัญลักษณ์:

"หลังดาวน์โหลด" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405"

มีการใช้ความพยายามเพิ่มเติมใน TreMBL เพื่อรวมรุ่นเข้ากับรุ่นต่อๆ มา
การอัปเดตและการจัดทำดัชนีสำหรับ EMBOSS:

"d=uncompressed; if [ ! -d \$d ]; แล้ว mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(ค้นหา ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& ซีดี \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",

จุดเชื่อมต่อสตริงใน Perl ซึ่งจะช่วยให้อ่านโค้ดได้ เมื่อไหร่
การเขียนสคริปต์เหล่านี้ โปรดทราบว่าการขึ้นบรรทัดใหม่จะไม่แยกบุคคลออกจากกัน
คำสั่งที่นี่ ต้องระบุเครื่องหมายอัฒภาค

แนะนำ - แนะนำชุดของแพ็คเกจที่จะนำเสนอสำหรับการใช้ฐานข้อมูลหรือ
ประสิทธิภาพของการจัดทำดัชนี
ข้อมูลนี้ไม่ได้ใช้ในขณะนี้ เพื่อทำให้สคริปต์นี้มีประโยชน์มากขึ้นสำหรับ
ลินุกซ์รุ่นอื่นที่ไม่ใช่ Debian

getWgetOptions - คำสั่งส่วนตัวเพื่อรับตัวเลือก wget
makefiles ใช้ในเวลาดาวน์โหลด ไม่ได้มีจุดประสงค์เพื่อใช้งานแบบโต้ตอบ
และสามารถลบออกได้ตลอดเวลา

ตัวอย่าง


ต่อไปนี้จะแสดงรายการตัวระบุและคำอธิบายของ 4 ฐานข้อมูลแรกที่
พื้นที่ที่พร้อมใช้งานผ่าน getData บนระบบของคุณ

./getData --mirrordir=/local/databases/mirrored --list | หัว 4

ในการติดตั้งฐานข้อมูลใด ๆ ให้ตั้งชื่อเป็นอาร์กิวเมนต์เท่านั้น หากการติดตั้ง
ถูกดำเนินการที่ไดเร็กทอรีอื่นที่ไม่ใช่ค่าดีฟอลต์ ดังนั้น --mirrordir จะต้องเป็น .อีกครั้ง
ตั้ง

./getData swiss.dat

หากต้องการลบฐานข้อมูลอีกครั้ง ให้คำใบ้แก่สคริปต์ด้วย --remove flag

./getData -- ลบ swiss.dat

ในการจัดทำดัชนีเท่านั้นและหลีกเลี่ยงการดาวน์โหลด (โปรดทราบว่าสิ่งนี้เป็นอันตราย
เนื่องจากไฟล์ดัชนีจะดูใหม่กว่าฐานข้อมูล) do

./getData --โพสต์ swiss.dat

ข้อยกเว้นพิเศษสำหรับสคริปต์พิเศษเหล่านี้คือ --config แฟล็กซึ่งใช้รายการของ
อาร์กิวเมนต์พิเศษ แต่ละคนจะต้องระบุระบบเฉพาะที่ฐานข้อมูลนี้อาจเป็นของ
ดอกเบี้ยสำหรับ. ปัจจุบันรองรับสองระบบ:

ทั้งหมด


ตอนนี้เราต้องการกลไกที่แพ็คเกจสามารถระบุ hook ที่จะเรียกใช้บน an
การอัพเดทฐานข้อมูล แต่เราไม่สามารถสรุปได้ว่าทุกการจัดทำดัชนีที่สามารถทำได้
เนื่องจากการติดตั้งบางแพ็คเกจเป็นที่ต้องการของผู้ใช้เช่นกัน วิธีการกำหนดค่า
นี้ถูกต้องเหลือที่จะตัดสินใจ

ใช้ getData ออนไลน์โดยใช้บริการ onworks.net


เซิร์ฟเวอร์และเวิร์กสเตชันฟรี

ดาวน์โหลดแอพ Windows & Linux

คำสั่ง Linux

Ad