นี่คือคำสั่ง getData ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
getData - ดึงฐานข้อมูลจากอินเทอร์เน็ต
เรื่องย่อ
getData [ --mirrordir ]
getData -- รายการ
DESCRIPTION
ชีวสารสนเทศมีปัญหาที่แท้จริงในการนำข้อมูลทางชีววิทยาไปยังผู้ใช้ปลายทาง
นักดาราศาสตร์ก็มีปัญหาเท่ากัน นักฟิสิกส์อนุภาคก็โผล่มา
ด้วย (อันดับแรก) เว็บและ (ที่สอง) กริดการคำนวณเพื่อแก้ไขปัญหา
Debian ช่วยด้วยโปรแกรมต่างๆ แต่จะไม่ให้ชุดข้อมูลขนาดใหญ่ที่เท่ากัน
อัปเดตบ่อยครั้ง - ไม่แม้แต่ใน volatile.debian.org นักวิจัยด้านชีวสารสนเทศส่วนใหญ่จะ
ไม่ต้องการฐานข้อมูลดังกล่าวมากเกินไป และยิ่งไปกว่านั้นยินดีที่จะใช้สาธารณะต่อไป
บริการจากระยะไกล
สำหรับผู้ที่ต้องการชุดฐานข้อมูลเป็นประจำ สคริปต์นี้จะเป็นการเริ่มต้น
ทำให้ภาระในการดาวน์โหลดข้อมูลและอัปเดตดัชนีและอื่น ๆ เป็นไปโดยอัตโนมัติ โลกมี
เคยเห็นเวทมนตร์ดังกล่าวมาก่อนด้วยเครื่องมือ Lion Biosciences Prisma
(http://bib.oxfordjournals.org/cgi/reprint/3/4/389.pdf) แต่สิ่งที่ง่ายกว่านี้ล่ะ
(เป็นจุดเริ่มต้น) ที่อย่างน้อยก็ใกล้เคียงกับสิ่งที่เราต้องการและเป็นอิสระ จุดมุ่งหมายต้องเป็นไป
ตอบสนองความต้องการของทุกชุมชน (ส่วนใหญ่) ไม่ใช่แค่โลกชีวสารสนเทศเท่านั้น NS
ดังนั้นเมล็ดพันธุ์จึงถูกสร้างขึ้นด้วยฐานข้อมูลจากดาราศาสตร์
โปรดติดต่อชุมชน Debian-Med หากคุณคิดว่าโปรแกรมนี้พร้อมแล้ว
สำหรับความต้องการของคุณและอธิบายสิ่งที่ยังต้องเพิ่ม ฐานข้อมูลสาธารณะที่คุณจัดการ
ในการผสานรวมกับระบบนี้ ได้รับการตอบรับเป็นอย่างดี
OPTIONS
--ช่วยด้วย
ความช่วยเหลือนี้
--ชาย
นำเสนอรายละเอียดเพิ่มเติมในรูปแบบของ man page
--รายละเอียด
พูดหนึ่งหรือสองคำเกินความจำเป็น
--mirrordir
ระบุไดเร็กทอรีปลายทาง ข้อมูลจะถูกมิเรอร์ไปยังโฟลเดอร์
$mirrordir/$dbname/. โปรดทราบว่า mirrordir นี้ไม่มีการจัดเก็บไว้ที่ใด NS
ไดเร็กทอรีจึงสามารถย้ายไปยังตำแหน่งใดก็ได้เมื่อใดก็ได้ หากผู้ใช้
ของข้อมูลจะได้รับแจ้งเกี่ยวกับการย้ายเท่านั้น
--รายการ
แสดงรายการฐานข้อมูลทั้งหมดที่อาจร้องขอให้ติดตั้ง
เฉพาะฐานข้อมูลที่ร้องขอให้ดาวน์โหลดอย่างชัดแจ้งเท่านั้นที่จะเป็น
ดาวน์โหลดแล้ว ฐานข้อมูลดังกล่าวอาจต้องใช้แบนด์วิธมาก ดังนั้นโปรดแน่ใจว่าคุณ
รู้ว่าคุณกำลังทำสิ่งที่ถูกต้อง
--โพสต์
ดำเนินการเฉพาะการเปิดออก/สร้างดัชนี แต่ห้ามดึง/อัปเดตฐานข้อมูล นี้
ตัวเลือกถือว่ามีประโยชน์เมื่อเพิ่มระบบการจัดการฐานข้อมูลใหม่ให้กับ
ระบบ เช่น หลังจากติดตั้ง EMBOSS
--แหล่งที่มา
ดำเนินการเฉพาะการเปิดออก/สร้างดัชนี แต่ห้ามดึง/อัปเดตฐานข้อมูล นี้
ตัวเลือกอาจเป็นประโยชน์เมื่อผู้ดูแลเว็บไซต์ทราบถึงการวิเคราะห์ในปัจจุบันว่า
ไม่ควรถูกรบกวนโดยกระบวนการสร้างดัชนี แต่การดาวน์โหลดจากเน็ตสามารถทำได้
ได้เริ่มต้นขึ้นแล้ว
--confd
อนุญาตให้กำหนดคุณสมบัติของไดเร็กทอรีที่สามารถจัดเก็บไฟล์ได้หลายไฟล์นั้น
จะถูกอ่านโดย getData เมื่อเรียกใช้ สิ่งเหล่านี้อาจเพิ่มมูลค่าให้กับโลก
ตัวแปร %toBeMirrored ที่ระบุฐานข้อมูลและสคริปต์การดาวน์โหลด
--config
การจัดเตรียมไฟล์คอนฟิกูเรชันที่จะนำมาใช้ใหม่สำหรับระบบโดยเฉพาะ
ที่เกี่ยวข้องกับฐานข้อมูล การกำหนดค่าถูกพิมพ์ไปที่ stdout และคาดว่า
เพื่อคัดลอกไปยังไฟล์หรือโฟลเดอร์ที่เหมาะสมด้วยตนเอง เราสามารถจินตนาการถึงกระบวนการนี้เพื่อ
เป็นไปโดยอัตโนมัติแม้ว่าจะยังไม่ได้ดำเนินการก็ตาม ปัจจุบันมีการสนับสนุนสำหรับ
สองระบบ:
emboss ระบุชุดเครื่องมือ EMBOSS สำหรับชีวสารสนเทศ (www.emboss.org)
ที่มีให้เป็นแพ็คเกจ Debian ด้วย การกำหนดค่าสำหรับ Uniprot
ฐานข้อมูลจะอนุญาตให้ดึงข้อมูลลำดับด้วยเครื่องมือ seqret
dre - สภาพแวดล้อมรันไทม์ของ ARC Grid
สภาพแวดล้อมรันไทม์ (RE) เป็นแนวคิดของมิดเดิลแวร์กริด ARC ซึ่ง
สามารถเรียนรู้เพิ่มเติมเกี่ยวกับ http://www.nordugrid.org. ต้องใช้สคริปต์เพื่อ
บ่งชี้ว่ามีสภาวะแวดล้อมรันไทม์ นี่ชื่อสคริปต์
มีความสำคัญ ซึ่ง getData กำหนดไม่ได้ เพราะมันเขียนถึง . เท่านั้น
มาตรฐาน
ขออภัย การกำหนดค่ายังไม่พบว่าเป็นแบบโมดูลาร์ ทุกความต้องการ
ให้เกิดขึ้นภายในสคริปต์ getData เอง
--ลบ
คำสั่งนี้จะลบโฟลเดอร์ที่เก็บข้อมูล โดยหลักการแล้วสิ่งนี้สามารถทำได้
ด้วยตนเอง แม้ว่าฐานข้อมูลบางแห่งอาจมีข้อกำหนดพิเศษก่อนหรือหลังการลบ
ซึ่งสามารถระบุเป็นรายบุคคลสำหรับทุกฐานข้อมูล
คุณสมบัติ OF ฐานข้อมูล
ฐานข้อมูลสำหรับการดาวน์โหลดและหลังการประมวลผลมีการระบุไว้ที่ตำแหน่งที่แตกต่างกันสองแห่ง
หนึ่งคือสคริปต์ getData เอง อีกไฟล์หนึ่งคือไฟล์ที่จัดเก็บไว้ใน /etc/getData.d ทั้ง
จะกำหนดองค์ประกอบของแฮชขนาดใหญ่มาก กุญแจสำคัญคือตัวระบุซึ่งก็คือ
แสดงโดยคำสั่ง 'getData --list' ค่านี้อ้างอิงถึงแฮชอื่นซึ่ง
กำหนดค่าให้กับคุณสมบัติทั้งหมดที่ฐานข้อมูลมีสำหรับการดาวน์โหลดและหลัง
การประมวลผล:
ชื่อ - ชื่อพิมพ์สวยที่มนุษย์อ่านได้หรือคำอธิบายสั้น ๆ ที่ทำให้ .ชัดเจน
โลกว่าฐานข้อมูลนี้เกี่ยวกับอะไร
ตัวอย่างที่ไม่ดีคือการมอบหมาย "DE405" เพียงอย่างเดียวซึ่งมีเพียงไม่กี่คนที่เข้าใจ ที่ดีกว่า
ตัวอย่างคือ "Pfam-A : แฟมิลีและโดเมนที่ดูแลจัดการด้วยตนเอง มีเพียงเมล็ดเท่านั้นคือ
นำเสนอ." อาจมีคนโต้แย้งว่าควรเปลี่ยนชื่อฟิลด์นั้นเป็น "คำอธิบาย"
แหล่งที่มา - คำสั่งเชลล์เพื่อดำเนินการดาวน์โหลดเริ่มต้นและอัปเดตที่ตามมา
โดยทั่วไปแล้วเครื่องมือ wget จะใช้สำหรับการดาวน์โหลด สคริปต์เล็ก ๆ ที่นำเสนอดังกล่าวคือ
ดำเนินการภายใต้ไดเร็กทอรี mirrordir ตัวอย่างง่ายๆ อย่างหนึ่งคือ "wget --mirror
ftp://ssd.jpl.nasa.gov/pub/eph/export/unix/unxp2[01]*.405". เพิ่มขึ้นเรื่อยๆ
ความชำนาญในการใช้ wget ถูกล่อลวงให้แทนที่ "--mirror" ด้วย "--recursive
--no-host-directories --no-directories --ระดับ 1 --no-parent"
หลังการดาวน์โหลด - คำสั่งเชลล์ที่จะดำเนินการหลังจากดาวน์โหลดข้อมูลแล้ว
ตัวอย่างง่ายๆ (และไม่จำเป็นเมื่อใช้แฟล็กที่เหมาะสมกับ wget) คือเพียง
การตั้งค่าลิงก์สัญลักษณ์:
"หลังดาวน์โหลด" => "ln -s ssd.jpl.nasa.gov/pub/eph/export/unix/unxp*.405"
มีการใช้ความพยายามเพิ่มเติมใน TreMBL เพื่อรวมรุ่นเข้ากับรุ่นต่อๆ มา
การอัปเดตและการจัดทำดัชนีสำหรับ EMBOSS:
"d=uncompressed; if [ ! -d \$d ]; แล้ว mkdir \$d; fi; "
."rm -rf \$d/trembl.dat; "
."(ค้นหา ftp.ebi.ac.uk -name '*.dat.gz' | xargs -r zcat ) > \$d/trembl.dat; "
."[ -x /usr/bin/dbxflat ] "
. "&& ซีดี \$d && "
. "dbxflat -dbresource embl -dbname trembllocal -idformat swiss -filenames=trembl.dat -fields id,acc -auto",
จุดเชื่อมต่อสตริงใน Perl ซึ่งจะช่วยให้อ่านโค้ดได้ เมื่อไหร่
การเขียนสคริปต์เหล่านี้ โปรดทราบว่าการขึ้นบรรทัดใหม่จะไม่แยกบุคคลออกจากกัน
คำสั่งที่นี่ ต้องระบุเครื่องหมายอัฒภาค
แนะนำ - แนะนำชุดของแพ็คเกจที่จะนำเสนอสำหรับการใช้ฐานข้อมูลหรือ
ประสิทธิภาพของการจัดทำดัชนี
ข้อมูลนี้ไม่ได้ใช้ในขณะนี้ เพื่อทำให้สคริปต์นี้มีประโยชน์มากขึ้นสำหรับ
ลินุกซ์รุ่นอื่นที่ไม่ใช่ Debian
getWgetOptions - คำสั่งส่วนตัวเพื่อรับตัวเลือก wget
makefiles ใช้ในเวลาดาวน์โหลด ไม่ได้มีจุดประสงค์เพื่อใช้งานแบบโต้ตอบ
และสามารถลบออกได้ตลอดเวลา
ตัวอย่าง
ต่อไปนี้จะแสดงรายการตัวระบุและคำอธิบายของ 4 ฐานข้อมูลแรกที่
พื้นที่ที่พร้อมใช้งานผ่าน getData บนระบบของคุณ
./getData --mirrordir=/local/databases/mirrored --list | หัว 4
ในการติดตั้งฐานข้อมูลใด ๆ ให้ตั้งชื่อเป็นอาร์กิวเมนต์เท่านั้น หากการติดตั้ง
ถูกดำเนินการที่ไดเร็กทอรีอื่นที่ไม่ใช่ค่าดีฟอลต์ ดังนั้น --mirrordir จะต้องเป็น .อีกครั้ง
ตั้ง
./getData swiss.dat
หากต้องการลบฐานข้อมูลอีกครั้ง ให้คำใบ้แก่สคริปต์ด้วย --remove flag
./getData -- ลบ swiss.dat
ในการจัดทำดัชนีเท่านั้นและหลีกเลี่ยงการดาวน์โหลด (โปรดทราบว่าสิ่งนี้เป็นอันตราย
เนื่องจากไฟล์ดัชนีจะดูใหม่กว่าฐานข้อมูล) do
./getData --โพสต์ swiss.dat
ข้อยกเว้นพิเศษสำหรับสคริปต์พิเศษเหล่านี้คือ --config แฟล็กซึ่งใช้รายการของ
อาร์กิวเมนต์พิเศษ แต่ละคนจะต้องระบุระบบเฉพาะที่ฐานข้อมูลนี้อาจเป็นของ
ดอกเบี้ยสำหรับ. ปัจจุบันรองรับสองระบบ:
ทั้งหมด
ตอนนี้เราต้องการกลไกที่แพ็คเกจสามารถระบุ hook ที่จะเรียกใช้บน an
การอัพเดทฐานข้อมูล แต่เราไม่สามารถสรุปได้ว่าทุกการจัดทำดัชนีที่สามารถทำได้
เนื่องจากการติดตั้งบางแพ็คเกจเป็นที่ต้องการของผู้ใช้เช่นกัน วิธีการกำหนดค่า
นี้ถูกต้องเหลือที่จะตัดสินใจ
ใช้ getData ออนไลน์โดยใช้บริการ onworks.net