זוהי הפקודה HPCdaligner שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
HPCdaligner - צור סקריפט להפעלה דלייןר(1)
תַקצִיר
HPCdaligner [-vbAI] [-kint(14)] [-wint(6)][-hint(35)] [-tint] [-Mint] [-eכפול (.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mלעקוב]+ [-דאלint(4)] [-דרגהint(25)] path:db|dam
[ראשון:int[-last:int]]
תיאור
HPCdaligner כותב סקריפט מעטפת UNIX לפלט הסטנדרטי המורכב מרצף
של פקודות הפועלות ביעילות דלייןר(1) על כל זוגות הבלוקים של מסד נתונים מפוצל
ולאחר מכן ממיין וממזג אותם באופן חיצוני באמצעות LAsort(1) ו להתמזג(1) לאוסף
של קבצי יישור עם שמות נתיב.#.las כאשר # נע בין 1 למספר הבלוקים של
מסד הנתונים מפוצל ל. קבצים ממוינים אלה אם משורשרים לפי למשל LAcat(1) יכיל
כל היישורים בסדר ממוין (של a-read, ואז b-read, וכן הלאה). יתר על כן, הכל
חפיפות עבור a-read נתון מובטחות לא מפוצלות בין קבצים, כך שניתן להפעיל
מנתחי חפצים או תיקון שגיאות בכל קובץ ממוין במקביל.
מסד הנתונים חייב להיות מפוצל בעבר על ידי Dbsplit.(1) וכל הפרמטרים, למעט
-v, -דאל, ו -דרגה, מועברים לשיחות אל דלייןר(1). ברירות המחדל עבור
פרמטרים אלה הם לגבי דלייןר(1). ה -v דגל, עבור מצב מילולי, מועבר גם ל
כל השיחות ל LAsort(1) ו להתמזג(1). -דאל ו -דרגה אפשרויות מתוארות בהמשך.
עבור מסד נתונים המחולק ל-N תת בלוקים, הקריאות אל דלייןר(1) ייצר בסך הכל
קבצי 2TN^2 .las בהנחה שה-Daligner פועל עם T threads. אלה ימוינו לאחר מכן ו
התמזגו לקובצי .las ממוינים N^2, אחד עבור כל זוג בלוקים. לאחר מכן אלה מתמזגים פנימה
ceil(log_deg N) שלבים שבהם מספר הקבצים יורד גיאומטרית ב -דרגה עד
יש קובץ אחד בכל שורה של מטריצת הבלוק N x N. אז בסוף יש N ממוין .las
קבצים שכאשר הם משולבים יתנו קובץ חפיפה ממוין גדול בודד.
אל האני -דאל אפשרות (ברירת מחדל 4) נותנת את המספר הרצוי של השוואות בלוק לכל שיחה
דלייןר(1). חלקם חייבים להכיל דאל-1 השוואות, והראשונה דאל-2 השוואות בלוקים
אפילו פחות, אבל ה HPCdaligner "מתכנן" עושה כמיטב יכולתו לתת עומס ממוצע של
השוואות דל בלוקים לכל פקודה. ה -דרגה אפשרות (ברירת מחדל 25) נותנת את המספר המרבי
של קבצים שיתמזגו ביחיד להתמזג(1) פקודה. המתכנן מפיק את המרב
אפילו k-ary tree of merges, כאשר מספר הרמות הוא ceil(log_deg N).
אם המספרים השלמים ראשון ו אחרון חסרים, אז התסריט שהופק הוא עבור כל בלוק פנימה
בסיס הנתונים. אם ראשון נוכח אם כן HPCdaligner מייצר תסריט מצטבר ש
משווה בלוקים ראשון דרך אחרון (אחרון = ראשון אם לא נוכחים) אחד נגד השני ו
כל הבלוקים הקודמים 1 עד ראשון-1, ולאחר מכן מעדכן בהדרגה את קבצי ה-.las עבור
בלוקים 1 דרך ראשון-1, ויוצר את קבצי ה-.las עבור בלוקים ראשון דרך אחרון.
כל פלט שורת פקודה UNIX על ידי ה HPCdaligner יכולה להיות עבודת אצווה (אנו משתמשים ב-&&
אופרטור לשלב מספר פקודות בשורה אחת כדי לעשות זאת). תלות בין
ניתן לתחזק את המשרות פשוט על ידי הפעלת כל ה- דלייןר(1) משרות, ואז כל
עבודות מיון ראשוניות, ולאחר מכן כל העבודות בכל שלב של מיון המיזוג החיצוני. כל אחד
שלבים אלה מופרדים על ידי שורת הערות אינפורמטיבית עבור התסריט שלך
נוֹחוּת.
השתמש ב-HPCdaligner באופן מקוון באמצעות שירותי onworks.net