דחיסת קבצים משורת הפקודה לינוקס על ידי OnWorks

עבור לתוכן

דחיסת קבצים

לאורך ההיסטוריה של המחשוב, היה מאבק להשיג את מירב הנתונים לתוך השטח הזמין הקטן ביותר, בין אם זה הוא זיכרון, התקני אחסון או רוחב פס של הרשת. רבים משירותי הנתונים שאנו רואים כמובנים מאליהם כיום, כגון נגני מוזיקה ניידים, טלוויזיה בחדות גבוהה או אינטרנט בפס רחב, חייבים את קיומם ליעילות דחיסת מידע טכניקות.

דחיסת נתונים היא תהליך ההסרה יתירות מתוך נתונים. הבה נבחן דוגמה דמיונית. נניח שהיה לנו קובץ תמונה שחור לחלוטין במידות של 100 פיקסלים על 100 פיקסלים. במונחים של אחסון נתונים (בהנחה של 24 ביטים, או 3 בתים לפיקסל), התמונה תתפוס 30,000 בתים של אחסון:

100 * 100 * 3 = 30,000

תמונה שכולה צבע אחד מכילה נתונים מיותרים לחלוטין. אם היינו חכמים, היינו יכולים לקודד את הנתונים בצורה כזו שפשוט נתאר את העובדה שיש לנו בלוק

של 10,000 פיקסלים שחורים. לכן, במקום לאחסן גוש נתונים המכיל 30,000 אפסים (שחור מיוצג בדרך כלל בקבצי תמונה כאפס), נוכל לדחוס את הנתונים למספר 10,000, ואחריו אפס כדי לייצג את הנתונים שלנו. סכימת דחיסת נתונים כזו נקראת קידוד באורך ריצה והיא אחת מטכניקות הדחיסה הבסיסיות ביותר. הטכניקות של היום הרבה יותר מתקדמות ומורכבות אבל המטרה הבסיסית נשארת זהה - להיפטר מנתונים מיותרים.

אלגוריתמי דחיסה (הטכניקות המתמטיות המשמשות לביצוע הדחיסה) מתחלקים לשתי קטגוריות כלליות, חסרי אובדן וחסרי אובדן. דחיסה ללא אובדן שומרת על כל הנתונים הכלולים במקור. המשמעות היא שכאשר קובץ משוחזר מגרסה דחוסה, הקובץ המשוחזר זהה לחלוטין לגרסה המקורית, הלא דחוסה. דחיסה אובדנית, לעומת זאת, מסירה נתונים תוך כדי ביצוע הדחיסה, כדי לאפשר להחיל יותר דחיסה. כאשר קובץ אובדן משוחזר, הוא אינו תואם לגרסה המקורית; אלא, מדובר בקירוב קרוב. דוגמאות לדחיסה מאבדת הן JPEG (לתמונות) ו-MP3 (למוזיקה). בדיון שלנו, נסתכל אך ורק על דחיסה ללא אובדן, מכיוון שרוב הנתונים במחשבים אינם יכולים לסבול אובדן נתונים כלשהו.

מופעלת דחיסת bzip2

<הקודם | תוכן | הבא>