Bevezetés a többszörösen meglevő adatok kiszűrése
Az üzleti folytonosság terén, sok különböző problémákat, amelyek a gyors növekedés az adatok a mai informatikai infrastruktúrát. Véleményem szerint, meg tudjuk különböztetni két fő:
deduplication
Általánosságban elmondható, hogy van két fő típusa deduplication:
Általában a nagyobb szemcsés deduplication rendszert használunk, annál nagyobb a tér megtakarítások az adattárház.
Ez jól hangzik! De csak addig, amíg a fájlok azonosak. Ha az egyik azonos fájlokat fog változni, legalább egy bájt, akkor hozzon létre egy külön példányt a módosított és deduplikációt hatékonysága csökken.
Blokk deduplication működik az adat blokkok rögzített lemez értékelési azonossága vagy egyediségét amely egy hash függvény. deduplication rendszer folyamatosan hash tábla az összes adat blokkok abban tároljuk. Miután deduplication rendszer azonos hash különböző blokkok, ez megköveteli, hogy fenntartsák blokkok egyetlen példányban és egy sor link mutat rá. Azt is összehasonlítani az adatokat blokkok különböző számítógépeken (globális deduplication), ami tovább növeli a hatékonyságot egyszeresítéssel mert a meghajtó a különböző számítógépek ugyanazt az operációs rendszer képes tárolni a sok ismétlődő adatokat. Meg kell jegyezni, hogy a legnagyobb hatékonyságot lehet elérni azáltal, hogy csökkenti a blokk méretét és blokk maximalizálására ismételhetőség tényező. Ebben az összefüggésben két módszer van a blokk deduplication: állandó (előre meghatározott) és változó (dinamikusan korrigált specifikus adatok) hosszú.
Alkalmazások deduplication
A legtöbb fejlesztő a termékek deduplication támogatás középpontjában a biztonsági piacon. Ebben az esetben az idő mentések is eltarthat akár két-háromszor több helyet, mint az eredeti adatokat magukat. Ezért hát termékeket már régóta használják a fájl egyszeresítéssel amely azonban elégtelen lehet bizonyos körülmények között. Hozzáadása blokk deduplication jelentősen javíthatja tárolókihasználás, és a végrehajtási rendszer hibatűrés követelmények könnyebb.
Rövidített érdeklődés és nagy reményeket
Százalékos megtakarítás lemezterület - a legfontosabb terület, amely könnyen manipulálni, szólva a „95% -os csökkentése a méret a biztonsági másolatok kopirovaniyavЂќ. Azonban az algoritmus kiszámításához használt ez az arány lehet elég releváns az adott helyzetben. Az első változó kell figyelembe venni - az ilyen típusú fájlokat. Formátumok, mint a ZIP, CAB, JPG, MP3, AVI - már tömörített adatokat, amelyek segítségével a kisebb deduplication aránya, mint a tömörítetlen adatokat. Ugyanilyen fontos a frekvencia adatok változása és az összeget a deduplication levéltári adatok. Ha ön használ egy termék, amely deduplicates meglévő adatok a fájl szerver, akkor ne aggódj. De ha deduplication részeként alkalmazzák a biztonsági rendszer, meg kell válaszolni a következő kérdésekre:
Time - mi minden
Apropó deduplication mentési rendszerek, fontos tudni, hogy milyen gyorsan fut. Három fő típusa deduplication:
- forrás (a adatforrás oldalon);
- cél (vagy „utólagos feldolgozás egyszeresítés”);
- folyamatos (vagy "tranzit deduplication");
Az első típus: deduplication oldalán az adatforrás
Ez végre azon az eszközön, az eredeti adatokat. Azokat az adatokat, hogy vannak jelölve a mentés, blokkokra osztjuk őket számít hash. Itt észre 3 lehetséges problémákat.
Cél (vagy poszt-folyamat) deduplication
Tegyük fel, hogy az adatok az összes számítógépről küldött egyik tárolóból mentést. Amint az adatok megérkezik, az adattár létrehozhat egy hash tábla ezen adatok blokkok c. Az első előnye ennek a módszernek - a nagyobb az adatmennyiség, és annál nagyobb a medence az adatok, annál nagyobb lesz a hash táblában, és ennek megfelelően annál nagyobb az esélye, hogy megtalálja ismétlődő blokkokat. A másik előnye, hogy a teljes folyamat zajlik kívüli termelő hálózatot.
Azonban ez a lehetőség nem oldja meg a problémákat. Vannak olyan pontok, amelyeket meg kell venni.
tranzit deduplication
Transit deduplication elmagyarázza, hogyan kell feldolgozni, hogy bekövetkezik az adatátvitel a forrástól a cél. A kifejezés kissé megtévesztő. Az adatok valójában nem duplikációit megszünteti „a vezetéket.” Valójában ez azt jelenti, hogy az összegyűjtött adatokat a cél memóriával, van duplikációit megszünteti előtt az írási művelet a lemezre. Ez megjeleníti disk elérési ideje az egyenletből. Transit deduplication lehet tekinteni, mint a legjobb formáját cél deduplication. Azt minden előnyével globális adatok ábrázolása mellett a kirakodás során a tördelő, de egyik hátránya a lassú lemez I / O
Ez azonban még mindig jelent nagy hálózati forgalmat és potenciális hash ütközések. Ez a módszer a legnagyobb számítási erőforrások (CPU és memória) között a fenti.
Összegezve
Ismétlődésszűrési technológia segíthet csökkenteni a vásárlás tárolási költségeket. Meg kell fontolni, hogy válassza ki a típus deduplication. Végül, deduplication lehetővé teszi a vállalat, hogy növelje lassan a tárolási költségeit növekvő adatokat.
hasznos anyagok
s3ql - fájlrendszer-alapú felhő tárolási
Leírás S3QL akkor létrehozhat egy fájlrendszer alapú felhő tárolási Selectel tárolás, amely lehet szerelni bármilyen modern változata OS Linux, FreeBSD és Mac OS X Jellemzők Transparency S3QL gyakorlatilag megkülönböztethetetlen a helyi fájlrendszer. Támogatja hardlink, symlinks standard jogrendszer