Extreme "adatbázisok a legnagyobbak és a leggyorsabbak

Ez a tartalom a sorozat része:

Vigyázz az új cikkekre ebben a sorozatban.

Jellemzői a „nagy” vagy „gyors” azonnal tesz bennünket jogos kérdés: „Ahhoz képest, amit” Tény, hogy az adatbázis, ami egy kis cég úgy véli, egy hatalmas fog tűnni apró képest az országos adattár, évről évre nő 28 petabájt. „Fast” adatbázis, szolgálja az ügylet e-kereskedelmi webhely túl lassú, mint a adatbázisokat használnak, hogy automatizálják a csere műveletek, és a hozzáférési időt, milliszekundum.

De még akkor is, ha a cég nem úgy tesz, mintha a bolygó legnagyobb vagy leggyorsabb adatbázissá válna, az adatbázisok kezelésére több lecke hasznos lehet az Ön számára. Nyilvánvaló, hogy a "szélsőséges" adatbázisok fejlesztési trendjei előbb vagy utóbb hatással lesznek bármely méretű adatbázis szerkezetére és működésére.

Mit jelent a "szuperlarge"?

Az információáramlás folyamatos növekedése szükségessé teszi a nyilvános és kereskedelmi adatbázisok megfelelő növekedését. Csak négy évvel ezelőtt, a WinterCorp szerint a világon a legnagyobb volt a 100 TB tárolási kapacitású adatbázis. Yahoo! adatbázis lett az első adatbázis egy évtizedes kutatásra, amely megtörte a 100 TB küszöböt.

Mekkora adatbázis a korunkban, amikor a tárolt digitális információ mennyisége folyamatosan növekszik, igényelheti a "szuper nagy" meghatározását? Az adatbázisméretek eloszlására nincs általános szabvány. Emellett szem előtt kell tartani, hogy az adattárház mérete ma nem az adatbázis fő jellemzője, nem kevésbé fontos a kezelhetőség. Az egyik lehetséges meghatározásai „ultra” alap tartozik Dr. Robert Hollebeku (Robert Hollebeek), a fizika professzora a University of Pennsylvania, az egyik a Nemzeti skálázható Cluster Projekt alapítója és tulajdonosa több nemzeti díjat fejlesztések terén elosztott cluster rendszerek és a kutatási adatokat. A Hollebek azt állítja, hogy öt évvel ezelőtt egy több terabájtos adatbázisa a "szuper nagy" címet viselte. Ma ez megköveteli a több petabájt méretű tárolót. „Lehet, hogy egy másik definíciója igen nagyméretű adatbázisok - egy adatbázist, amelynek indexe nem fér el a fizikai memóriát, sőt terabyte memória egy szuperszámítógép vagy számítógépes klaszter” - folytatja Hollebek. Az adatbázis, amelynek indexei ennek a sorrendnek, "szuper nagy". A "szuper nagy" adatbázisok használata számos problémát vet fel a teljesítmény és az adminisztráció szempontjából.

Hollebeck azt is állítja, hogy a "szuper nagy" adatbázis olyan adatbázisnak tekinthető, amelyhez nehéz megtalálni a megfelelő hardverforrások mennyiségét. "Ha több ezer lemez vagy szerver van, teljes állványok párhuzamos gépekkel, akkor egy ilyen rendszer nehezen kezelhető."

Manuel Gomez Byurriel (Manuel Gomez Burriel) nyertese, a program az IBM Information Champion és tagja a spanyol szövetsége Takarékszövetkezetek Confederacion Espanola de Cajas de Ahorros (ESZAK), egyetért azzal, hogy a vezérlő lehet használni, mint hogy milyen feltételek esetén adatbázisokat " szuper nagy ", és amely - meglehetősen hagyományos nagy adatbázisok. "A szokásos adminisztrációs feladatok már nem tartoznak bizonyos időablakokba" - mondja Gomez. Az adatbázis helyreállítása hiba esetén több óráig is eltarthat, miközben pár percet kell eltelnie. A teljesítmény is megkérdőjelezhető, mivel az adatbázis túl nagy, és többé-kevésbé nem tölthető be az operatív gyorsítótárba. A szabványos adatlekérési kérelmek feldolgozása a CPU-ciklusok teljesen elfogadhatatlan számát igényelheti.

Adatbázis portrék

Az adatkezelés terén szerzett tapasztalat, amelyet egy "szuper nagy" adatbázis architektúrájának és működési elveinek részletes tanulmányozásával nyertek, sikeresen alkalmazható más adatbázisokkal való együttműködésre, nagy és nem túl sok. A Hollebeck a National Digital Mammography Archive (NDMA) egyik vezető technikai szakembere volt, amely egy olyan adatbázis létrehozására tervezett, amely évente 28 petabájt nő. Az Országos Egészségügyi Intézmények (USA) által biztosított forrásoknak köszönhetően az NDMA kifejlesztett egy elosztott rendszercsomagot az orvosi adatok, képek és kutatási eredmények tárolására. A rendszert a mammográfiás eredmények, a mágneses rezonancia leképezés eredményeként kapott képek és más, a betegség minden egyes esetéhez tartozó adat tárolására használták fel, és akár egy gigabájt adat is lehetne. Az archívum több millió beteg adatait tartalmazza. A nagy mennyiségű információhoz való hozzáférés tárolására és szervezésére vonatkozó kérdéseken kívül az NDMA a földrajzilag elosztott rendszerekben tárolt, nem kapcsolódó adatok problémájával szembesült - ez egy feladat, amelyet szinte minden globális vállalkozásnak meg kell oldania. A projektben résztvevő négy kutatási egészségügyi központ összekapcsolásához az NDMA létrehozott biztonságos vonalakat a titkosított adatok továbbítására. Minden orvosi központnak volt saját belépési pontja a hardverrel, hogy titkosítsa az adatokat. A hálózaton lévő adatokat egy speciális protokollon keresztül továbbították, amely nagy információs tömbökkel dolgozott.

"A projekt nagyon ambiciózus volt, és nem engedhettük meg magunknak, hogy elveszítsünk orvosi információkat. Szükségünk volt egy rendkívül megbízható technológiára, amely garantálja a nagy teljesítményt és a párhuzamosságot, mert szerkezetünk párhuzamos gépek klaszterének használatán alapult "- mondja Hollebek. "A rendszernek magas hibatűrő képességgel kell rendelkeznie, mivel nem engedhettük meg az indextáblák veszteségét vagy kudarcát." Az index táblákhoz az NDMA az IBM DB2 párhuzamos kiadású szoftvert használt. A grafikus adatokat egyszintű adatbázisokban tárolták párhuzamos merevlemez-tömbökön az operációs rendszer "natív" fájlrendszerének vezérlése alatt, amelyet Linuxként választottak.

NDMA leckék

Az NDMA tapasztalatai alapján a Hollebeck számos általános iránymutatást dolgozott ki a WAN-okhoz kapcsolódó "rendkívül nagy" adatbázisok kezelésére:

Különös figyelmet fordítsunk arra a problémára, hogy nagy mennyiségű információt továbbítunk a hálózaton, legyen az internet vagy egy vállalati hálózat. Keresse meg a leghatékonyabb átviteli módot, például beillesztési pontok létrehozásával a fogadó és küldő helyeken, vagy olyan protokoll használatával, amely hatékonyan továbbítja a nagy (több megabájtos) adatblokkot.
Ne változtassa meg a kapott adatok formátumát. Az adatvesztés nélkül történő adatcsomagolás minden bizonnyal hasznos, de nagy adatbázisok használata esetén a kis volumenű nyereség nem fizeti ki az adatok reverz transzformációjával és tárolásuk megszervezésével kapcsolatos problémáit.
Amint az indextáblák már nem illeszkednek a memóriába, az adatbázis teljesítménye drámaian csökken, ezért növelje a memóriát a maximálisra. Ha a memória mennyiségének növelésének lehetőségei kimerültek, használjon párhuzamos struktúrákat az adatok rendezésére a klaszterrendszerek hatékony használatához. Ha ez nem lehetséges, használj indexek index táblázatokhoz.

Mit jelent az "ultragyors" kifejezés?

Ezt a véleményt osztani, és Gomez, meghatározó „ultra-gyors” adatbázis „gyors ahhoz, hogy biztosítsák a szükséges információkat a megállapodás szerinti ügyfél SLA». "A leggyorsabb adatbázisok közvetlenül hozzáférnek a memóriában lévő adatokhoz, ha lehetséges. Az egyik alkalmazás funkcionáló része a fizetési rendszerben, az IMS és a Fast Path megoldás, valamint a vállalati tároló alrendszer, és egy reakcióidő kisebb, mint 20 ms tranzakciónként, és ez biztosítja, hogy az alkalmazás 14 adatbázisok vevői információk "- folytatja Gomez.

A második késleltetés túl hosszú

Annak ellenére, hogy korábban az ATM-ek (ATM-ek) kiszolgálására használt pénzügyi rendszerek nagyon gyorsnak számítottak, mostanra a gyorsaság miatt kívülállóvá váltak. "Ha mielőtt egy másodpercet várna, hogy információt kapjon az egyensúlyáról, és azt gondolta, hogy nagyon gyors, akkor ez csak egy átlagos eredmény" - mondja Olofson. Napjainkban, amikor a nagysebességű műveletek adatbázisokkal foglalkoznak, a szakértők olyan telekommunikációs komplexumokat jelentenek, amelyek során a kapcsolódási folyamat során a rendszer ellenőrzi az ügyfélszámla összes adatait, beleértve a lehetséges szolgáltatás típusokat is. Így a rendszer információt kap a kapcsolat útválasztásáról és arról, hogy milyen funkciókat kell figyelembe venni - minden olyan globális vezeték nélküli környezetben, ahol bármelyik fiók bármikor megváltozhat.

A nagysebességű adatfeldolgozást igénylő alkalmazások egy másik példája a pénzügyi szolgáltatási portfólió által definiált tőzsdei kereskedelem algoritmusa. "A vállalat több száz fiókot tud kiszolgálni, amelyek mindegyike eltér a portfóliójától, ezért egyedi szabályokat követel az esetleges tőzsdei tranzakciók kezelésére" - folytatja Olofson. "Ezeket a szabályokat meg kell határozni és alkalmazni kell az ezekben az ezredmásodpercekben, amikor a csomag árátvitel átveszi a hálózatot. A pénzügyi rendszer ilyen sebességű működésének képessége meghatározza az ügyfélszámlák kezelése és sikertelensége közötti különbséget. "

Az ilyen műveletek sebessége nagy igényeket támaszt a belső adatbázisok sebességével kapcsolatban, amelyek általában többszintű tárolási és adatkezelési rendszert alkotnak. Sok esetben főframe-ok adatbázisai, például az IMS, a nagyfrekvenciák hierarchikus IBM adatbázis-kezelő rendszere, belső adatbázisként használatosak. Első nagysebességű adatfeldolgozási környezetként az operációs gyorsítótárat használják, és az adattárolás fő adatbázisa a többfunkciós gépek többszintű struktúrája. A nagy sebességű pénzügyi rendszereket igénylő ügyfelek az ilyen többszintű megoldások fő befektetői.

A legújabb fejlesztések az adatbázis teljesítményének robbanásszerű növekedéséhez

Nyilvánvaló, hogy az új technológiák kialakulásának és fejlesztésének köszönhetően a rendszer sebességének követelményei csak növekedni fognak, így a gyártók továbbra is új módszereket keresnek az adatbázis teljesítményének javítása érdekében. A kutatás egyik legkedveltebb területe az adatátviteli láncban - a merevlemez - hagyományosan gyenge kapcsolatának megoldására összpontosít. Olyan megoldások, amelyek RAM-ban tárolják az adatok gyorsítótárba helyezését, mint például az IBM solidDB, a merevlemezre viszonylag lassú memóriából viszonylag gyors RAM-ra, ami nagymértékben csökkenti a válaszidőt. A szilárd adatbázisok részletesebb áttekintése a "solidDB és a sebesség titkai" című cikkben található ugyanabban a kérdésben.

Így az adatbázis-hardver súlypontja folyamatosan mozog a merevlemezről a RAM-ra, és az adatkezelési technológiák egyre inkább a CPU erőforrások hatékony felhasználására összpontosítanak. Ezekkel az utasításokkal párhuzamosan új rugalmas megoldások jelennek meg, amelyek az adatbázis-terhelések különböző szintjeinek kihasználását célozzák. Az adatok archiválásának hagyományos módja helyett táblázatos sorok formájában az adatbázis-architektúrák oszlopokra vagy adatmátrixokra épülő adatbankokra épülnek. Az új struktúrák új szintű rugalmasságot biztosítanak az adattárolás szervezésében. Az ilyen adatbázisokkal dolgozó alkalmazás szempontjából ilyen raktárak rendszeres relációs adatbázisnak tekinthetők, de kiterjeszthetők objektumorientált adatbázisokra, XML adatbázisokra, többértékű vagy többdimenziós adatbázisokra is.

Teljesen nyilvánvaló, hogy a "szuper nagy" és "ultragyors" adatbázisok figyelembe vételével a vevőt a legújabb technológiai megoldások vezérlik. Nem számít, mennyire nagy az igénye a tárolt adatok mennyiségére vagy a feldolgozás sebességére vonatkozóan, a gyártók folyamatosan fejlesztik technológiáikat és új megoldásokat dolgoznak ki annak érdekében, hogy olyan terméket kínáljanak, amely teljes mértékben megfelel az Ön kívánságainak. És mint a nyelvészet, a divat és a művészet, a tegnapi kiemelkedő eredménynek számított a holnapi rutin.

Források letöltése

Kapcsolódó témák

előző ◈ a következő