Informacijos saugyklos

Turinys

Įvadas 3

Duomenų saugyklų paradigma ir problemos 4

Duomenų saugyklos kūrimas 7

Rekomenduojami duomenų saugyklos kūrimo etapai 8

SAS duomenų sandėlio kūrimo principai 9

Esminiai SAS® sistemos duomenų sandėliavimo skirtumai 10

Išvados 12

Literatūra 13Įvadas

Didžioji dalis pasaulio informacijos sukaupta kompiuterių diskuose, garso ir vaizdo juostose, telefonų autoatsakikliuose, kreditinėse ir kitose magnetinėse kortelėse. Šiose priemonėse žodžius, skaičius, vaizdus ir garsus saugo skirtingomis kryptimis įmagnetinti magnetiniai domenai (feromagnetikų vienalyčio įmagnetėjimo sritys).

Pastaruosius dešimtmečius dirbtinė atmintis turėjo didžiulę įtaką visuomenei: kompiuterių atmintis ramiai sekė žmonių, pinigų ir prekių judėjimo srautus. Informacijos amžiuje ji yra elektroninių žinių sandėlis, kuriame laikomi mmokslo, kultūros, medicinos, pramonės ir finansų duomenys. Ši informacija pranašesnė už kitas technologijas, nes lengvai užrašoma, perskaitoma ir ištrinama.

Remiantis duomenų sandėliavimo „tėvu“ ponu Bilu Inmonu (Bill Inmon), duomenų sandėlis nėra duomenų bazės sinonimas. Duomenų sandėliavimas nėra tik duomenų saugojimas, tai yra procesas, susidedantis iš daugiau dalių.

Duomenų sandėlio koncepcija yra informacijos valdymo pagal verslo analitikų poreikius būdas. Duomenų sandėlis duoda sprendimų priėmėjams žinias geresniems sprendimams priimti. Galima fiziškai atskirti organizacijos verslo informacijos sistemą nuo jos operacinių sistemų. Verslo informacijos sistema yyra suminės ir detalios informacijos, kuri gaunama iš duomenų, esančių operacinėse sistemose, saugykla, pagal pareikalavimą papildyta informacija iš išorinių šaltinių. Pastarieji duomenys paprastai yra plačiai išsibarstę įmonėje ir izoliuoti atskiruose departamentuose.

Duomenų bazėse saugomi duomenys būtų beverčiai, jeigu jų nebūtų ggalima peržiūrėti įvairiais, vartotojui reikalingais pjūviais. Tik tokiu būdu šie duomenys tampa vertinga informacija, kurią galima panaudoti verslo vystymui bei planavimui, klientų segmentavimui ir rizikos valdymui, kaštų, veiklos procesų bei resursų optimizavimui.

Yra kuriama programinė įranga vartotojui leidžia nagrinėti turimus duomenis, naudojant įvairius daugiamačius duomenų bazės pjūvius, kurti naujus išvestinius rodiklius, juos palyginti, grupuoti pagal dominančius kriterijus, analizuoti skirtingais agregavimo lygiais. Gauta analitinė informacija gali būti atvaizduojama tiek tekstiniame, tiek grafiniame pavidale bei išsaugoma skirtinguose duomenų saugojimo formatuose.

Specialistų teorinis ir praktinis šių žinių taikymas leidžia sėkmingai integruoti duomenis, egzistuojančius skirtingose įmonės informacinėse sistemose ir/arba išoriniuose šaltiniuose, patalpinti į duomenų saugyklą išvalytą informaciją, ją konsoliduoti bei apibendrinti.Duomenų saugyklų paradigma ir problemos

Šiuolaikinės saugyklų technologijos leidžia saugoti iki milijonų milijardų baitų (petabaitų) dduomenų. Ar iš tiesų to reikia? Pavyzdžiui, mobiliųjų telefonų firma „Omnitel“ daugiau kaip metus saugo informaciją apie savo klientų, kurių yra apie 0,5 mln., judėjimą erdvėje (geografine prasme) ir jų pokalbių laiką. Įmonės, konkuruojančios tam tikroje srityje, saugo įvairius veiklos duomenis, juos perka. Saugoti didelį duomenų kiekį yra natūralus išgyvenimo rinkoje motyvas (stebėti savo klientų ir rinkos evoliuciją, nustatyti piktnaudžiavimus ir pan.). Taigi labai dideliam duomenų kiekiui saugoti ir informacijai iš jo išgauti reikalinga tam tikra aplinka arba, kitaip tariant, DDS. Pagrindinis DS atsiradimo motyvas yra suvokimas, kad saugomi duomenys gali būti informacijos šaltinis.

Istoriškai DS atsirado anksčiau už DG (W. H. Immonas yra laikomas jos „tėvu“ (Immon, 1996)). Antra vertus, DS yra informacinė sistema, skirta sprendimų paramai (įmonės valdymui, veiklos rezultatų analizei, klientų analizei ir pan.) (Mattison, 1996). DS vaidina įmonės „referento“ vaidmenį, nes ji homogeniniu būdu sujungia duomenis, saugomus skirtingose DB ir turinčius skirtingus formatus. DS leidžia surinkti, saugoti, integruoti, suskaidyti ir analizuoti duomenis įmonės poreikius atitinkančiais pjūviais. Greita kreiptis į duomenis ir visapusiška jų analizė padeda įmonėms geriau prisitaikyti prie rinkos pokyčių.

DS suteikia galimybę daug paprasčiau rasti reikiamą informaciją duomenų struktūroje, skirtoje žinioms išgauti, pagerina sprendimų paramą, sumažina informacijos gavimo sąnaudas, leidžia tiksliau identifikuoti įmonės tikslus ir pan. DS paskirtis iš esmės ir yra šių galimybių įgyvendinimas per strateginius įmonės tikslus.

Kadangi DS nėra nei produktas, nei programinė įranga, o tik aplinka, kuri kuriama, o ne perkama, tai DS konstravimas yra gana ilgas procesas (Kimball, 1997). DS projektas skiriasi nuo klasikinio, nes jis reikalauja per tam tikrą laiką atlikti darbo imlias procedūras: paimti neapdorotus duomenis iš produkcijos sistemų, paruošti naujas duomenų visumas bei jų apdorojimo procedūras ir kt.

DS konstravimą galima išskaidyti į tris tarpusavyje nepriklausomas stadijas (Mattison, 1996):

1) ikiprojektinį ttyrimą, kurio metu apibrėžiami DS projekto tikslai, nustatoma konstravimo eiga, skaičiuojamas DS atsiperkamumas; šioje stadijoje atliekamas poreikių tyrimas, apskaičiuojama techninės ir programinės įrangos kaina ir kt.;

2) duomenų modelio, aprašančio DS konceptualiu ir loginiu lygiu, tyrimą;

3) DS užpildymo tyrimą, kuriam reikia nuodugniau analizuoti duomenis, pasirinkti užpildymo metodą ir nustatyti tikslias datas, kada duomenys pateks į DS.

DS paprastai susideda iš keturių tipų elementų (Kimball, 1997):

 duomenų šerdis – pirminė lentelė, kurios pagrindu sudaromos kitos duomenų lentelės. duomenų šerdis paprastai yra normalizuotos formos lentelė, kaip ir reliaciniame modelyje. Iš šerdies gali būti sukonstruoti žvaigždės arba snaigės pavidalo modeliai, kuriuose yra faktų lentelė ir su ja susijusios faktų dimensijų lentelės.

 Kolekcijos arba agregatai, DS aplinkoje skirti greitai patenkinti žinomus ir apibrėžtus vartotojų poreikius. Pavyzdžiui, galima įsiminti produkto pardavimų sumas per tam tikrą laikotarpį. Toks įsiminimas pagreitina paiešką, bet neužtikrina duomenų vientisumo, kadangi duomenys DS nėra keičiami. Kolekcijos gali būti įsimenamos dviem būdais: sukuriant naują faktų lentelę agregatui ir ištrinant visas nenaudingas ir nesuderinamas su faktu dimensijas arba papildant pradinę lentelę agregatais kartu su informacija, nurodančia grupavimo lygį.

 Archyvai – duomenų visumos, skirtos duomenims rūšiuoti ir jiems reintegruoti į DS. Archyvuose saugomi „žali“, elementariausi duomenys, užkonservuoti nuo laiko tėkmės. Archyvai dažniausiai yra vienintelė vieta, kurioje yra detaliausio lygio dduomenys. Archyvuose saugoma įvykių konteksto istorija gali padėti užkirsti kelią jau buvusių aplinkybių pasikartojimui.

 Metaduomenys yra labi.ausiai diskutuojama ir mažiausiai suprantama koncepcija. Daugelis mano, kad metaduomenys yra tik duomenų žodynas ir navigacijos priemonė (Pitrat, 1997). Kuriant DS atliekami konceptualūs, loginiai ir organizaciniai pasirinkimai, kartu prarandama tam tikra informacija, kuri gali lemti neteisingą įvykio arba fakto interpretavimą. Taigi reikalinga informacinė knyga (žodynas), kuri saugotų visą informaciją (metaduomenis) apie informacinę sistemą, valdomą DS. Šioje knygoje turėtų būti: DS objektų (lentelių, laukų ir pan.) adresai ir jų aprašai; kiekvieno duomens kilmė, kuri ypač svarbi, jei duomenys į DS patenka iš skirtingų DB ir turi jose skirtingas žymes; sistemos vartotojai ir jų atributai; transformacijos ir verifikacijos taisyklės; DS istorija su pakeitimų datomis; agregatų sudarymo taisyklės ir kt.

pav. Duomenų saugyklos vieta sistemoje

Bene aktualiausios yra šios DS problemos:

 priimančių sprendimus asmenų mentalitetas ir esamos metodologijos, pagal kurias kiekviena sistema suvokiama kaip atskira ir nepriklausoma;

 esama kompiuterių architektūra (von Neumano palikimas), kurioje sudėtinga atlikti transakcijas ir kreiptis į tuos pačius duomenis;

 produkcijos sistemų duomenys modeliuojami atsižvelgiant į įmonės padalinių poreikius, todėl tas pats objektas gali turėti skirtingą prasmę skirtinguose padaliniuose;

 duomenų tarša dėl prastos duomenų kokybės, dažniausiai susijusios su nepakankamai korektišku konceptualiu projektavimu arba privačiu duomenų pobūdžiu.Duomenų saugyklos kūrimas

Apie duomenų saugyklų

ir duomenų vitrinų kūrimo technologijas, kūrimo metodus parašyta daug teorinių straipsnių, nuolat vyksta metodiniai ginčai. Ne kartą apie tai buvo rašyta ir “Informacinėse technologijose”. Šiandien mes norėtume pavaizduoti teorinius žingsnius konkrečiu pavyzdžiu – energijos srautų duomenų saugyklos realizavimo projektu. Priimant sprendimus, firmos vadovas ir jam padedantys padaliniai vadovams nori gauti juos dominančią informaciją apie kiekvieno padalinio bei apie visos firmos veiklą. Reikalingi duomenys imami iš viso informacijos srauto, kurį generuoja buhalterinės, sandėlio ir kitos programos ir pateikiami įvairiais būdais – įįprastinėmis popierinėmis ataskaitomis, elektroninių lentelių bylomis bei kitais būdais. Minėti duomenų šaltiniai – tai dažniausia kliento/serverio architektūros OLTP (“On-line Transaction Processing”) sistemos. Kartais tai būna atskiros operacinės sistemos bylos. Surinkti reikalingą informaciją iš skirtingo formato, skirtingų duomenų šaltinių ne taip paprasta. Šis procesas priklauso nuo tam tikrų priežasčių: Pirma. OLTP sistemose saugomi ne visi duomenys arba jie yra per daug išsamūs. Skirtingose OLTP sistemose tie patys dalykai gali skirtingai vadintis ir būtisusiję skirtingais ryšiais. Tokia neapdorota informacija analizei nelabai tinka.

Antra. DDažniausia šios sistemos dirba skirtingoseoperacinėse sistemose, informacija saugoma skirtingose RDBVS arba skirtingose bylose ir, norėdamas gauti reikiamą informaciją, be kvalifikuoto programuotojo neišsiversi.

Trečia. Vartotojui, vargu, ar galima pasiūlyti naudoti, pavyzdžiui, SQL kalbą. Informaciją jam reikia pateikti įprastinėje aplinkoje, pavyzdžiui, MS EExcel aplinkoje, arba nors jau ataskaitų forma.

Šiuo metu kliento/serverio architektūros OLTP sistemoms į pagalbą ateina duomenų saugyklų kūrimotechnologijos, padedančios spręsti analitikų problemas. Praktikoje analitinės sistemos dažniausia turi atskirą duomenų šaltinį – duomenų saugyklą – ir yra nesusijusios su konkrečių uždavinių (buhalterijos, sandėlio ir t.t.) OLTP sistemomis. Dažniausia pasitaikančios duomenų saugyklos yra:

1. Loginė duomenų saugykla. Jos pagrindas – metaduomenys, pagal kuriuos aprašomi pirminiai duomenų šaltiniai. Reikalingi duomenys gaunami iš SQL užklausų, duomenų apdorojimo procedūrų ar naudojant kitą programinę įrangą iš griežtai apibrėžtose vietose esančių duomenų šaltinių. Tokia architektūra nėra “tikra” duomenų saugykla, nes pradiniai duomenys taip ir lieka OLTP sistemose. Pagrindinis trūkumas – nepakankamas darbo su duomenimis efektyvumas. Norint gauti duomenis, per užklausą reikia kreiptis į visas OLTP sistemas. Duomenų gavimo ggreitis, didėjant duomenų šaltinių skaičiui, mažėja. Todėl dažniausia, esant paskirstytai šaltinių architektūrai, metaduomenų architektūra tampa praktiškai nerealizuojama.

2. Atskiriems (nutolusiems) firmos padaliniams kuriamos atskiros duomenų vitrinos, pateikiančios tik jiems reikalingus duomenis. Gaunama atskirų duomenų vitrinų aibė. Pagrindinis trūkumas – duomenys jose nesinchronizuoti ir, formuojant suvestinę informaciją, gali tekti kurti papildomą suvestinių (sinchronizuotų) duomenų saugyklą.

3. Centralizuota duomenų saugykla realizuota RDBVS arba MDBVS (OLAP sistemos) pagrindu. Į ją duomenys pakraunami iš OLTP sistemų. Reikalingi (ne visi) duomenys imami iš centrinės duomenų saugyklos ir kkraunami į duomenų vitrinas. Vienareikšmiškai šis variantas yra geriausias.Rekomenduojami duomenų saugyklos kūrimo etapai

1. Galutinių vartotojų informacinių poreikių analizė.

2. Duomenų šaltinių – tekstinių bylų, elektroninių lentelių, reliacinių duomenų bazių, geografinių duomenų sistemų ir pan. analizė. Duomenų struktūrų ir procedūrų, užkraunančių pradinius duomenis, apibrėžimas. Kraunant duomenis į duomenų saugyklą, šiuos reikia apdoroti – denormalizuoti lenteles, išvalyti ir transformuoti duomenis, sukurti naujus, trūkstamus atributus. Paskutinis žingsnis – įkrauti duomenis į duomenų saugyklą.

3. Duomenų apdorojimas: papildomos informacijos įvedimas, konsolidavimas, agregavimas ir t.t., padidinantis duomenų naudojimo efektyvumą. Naudojant klientines taikomąsias programas, paruošti duomenys atiduodami analitikams. Vartotojų “rolių” sukūrimas. Vartotojų mokymas.

4. Gali būti papildomas duomenų srautas – iš duomenų saugyklos į OLTP sistemą, po to, kai į duomenų saugyklą užkrauti duomenys papildomi iš kitų duomenų šaltinių ir apdorojami.

5. Duomenų vitrinų kūrimas.SAS duomenų sandėlio kūrimo principai

SAS sistema yra integruotas programinės įrangos rinkinys, skirtas įvairiapusės informacijos tiekimui įmonėje . Sistemos funkcionalumo pagrindas – tai, kad ji užtikrina prisijungimą prie duomenų, duomenų valdymą, duomenų analizę ir duomenų pateikimą. Šie keturi tikslai yra iš esmės bendri kiekvienam taikymui. Taikymai padaryti su SAS sistema apima vadovų informavimo sistemas, duomenų įvedimą, atstatymą, valdymą, ataskaitų ruošimą ir grafiką, statistinę ir matematinę analizę, verslo planavimą, prognozavimą ir sprendimų palaikymą, operacijų tyrimą ir projektų vvaldymą, statistinį kokybės gerinimą, kompiuterio panaudojimo vertinimą, aplikacijų vystymą. SAS sistemos modulinis dizainas leidžia organizacijoms licencijuoti jų poreikiams būtinas sistemos dalis. Jei organizacijų poreikiai išauga ar pasikeičia, gali būti įdėtos papildomos sistemos komponentės, kurios daugelyje kompiuterinių platformų pilnai integruojamos į turėtą sistemą.

Pirma ir svarbiausia išvada yra ta, kad duomenų sandėlio kūrimas savaime reikalauja vystymo fazėmis metodo, naudojant greito aplikacijų paruošimo ir prototipų taikymo technikas, kurios yra įdiegtos SAS® sistemoje. Tai yra integruotas, orientuotas į verslo poreikius būdas: galutinių vartotojų departamentai įneša reikšmingą indėlį į visas fazes jau nuo pirmosios dienos, o IT departamentai turi būti pasiruošę ne tiek laipsniškam, bet labai ryškiam duomenų sandėlio naudojimo padidėjimui ataskaitų ruošimui ir analizei. SAS® sistemoje esančios priemonės ir galimybės („protingas“ klientas/serveris, daugelio tiekėjų architektūra ir t.t.) taip pat įgalina taikyti lankstų ir žema rizika pasižymintį metodą: kiekviename žingsnyje resursai, kurie turi būti skirti (pvz. domenų apdorojimo techniniai pajėgumai, personalas ir t.t.) yra labai nedideli, palyginti su potencialia nauda verslui.

Galų gale, kadangi duomenų sandėlio kūrimas yra procesas, yra svarbu, kad šio proceso valdymas būtų kaip galima labiau integruotas.

Duomenų sandėlio kūrimo procesas gali būti logiškai išskirstytas į tris atskiras fazes: valdymas, organizavimas, eksploatavimas. Šios fazės yra greičiau integruotos, negu nuoseklios, kaip kad kkuriant tranzakcines duomenų bazes. Dėl to integravimo priemonių rinkinys SAS® sistemoje tampa svarbiu turtu visame projekto cikle.

Duomenų sandėlio valdymo dalis skirta prisijungimui prie duomenų šaltinių, duomenų iš išorinių ir vidinių šaltinių apjungimui bei tų duomenų transformavimui. Šie procesai yra skirti duomenų sandėlio užkrovimui.

Duomenų sandėlio organizavimo dalis apima sandėlio duomenims tinkamiausios ir efektyviausios struktūros sukūrimą, o taip pat tokius strateginius dalykus kaip centralizuotą ar paskirstytą sandėliavimą. Siekiant efektyvios organizacijos, integruotos metabazės sukūrimas yra fundamentalus dalykas. Integruota metabazė – tai aktyvių, dinaminių metaduomenų aibė, kuri įprasmina duomenų sandėlio informaciją.

Duomenų sandėlio eksploatavimas apima galutinį tikslą – verslo informacijos pristatymą verslo ekspertams, suteikiant priemones vartotojo kontroliuojamam informacijos išgavimui iš duomenų, ataskaitų ruošimui ir analizei.Esminiai SAS® sistemos duomenų sandėliavimo skirtumai

Pateikiame kai kuriuos pagrindinius SAS Duomenų sandėlio skirtumus, gautus lyginant jį su kitų tiekėjų siūlomais sandėliais:

• Tai pilnas (end-to-end) sprendimas, kai vieno tiekėjo produktai dengia Valdymo (prisijungimo, restruktūrizavimo bei automatiškai pagal tvarkaraštį atnaujinimo iš operacinių šaltinių), Organizavimo (fizinis saugojimas bei metaduomenų valdymas) ir Eksploatavimo (aplikacijų verslui galutinių vartotojų departamentuose) sferas.

• Galimybė per iš anksto sukurtus priėjimo interfeisus naudotis bet kuriais operacinių duomenų šaltiniais. Be šios galimybės galutiniam vartotojui negali būti duota garantija, kad jų verslo aplikacijos galės naudoti bet kurią reikalingą

informaciją, nepriklausomai nuo šaltinio.

• Šimtai egzistuojančių ir labai sėkmingų (pamatuotos investicijų grąžos požiūriu) Duomenų sandėlių įdiegimų, nuorodos į kuriuos pateikiamos viešai (pasaulyje virš 3000 SAS Duomenų sandėlių).

• Patikrinta Greito sandėliavimo metodologija, kuria vadovaujantis galima atlikti duomenų sandėlio projekto įdiegimą „žingsnis po žingsnio“ metodu, atsižvelgiant į egzistuojančias infrastruktūras ir yra orientuota į pamatuojamos investicijų grąžos pateikimą per 90 dienų.

• SAS/Warehouse Administrator – SAS sistemos dalis, skirta pilnai duomenų sandėlio valdymo ir organizavimo kontrolei. SAS/Warehouse Administrator sumažina reikalingo duomenų sandėlio sukūrimui darbo aapimtį. Tai įmanoma specialiai sukurto interfeiso, kuris įgalina automatiškai generuoti duomenų paėmimo, transformavimo ir pakrovimo programas, dėka.

• SAS® sistema skirtingai nuo Reliacinių duomenų bazių valdymo sistemų yra sukurta duomenų sandėliavimui.

• SAS Institutas ir jo partneriai turi ilgametę duomenų sandėliavimo patirtį .Išvados

Duomenų saugyklos, tai kompiuterinės sistemos leidžiančios įrašyti, taisyti ir peržiūrėti informaciją. Duomenų saukyklos nėra nei produktas, nei programinė įranga, o tik aplinka, kuri kuriama, o ne perkama, tai duomenų saugyklos konstravimas yra gana ilgas procesas Pagrindinis duomenų saugyklos atsiradimo motyvas yyra tai, kad saugomi duomenys yra svarbus informacijos šaltinis.

Informacija duomenų saugyklose yra pranašesnė už kitas technologijas, nes lengvai užrašoma, perskaitoma ir ištrinama. Yra sukrtos įvairios programinės įrangos leidžiančios vartotojui nagrinėti turimus duomenis. Šiuolaikinės saugyklų technologijos leidžia saugoti iki milijonų milijardų bbaitų (petabaitų) duomenų.Literatūra

1. www.leidykla.vu.lt/inetleid/inf-mok/22/str8.html –

2. www.it.lt

3. http://www.paspara.lt/aktualijos.dw.phtml