Duomenų ežerai ir sandėliai

Duomenų laikymas yra svarbi organizacijos informacijos tvarkymo dalis. Šiam tikslui pasitelkiami duomenų ežerai ir duomenų sandėliai. Pagrindinis jų skirtumas yra tai, kaip juose laikomi duomenys.

Duomenų ežeras (angl. Data Lake) yra didžiulis neapdorotų ir nestruktūrizuotų duomenų telkinys, kurio paskirtis dar nėra apibrėžta. Duomenų sandėlis yra struktūrizuotų, filtruotų duomenų saugykla, sukurta konkrečiam tikslui.

Duomenų ežeras

„Data Lake“ arba duomenų ežeras veikia kaip centras, kuris į vieną loginę platformą centralizuoja iš įvairių šaltinių surinktus organizacijos duomenis, taip suteikdamas galimybę nuosekliai valdyti didelius duomenų kiekius.

Jame gali būti saugomi bet kokie duomenys – pradedant nestruktūrizuotais, tokiais kaip tekstiniai dokumentai ar vaizdai, ir baigiant pusiau struktūrizuotais, pavyzdžiui, hierarchinio žiniatinklio turiniu ar griežtai struktūrizuotais – reliacinių duomenų bazių eilutėmis ir stulpeliais.

Duomenų ežerai labiausiai tinka organizacijoms, kurios turi pateikti daug duomenų šalims viduje ir išorėje. Šis informacijos laikymo būdas leidžia:

  • Mažinti išteklius: tradicinėse sistemose stengiamasi viską sutalpinti pagal vieną modelį, taip nenaudojamiems duomenims apdoroti veltui gaištamas laikas. Duomenų ežere toks apdorojimo poreikis atsiranda tada, kai informacija yra naudojama.
  • Pasiekti duomenis: suteikiama teisė pasiekti duomenis.
  • Didinti efektyvumą: duomenų grupėms nereikia, kad duomenys būtų apibrėžti schemomis, todėl duomenų perdavimas, projektavimo ir planavimo procesai yra paprastesni bei spartesni.

Mūsų naudojamos technologijos:

  • „Microsoft Azure Data Lake Analytics“;
  • „Microsoft Azure Data Lake Storage“;
  • „Red Hat Open Data Hub“;
  • „Apache Hadoop“;
  • „Apache Kafka“;
  • „Apache Spark“;
  • „Apache Superset“;
  • „JupyterHub“.

Mūsų naudojamos platformos:

  • „Amazon Cloud“;
  • „Microsoft Azure“;
  • „IBM Cloud“.

Duomenų sandėlis

Duomenų sandėlyje informacija iš daugelio šaltinių yra saugoma sujungiant ją į vieningus kubus, o prireikus, transformuojama ir analizuojama įvairiais pjūviais.

Pavyzdžiui, organizacija duomenų sandėlyje saugo informaciją apie darbuotojus, jų atlyginimus, sukurtus produktus, klientus, pardavimus ir sąskaitas. Iškilus klausimui dėl išlaidų mažinimo priemonių, reiks visų šių duomenų analizės.

Galimybė priimti veiklos sprendimus remiantis skirtingais apdorotų duomenų elementais yra pagrindinė duomenų sandėlio paslauga.

Tad duomenų sandėlį galima vadinti analitine duomenų saugykla, kurioje struktūrizuoti duomenys saugomi multidimensiniuose duomenų kubuose. Duomenų sandėlis renka ir kaupia duomenis iš vieno ar daugelio šaltinių, kad juos būtų galima greitai išanalizuoti, norint gauti verslo įžvalgų. Jie yra apibrėžiami prieš prasidedant analizei, kad ji būtų itin sparti.

Mūsų naudojamos technologijos:

  • „Microsoft SQL Server“;
  • „Microsoft SQL Server Analysis Services“;
  • „Microsoft SQL Server Integration Services“;
  • „Microsoft SQL Server Reporting Services“;
  • „Oracle Database“;
  • „Oracle Data Integrator“.