Big Data – het nieuwe goud? Vertilt u zich er niet aan!!

Data is het nieuwe goud en het hebben van data kan u veel voordeel opleveren. Dat geldt niet alleen voor u: bedrijven als Apple, Facebook en Google verzamelen al uw interesses, bewegingen en aankopen. Om er vervolgens (goud) geld aan te verdienen. Welke data u gaat vastleggen is afhankelijk van de specifieke wensen en eisen van uw organisatie. Maar hoe ‘big’ uw data ook worden: hoe houdt u de kosten van opslag in de hand?

Maar er gebeurt veel meer!

Bedrijven passen Business Intelligence (BI) toe: gegevens die tijdens ontwikkeling, productie, marketing en verkoop beschikbaar komen, worden opgeslagen en tot informatie omgezet om later diezelfde processen te verbeteren of optimaliseren. Hoe meer historie en gegevens beschikbaar, hoe beter de terugkoppeling naar het proces.

Met het opkomende Internet of Things (IoT) komt er een continue mogelijkheid tot informatievergaring en uitwisseling met de producten of diensten die geleverd zijn, en neemt de hoeveelheid BI-gegevens exponentieel toe. Al die gegevens dienen te worden opgeslagen en gecombineerd tot nieuwe informatie.

Waar vroeger circa 20% van alle gegevens gestructureerde data betrof, gaat dit door de continue nieuwe aanwas naar mínder dan 5%. De rest is ongestructureerd, niet geformatteerd en niet te vatten in b.v. tabellen. Idealiter wordt deze zo veel mogelijk real time tot gestructureerde data verwerkt, maar vaak is dit niet mogelijk. Enerzijds omdat de juiste processing capaciteit ontbreekt, maar veel vaker weten we nog niet wat we uit deze gegevens willen halen. Daarom slaan we alles op, om in de toekomst mogelijk te gaan gebruiken. De traditionele IT-omgevingen is er niet op ingericht om deze grote hoeveelheden gegevens kosteneffectief op te slaan.

Om dit wel goed te kunnen doen, wordt het belangrijk het profiel van de data te kennen. Immers, hoe vindt je later de juiste informatie terug in pakweg 100 miljard verzamelde gegevens items? En daar wringt hem nu net de schoen: CIO’s moeten weten welk (toekomstig) access profiel de gegevens hebben, om te weten hoe deze opgeslagen kunnen worden.

Bedrijven moeten de transformatie gaan maken naar modellen waarin de waarde bepaald wordt van de verzamelde gegevens, om richting te geven aan de besteding van de IT-budgetten. Als u denkt dat dit alleen voor de zeer grote bedrijven geldt dan heeft u het mis, dit komt ook bij middelgrote ondernemingen voor. Hoeveel data heeft u al verzameld over het ontwerp van uw nieuwste product, of de advertentie campagne die net afgesloten is? Al die informatie wilt u beslist nog jaren kunnen inzien.

Tenzij u over onbeperkte middelen beschikt zal ook bij uw CIO de vraag rijzen hoe alleen al de controle over de opslag van al die gegevens behouden blijft. Factoren die dit beïnvloeden zijn:

  • Wat is de relevantie van gegevens, wanneer en hoe zal er naar gerefereerd worden?
  • Levensduur: hoe lang is de data accuraat en wat is de relevantie van de data als deze termijn verstreken is?
  • Wettelijke bewaarregels: wat mag bewaard worden, moet encryptie toegepast worden, wie heeft daar toegang toe? Dit gaat ook op voor het bedrijf (denk aan spionage!)
  • Wat is de wettelijke bewaartermijn? Hoe sluiten mijn bedrijfsprocessen aan op deze bewaartermijn?
  • Wanneer moeten gegevens (wettelijk) verwijderd worden?
  • Hoe snel wilt u de archief gegevens weer online hebben?
  • Hoeveel kopieën wilt u aanhouden van archief data?
  • Etc.

Wat te doen?

Er zijn een aantal zekerheden die de CIO kunnen ondersteunen bij het maken van de juiste keuzes: 1) de groei van data is exponentieel; 2) de levensduur en/of bewaartermijnen worden steeds langer; 3) de relevantie van de informatie wordt (relatief of absoluut gezien) steeds korter, en 4) het aandeel van de gestructureerde data neemt sterk af.

Daaruit kan – ten aanzien van de opslag van gegevens – geconcludeerd worden dat alleen primaire storage zowel uit kosten oogpunt als toegankelijkheid niet voldoende zal zijn om de digitale transformatie te ondersteunen.

Er zal meer en meer behoefte komen aan oplossingen waarin gegevens gearchiveerd kunnen worden op een kosteneffectief medium wat past bij de relevantie en levensduur, maar snel en effectief terug gevonden kunnen worden, het zogenaamde Long Time Archive (LTA).

Voor opslag van LTA is high capacity tape een betere oplossing, maar kijk uit voor de verborgen kosten hiervan. Hoe om te gaan met verouderde technologieën, migraties naar nieuwe media, raadpleegkosten, etc.? Mogelijk kan cloud hier een oplossing zijn: lage opslagkosten, hoewel het later raadplegen duur kan zijn. Of een combinatie van beide?

Ideaal is het als de archief oplossing ondersteunend is en de data op een goeie manier geclassificeerd kan opslaan: type data, mogelijk informatie, terugverwijzing naar originator, bewaarinformatie, toegangsrechten, maar ook de uitvoering van fysieke controles op media. Zodat, op het moment dat het LTA geraadpleegd wordt, snel en in overeenstemming met de geldende regelgeving de juiste gegevens set terug gehaald kan worden.

Alleen dan kunnen de kosten van opslag in de hand gehouden worden.

In een toekomstige blog zullen we nader ingaan op de specifieke Do’s and Do’s voor LTA en Cloud.

Whitepaper actieve databeschermingWhitepaper: Actieve Databescherming
Bij ongewijzigd beleid raakt u vroeg of laat grip kwijt op het stuwmeer aan data wat uw organisatie opbouwt. In dit whitepaper beschrijven wij de belangrijkste onderdelen van een succesvolle data management strategie.

Download uw gratis whitepaper