Näinä ultradigitaalisuuden ja API-viidakon kasvukausina dataa kertyy erityisesti online-liiketoiminnassa toimivalle yritykselle helposti valtavia määriä ja sitä hyödynnetään paljon mutta osa datasta voi jäädä täysin hyödyntämättä. Datan määrän jatkuvasti kasvaessa hyödyntämättömän datan kasvava määrä voi kertyä helposti lähes hallitsemattomiin mittoihin jos turhan datan hallintaoperaatiot eivät ole kunnossa.
Netflixille kertyy uutta dataa kertyy viikossa dataa 2 petabyten verran (2 000 000 000 000 000 tavua). Käsittämätön määrä maallikolle. Netflixin teemaa käsittelevässä tuoreessa artikkelissa on käsitelty yksityiskohtaisella ammattilaistasolla tätä tematiikkaa. Artikkeli antaa aiheesta hieman etäämmällä olevalle lukijalle hyvää näkymää dataintensiivisen toimintaan, sen monimutkaisuuteenja monikerroksisuuteen.
Netflixin datan säilytyskustannukset ovat vuositasolla säännönmukaisesti tuplautuneet. Ja samaan aikaan Netflixin sisäinen analyysi kertoo, että 40% kertyvästä datamassasta jää helposti täysin vaille käyttöä. Asian hoitamiseksi Netflixin oma tiimi on rakentanut Garbage Collectorin (GC), joka monitoroi ja poistaa tarpeetonta dataa. Lisäksi käytössä Data Lifecycle Manager, joka monitoroi käytössä olevaa dataa ja siirtää käyttötarpeen poistuessa dataa ns. kylmävarastoon tai poistaa sitä. Artikkelissa kuvataan poistoprosessien tärkeyttä seuraavsti: “The process of data cleanup should be an integral part of the initial design, rather than a subsequent consideration. Over time, data cleanup can escalate into an overwhelming task if not properly managed.” Alla oleva kuvaaja artikkelista näyttää hyvin tarpeettoman datan kertymisen kulmakerrointa.