Het verbeteren van de Root Cause Analysis

Het verbeteren van de Root Cause Analysis

Datum: 9 april 2021
Geschreven door: Dan Nguyen, Bernadette Kwa

Gemiddeld vindt er binnen een organisatie drie keer per maand een Critical IT Event (CIE) plaats. 65% van de onderzochte organisaties geven aan dat een Critical IT Event in het verleden heeft geleid tot een slechtere reputatie en financiële kosten. 

Een Critical IT Event ontstaat wanneer een business applicatie of de infrastructuur down is of niet goed werkt. Als gevolg hiervan worden bedrijfsprocessen geblokkeerd of kunnen gebruikers niet meer naar behoren hun werk uitvoeren.  

Groeiende en meer diverse wordende IT-omgevingen  

Door de best-of-breed cultuur willen we op elk domein het beste van het beste. Iedere afdeling en team heeft de keuze om te bepalen welk systeem, applicatie of werkmethode voor hen het beste werkt. Dit resulteert in een groeiend aantal systemen, applicaties en datastromen binnen één organisatie. Gemiddeld loopt data door zo’n 35 verschillende systemen of applicaties! 

Een groeiend IT-landschap betekent dan ook een meer divers landschap. Door alle innovatie kunnen we in de huidige tijd kiezen uit allerlei verschillende smaakjes, zoals de keuze voor Cloud, hybride of on-premise. Uit onderzoek blijkt dat 86% van de organisaties gebruik maakt van Software-as-a-Service (SaaS), 80% maakt gebruik van Infrastructure-as-a-Service (IaaS) maar 94% maakt ook nog steeds gebruik van on-premises servers voor primaire of secondaire IT deployments 

Het gevaar op downtime 

Het nadeel van al deze verschillende hypergespecialiseerde systemen en applicaties is dat al deze databronnen nog in silo’s beheerd worden. Smal gefocuste beheerfunctionaliteiten die een gelimiteerd inzicht geven. En wanneer een organisatie probeert de verschillende systemen en applicaties gezamenlijk te beheren, lopen ze tegen technische uitdagingen aan zoals de afwijkende formaten waarin de verschillende systemen en applicaties enorme hoeveelheden data genereren.  

Deze uitdagingen hebben een impact op zowel de business als de IT. Ten eerste is er geen inzicht in het gehele landschap omdat er geen end-to-end monitoring plaats kan vinden. Daarnaast worden incidenten hierdoor vaak laat ontdekt en worden Root Cause Analyses en rapportages nog handmatig uitgevoerd. Hierdoor is het moeilijk om snel te kunnen acteren en te werken aan een oplossing waardoor het risico op veiligheid en langdurige downtime groot is. Om die reden spenderen organisaties ontelbare uren en geld aan handmatig onderzoek van problemen, escalaties en warrooms. 

Mean Time To Repair & Root Cause Analysis verbeteren

Twee maatstaven om te kunnen meten hoe er wordt gereageerd op een Critical IT Event zijn de Mean Time To Repair (MTTR) en de Root Cause Analysis (RCA). De MTTR is de gemiddelde tijd die nodig is om te herstellen van een product- of systeemfout. RCA helpt om terugkerende CIE’s te voorkomen. Doordat er binnen organisaties vaak nog in silo’s wordt gewerkt, kan er vaak geen end-to-end of ketenmonitoring plaatsvinden. We noemen dit Operational Intelligence: het vermogen van een organisatie om inzicht te verkrijgen in gebeurtenissen die plaatsvinden in de hele IT-infrastructuur. Zonder Operational Intelligence hebben organisaties dus geen inzicht in wat er allemaal in de organisatie speelt.  

Dit scenario zagen we duidelijk bij een van onze klanten. Doordat er veel in silo’s werd gewerkt, was er geen inzicht in de ketenmonitoring. Hierdoor moest bij ieder team afzonderlijk worden nagevraagd of een specifiek incident binnen hun domein lag of niet. Hiervoor werden zelfs onnodig warrooms opgezet en werden er handmatig rapportages opgemaakt. Het kostte de klant gemiddeld 2 weken doorlooptijd voordat de oorzaak überhaupt was gevondenlaat staan de oplossing gerealiseerd. 

De impact van het vele handmatige werk resulteert uiteindelijk in lange doorlooptijden zoals in het voorbeeld hierboven aangegeven. Hierdoor blijft er minder tijd over om te focussen op nieuwe projecten of business initiatieven. Ook wordt uitval bij de klant momenteel niet proactief geanalyseerd. Pas wanneer er concreet om een analyse wordt gevraagd wordt er tijd in gestoken. Hierdoor is de kans groter dat issues die niet zijn ontdekt, wel continu terug blijven komen.  

Kortom, de huidige werkwijze met betrekking tot de RCA bevordert de werkdruk, kwaliteit en tevredenheid van klanten niet. Verandering is nodig om beter te kunnen voldoen aan de wensen, behoeften en verwachtingen van zowel interne als externe klanten  

Meer weten over CIE’s? Bekijk dan deze webinar en ontdek wat de impact is van CIE’s op organisaties in verschillende industrieën in Europa.

Hoe GLO Kan helpen 

GLO heeft onderzoek gedaan naar het huidige landschap van de klant waarbij naar voren is gekomen dat er behoefte is aan inzicht in de gehele keten en daarbij de verschillende bronnen met verschillende logging– en monitoring methodes om de RCA pro actiever in te zetten. Naar aanleiding van dit resultaat heeft de klant voor Splunk gekozen als passende oplossing die goed aansluit bij de behoeften en wensen.

Splunk, the DatatoEverything Platform 

Splunk  ontsluit machine data zodat iedereen de data kan gebruiken voor haar vraagstukken. Het is een single  geïntegreerd  platform dat organisaties de mogelijkheid geeft om data uit verschillende systemen te verkrijgen (vaak met ongestructureerde formaten) en brengt dit samen op een manier waardoor verschillende personen binnen de organisatie vragen kunnen stellen aan dezelfde data.  

Meer informatie: download Modernize Your Legacy IT with Predictive Analysis en ontdek hoe je in een notendop kunt schakelen naar voorspellende IT.

Hoe Splunk onze klant heeft geholpen 

Met het platform van Splunk heeft de klant inzicht verkregen in de gehele keten over de organisatie. Door middel van realtime dashboards hielp dit de klant bij het sneller signaleren van gebeurtenissen, incidenten en oorzaken van problemen. Vervolgens konden deze problemen direct aangepakt worden. Issues die niet eerder zijn ontdekt, kwamen met behulp van Splunk sneller aan het licht zonder dat hier handmatig werk voor nodig is geweest. Uiteindelijk hield de klant dus meer tijd over voor andere prioriteiten en business initiatieven. 

Dit laat zien wat voor grote impact Operational Intelligence kan hebben. Zo is gebleken dat organisaties die veel machine data verzamelen ook een betere Operational Intelligence capaciteit hebben. Verschillende organisaties zijn zich daarom gaan richten op het verzamelen van meer machine data om hun Operational Intelligence capaciteit te verhogen. Dit heeft geresulteerd in een verbetering van maar liefst 50% in hun zichtbaarheid.

Lees ook: Hoe proactief te werk gaan de informatieveiligheid kan redden

GLO &

Het verbeteren van de Root Cause Analysis

Ontdek meer over ons aanbod

Contact

T: 030 7600 456
F: 030 7600 459
E: info@glo-integration.com

Kom bij ons langs

Computerweg 1
3542 DP Utrecht
Nederland