Scheer
Scheer
Scheer Wiki

Menu

Wiki

14.09.2021

KI-Powered Process Mining für proaktives und prädiktives IT-Service-Management

Die digitale Transformation innerhalb von Organisationen schreitet aus vielerlei Gründen mit zunehmender Geschwindigkeit voran, wodurch mit immer höherer Frequenz bestehende Systeme upgegradet, neue Tools eingeführt, bestehende Workflows digitalisiert und neue digitale Workflows bereitgestellt werden, während durch Entwicklungen wie IoT, Mobile und Blockchain auch eine kontinuierliche und teilweise exponentielle Zunahme der anfallenden Daten zu beobachten ist.

Diese Trends führen fast zwangsläufig dazu, dass die heute ohnehin bereits komplexen und fragmentierten IT-Landschaften immer heterogener und fehleranfälliger werden, was es zu einer stetig wachsenden Herausforderung macht, diese zu betreiben, zu supporten und zu analysieren sowie hinsichtlich die Effizienz, Geschwindigkeit und Qualität unter gleichzeitiger Sicherstellung der Conformance und Compliance zu optimieren.

Insbesondere im IT-Servicemanagement ist hierdurch der Trend der digitalen Transformation in hohem Maße spürbar, da die erfolgreiche Ausführung von digitalisierten Geschäftsprozessen ein möglichst reibungsloses Zusammenspiel über verschiedene Systeme und Bereiche hinweg erfordert.

Ganz konkret bedeutet dies, zu jedem Zeitpunkt immer möglichst genau zu wissen, wo gerade ein Problem besteht oder entstehen könnte und in der Lage zu sein, rechtzeitig die richtigen Maßnahmen zu initiieren, um ein Problem zu lösen oder gar nicht erst entstehen zu lassen.

Gleichzeitig besteht in der Regel auch der Anspruch die kundenseitige "Service Experience" kontinuierlich zu verbessern, ohne jedoch dabei die Wirtschaftlichkeit der IT-Serviceprozesse aus den Augen zu verlieren.

In diesem Artikel möchten wir exemplarisch beleuchten, welche Möglichkeiten sich durch Process Mining in Kombination mit künstlicher Intelligenz eröffnen, um bei steigender IT-Komplexität sowohl die "Service Experience" als auch Effizienz, Geschwindigkeit und Qualität unter Sicherstellung der Conformance und Compliance durch proaktives und prädiktives IT-Servicemanagement ganz im Sinne des "ITIL Continuous Service Improvement" (CSI) fortlaufend zu optimieren.

Process-Mining und -Execution im End-to-End-Szenario „Issue-to-Resolve”

Das aus Perspektive der End-to-End-Szenarien im Prozessbereich "Issue-to-Resolve" angesiedelte IT-Servicemanagement wird im vorliegenden Fallbeispiel end-to-end durch das cloudbasierte System ServiceNow unterstützt, in welchem Cases, Incidents, Service Requests und Change Requests durchgängig und frei von Medien- oder Systembrüchen bearbeitet werden können.

Zu Analyse- und Reporting-Zwecken bietet ServiceNow IT-Servicemanagern herstellerseitig bereits eine umfangreiche Auswahl integrierter Analyse- und Reporting-Möglichkeiten, wie z. B. Anzahl und SLA-Erfüllungsquoten von Tickets nach verschiedenen Kriterien wie IT-Assetklasse bzw. Produktkategorie, Kunde, Ticketart und -priorität sowie Zeitraum.

Um aber Prozesse wirklich zu verstehen, Probleme in den Abläufen zu erkennen sowie direkt zu lösen und damit Prozesse kontinuierlich zu verbessern, reichen diese klassischen Business-Intelligence Methoden leider nicht aus, da sie durch ihre affirmative Ausrichtung zwar dazu geeignet sind, bereits bekannte Optimierungsmöglichkeiten nachzuverfolgen, es ihnen aber an explorativen Möglichkeiten mangelt, um noch unbekannte Schwachstellen bzw. akute operative Prozessprobleme zu identifizieren.

Das Celonis Execution Management System stellt daher die ideale Ergänzung zu ServiceNow dar, wenn es darum geht, die tatsächlich gelebten Prozesse echtzeit-nah zu analysieren, systemische und akute operative Probleme zu diagnostizieren und vorbeugend oder heilend in bereits bzw. voraussichtlich problembehaftete laufende Prozessinstanzen einzugreifen.

Dank der im Celonis App-Store verfügbaren ServiceNow-Konnektoren lässt sich die Datenanbindung zwischen ServiceNow und Celonis über alle IT-Serviceprozesse hinweg sehr einfach und schnell einrichten und sobald diese etabliert ist, kann Celonis kontinuierlich aktuelle Transaktionsdaten - in unserem Fallbeispiel Serviceticket-Daten zuzüglich Meta- und Stammdaten - aus ServiceNow abrufen, um damit End-to-End-Auswertungen durchzuführen.

Nach der klassischen Process-Mining-Methodik lassen sich die IT-Serviceprozesse auf den ServiceNow-Daten basierend mit ihren Varianten inklusive Kennzahlen visualisieren, analysieren, simulieren, benchmarken und auf ihre Conformance und Compliance bzw. originäre Ursachen und effektiven Auswirkungen von Non-Conformance/Non-Compliance hin untersuchen.

Die im Celonis Execution Management System verfügbare sogenannte Action-Engine geht darüber hinaus auch noch einige Schritte weiter, indem sie Prozessschritte automatisiert oder dem IT-Servicemanager proaktiv bzw. prädiktiv per persönlicher Inbox und optionaler Push-Benachrichtigung konkrete operative Handlungsempfehlungen - sog. "Next Best Actions" - bereitstellt, um Probleme zielgerichtet zu lösen, in der Entstehung zu stoppen oder bereits gar vor der Entstehung zu vermeiden.

Hierzu zählt beispielsweise das konkrete automatisierte bzw. empfohlene manuelle Eingreifen bei Multi-Hop-Tickets, wiederholten Anwendergruppen-spezifischen "Hey-Joe"-Tickets, nicht-zugewiesenen High-Priority-Tickets und fehlerhaft zugewiesenen oder voraussichtlich SLA-gefährdeten Tickets.

Zusatznutzen durch Einsatz von Machine Learning

Mit Hilfe künstlicher Intelligenz lassen sich im Celonis Execution Management System auch Zusammenhänge erkennen, deren Identifizierung nicht mittels der klassischen Process-Mining Analysewerkzeuge möglich ist, sondern die die darüber hinausreichenden Möglichkeiten des "Machine Learning" erfordern.

Sachverhalte dieser Art können signifikante und plötzliche Kennzahlenveränderungen, außerhalb eines bestimmten Spektrums auftretende Ausreißer oder bestimmte Arten von Ereignissen und Abweichungen von erwarteten Entwicklungen - jeweils in Relation zu üblichen Mustern und Trends – sein, wobei im Wesentlichen Anomalien in Bezug zum zeitlichen Kontext von Interesse sind, da in der historischen Betrachtung von individuellen Serviceticket-Arten diese sehr oft typischerweise gehäuft zu bestimmten Zeiten auftreten bzw. gemeldet werden.

Um komplexe Machine-Learning-Algorithmen zu erstellen und zu verarbeiten verfügt Celonis eigens über ein integriertes Machine-Learning-Modul, das einerseits sowohl bereits über vorkonfigurierte Use-Cases, wie z. B. Duplikaterkennung verfügt, andererseits aber auch die Möglichkeit bietet, Custom Use-Cases - wie im vorliegenden Fallbeispiel - zu realisieren.

Mittels dieser Methoden lässt sich im IT-Servicemanagement beispielsweise automatisiert erkennen, wenn bei einer IT-Assetklasse bzw. Produktkategorie im zeitlichen Kontext eine Anomalie im Serviceticket-Aufkommen auftritt und es wird unmittelbar und automatisiert der entsprechende Verantwortliche IT-Servicemanager informiert, der sich dann direkt mit dem IT-Asset-Verantwortlichen bzw. Produktverantwortlichen in Verbindung setzen kann, um die ursächlichen Gründe für das außergewöhnliche Serviceticket-Aufkommen - sei es nach Höhe oder Volatilität bzw. Dynamik der Veränderung - zu eruieren.

Die ursächlichen Gründe für relevante Anomalien können in diesem Zusammenhang durchaus vielfältig sein und von Systemveränderungen ohne ausreichende vorherige Delta-Anwenderschulungen über umfangreichere Systemstörungen bis hin zu Malware-Angriffen reichen, wobei diese Art der Anwendung von Machine Learning verständlicherweise umso effektiver ist, je höher das generelle Serviceticket-Volumen ist, weshalb sich die für unser Fallbeispiel typische Anwendungszielgruppe mit Konzern-Helpdesks, Managed-Service-Dienstleistern und Systemhäusern charakterisieren lässt.

Typische Herausforderungen von Machine Learning und deren Bewältigung

In der Praxis zeichnen sich Machine-Learning-Initiativen nicht selten durch hohe Komplexität und hohe Kosten sowie durch das Versprechen eines hohen Mehrwerts aus, welches sich jedoch im produktiven Einsatz häufig nicht längerfristig einlösen lässt und weswegen Erhebungen zufolge bis zu 85% aller Machine-Learning-Initiativen an der betrieblichen Nutzung scheitern.

Celonis adressiert diese Herausforderungen durch eine nahtlose End-to-End Integration im Execution Management System, wodurch ein sofortiger Einsatz über unternehmensweite Prozesse ohne komplexe Anwendungsintegrationen ermöglicht wird und wodurch - dank bereits bestehender skalierbarer Rechenressourcen - keine kostenintensiven Ressourcen für den vollständigen Data Science Lifecycle, einschließlich Modellläufen und Datenpipelines, benötigt werden.
Außerdem wird durch den uneingeschränkten Zugriff der Machine-Learning-Entwicklungsumgebung auf die bereits bereinigten und vorstrukturierten Prozessdaten sowie der integrierten Infrastruktur zum Testen und Trainieren von Machine-Learning-Modellen mit Hilfe von PyCelonis, einem Celonis-spezifischen Python-Package, Zugriff auf sämtliche Celonis-Module und deren Inhalte gewährleistet. Des Weiteren bietet Process Mining per se volle Transparenz über alle wesentlichen prozessbezogenen KPIs, worüber sich der ROI eines Celonis Machine-Learning-Projekts fortlaufend transparent bewerten lässt.

Funktionsweise und Vorgehen innerhalb von Celonis

Mittels bereits vorkonfigurierter Dashboards bietet Celonis Transparenz über die verschiedenen Prozesskennzahlen inkl. Übersichten über alle Serviceticket-bezogenen Informationen, wie z. B. die Entwicklung des Serviceticket-Volumens je IT-Assetklasse bzw. Produkt-Kategorie.
Aus der regelmäßigen bloßen Betrachtung des visualisierten Ticketverlaufs heraus kann ein erfahrener IT-Servicemanager in der Regel bereits erkennen, ob es besondere Auffälligkeiten gibt, denen explizit nachzugehen wäre.
Diese jedoch zeitaufwändige, nicht sehr zuverlässige und in der Regel auch nicht ausreichend zeitnahe Betrachtung ist eine Aufgabe, die sich hervorragend mittels Machine Learning automatisieren lässt.

Zur Erstellung der in diesem Anwendungsbeispiel erforderlichen statistischen Auswertungen und Machine-Learning-Modelle verfügt die Celonis Machine Learning Workbench über eine voll integrierte Jupyter Notebook Entwicklungsumgebung.

Für die eigentliche Erkennung von Anomalien im Serviceticket-Aufkommen wird das bereits vorhandene Celonis-Datenmodell genutzt, in dem alle relevanten ServiceNow Prozessdaten gespeichert sind und das unter anderem die Kennzahl über die Anzahl der Servicetickets sowie die entsprechenden Serviceticket-bezogenen Meta- und Stammdaten beinhaltet, die als Grundlage für das Trainieren des Erkennungs-Algorithmus dienen.

Um die täglichen saisonalen Komponenten zu extrahieren, wird in diesem Anwendungsbeispiel der sogenannte „Seasonal-Decomposition“-Algorithmus verwendet. Prinzipiell ist aber auch die Verwendung weiterer vorkonfigurierter Algorithmen möglich, um weitere Funktionen zur Bereinigung oder Anreicherung von Daten zu nutzen.
Mit dem auf diese Weise trainierten Machine-Learning-Modell kann nun die Anomalie-Erkennung über neue Serviceticket-Daten ausgeführt werden, indem Informationen über normale oder ungewöhnliche Datenpunkte jeder IT-Assetklasse bzw. Produkt-Kategorie identifiziert und in das Datenmodell zurückgespielt werden.

Auf Basis des erweiterten Datenmodells können nun verschiedene Kennzahlen, wie z.B. „Anomalien pro Tag“ und visuelle Zeitreihen-Plots ausgegeben werden.
Die zentrale Funktion besteht jedoch darin, einen IT-Servicemanager zeitnah automatisiert zu informieren, sobald in dessen Verantwortungsbereich eine Anomalie auftritt, weswegen es sich empfiehlt, die zeitgesteuerte Durchführung sowohl des ETL-Zyklus als auch der Anomalie-Erkennung möglichst engmaschig zu wählen.

Autoren: Daniel Misof und Patrick Schneider, Scheer GmbH