Skuteczność modelu uczenia maszynowego w warunkach produkcyjnych nie zależy wyłącznie od tego, jak dobrze radził sobie w fazie testów. Prawdziwe wyzwanie zaczyna się wtedy, gdy etykiety przestają być dostępne, a rzeczywiste wartości (ground truth) pojawiają się z dużym opóźnieniem – lub wcale. W takich warunkach tradycyjne metody walidacji zawodzą. Rozwiązaniem może być podejście zaproponowane przez bibliotekę NannyML.
Walidacja bez etykiet – jak działa NannyML?
Klasyczna ocena modelu opiera się na porównywaniu przewidywań z rzeczywistymi wynikami. Gdy brakuje danych referencyjnych, niemożliwe staje się bezpośrednie liczenie metryk typu accuracy, precision czy recall. Zamiast tego NannyML skupia się na analizie zmian w dystrybucji danych i strukturze błędów predykcji.
Podstawą działania biblioteki jest symulacja błędów predykcji (predicted error simulation), która zakłada, że rozkład błędów pozostaje względnie stabilny w czasie – przynajmniej dopóki nie nastąpi zmiana w danych wejściowych, procesie biznesowym lub modelu. Dzięki temu można budować estymacje wyników i wykrywać anomalie bez konieczności dostępu do etykiet.
NannyML wykorzystuje dane historyczne z okresu, kiedy ground truth był jeszcze dostępny, i na ich podstawie uczy się zależności między predykcjami a błędami. Następnie, po wdrożeniu modelu, obserwuje nowe dane wejściowe i generowane predykcje – i porównuje je z przewidywanym rozkładem błędów. Gdy zauważy odchylenia, sygnalizuje potencjalne pogorszenie jakości działania modelu.
Detekcja dryfu, monitorowanie i interpretacja wyników
Dryf danych (data drift) i dryf konceptualny (concept drift) to główne przyczyny spadku jakości modeli w środowisku produkcyjnym. NannyML oferuje narzędzia do monitorowania obu zjawisk – analizuje nie tylko zmiany w danych wejściowych, ale również wewnętrzne parametry predykcji. W tym celu stosuje m.in. testy statystyczne, takie jak Kolmogorow-Smirnow czy Jensen-Shannon Divergence, by ocenić, na ile aktualna dystrybucja różni się od tej z przeszłości.
Różnicowanie wyników predykcji względem cech wejściowych pozwala lepiej zrozumieć, gdzie dokładnie następuje degradacja. Biblioteka umożliwia generowanie raportów oraz wizualizacji, które ułatwiają interpretację zmian i podejmowanie decyzji. Użytkownik może szybko ustalić, czy zmiana wynika z problemu modelu, danych, czy może z procesów zewnętrznych, np. zmian w zachowaniu użytkowników.
Oprócz analizy błędów symulowanych i detekcji dryfu, NannyML umożliwia także monitorowanie metryk proxy – czyli pośrednich wskaźników jakości, które nie wymagają ground truth, ale korelują z jakością działania modelu. Dzięki temu narzędzie staje się nie tylko sposobem na detekcję problemów, ale też ich kontekstowe wyjaśnienie.
NannyML wpisuje się w coraz bardziej istotny obszar MLOps, w którym skuteczne zarządzanie modelem po wdrożeniu staje się równie ważne, jak jego trenowanie. Gdy dostęp do etykiet jest utrudniony lub opóźniony, a jednocześnie oczekuje się stabilności i przewidywalności działania modelu – tego typu podejście może okazać się nie tyle pomocne, co konieczne.