In dieser Arbeit präsentieren die Autoren eine Methode zur Inferenz prominenter Merkmale in zwei Deep-Learning-Klassifikationsmodellen, die auf klinischen und nicht-klinischen Textdaten trainiert wurden. Dazu verwenden sie Techniken aus der topologischen und geometrischen Datenanalyse.
Die Autoren erstellen einen Graphen des Merkmalsraums eines Modells und clustern die Eingaben in die Knoten des Graphen anhand der Ähnlichkeit der Merkmale und Vorhersagestatistiken. Anschließend extrahieren sie Teilgraphen, die eine hohe Vorhersagegenauigkeit für eine bestimmte Klasse aufweisen. Diese Teilgraphen enthalten viele Informationen über die Merkmale, die das Deep-Learning-Modell als relevant für seine Entscheidungen erkannt hat.
Die Autoren leiten diese Merkmale für eine bestimmte Klasse unter Verwendung einer Distanzmetrik zwischen Wahrscheinlichkeitsverteilungen ab und zeigen die Stabilität ihrer Methode im Vergleich zu den Interpretationsmethoden LIME und SHAP.
Diese Arbeit zeigt, dass wir Einblicke in den Entscheidungsmechanismus eines Deep-Learning-Modells gewinnen können. Die vorgestellte Methode ermöglicht es uns zu überprüfen, ob das Modell seine Entscheidungen auf für das Problem relevante Informationen stützt oder ob es stattdessen auf irrelevante Muster in den Daten zurückgreift.
翻譯成其他語言
從原文內容
arxiv.org
深入探究