Core Concepts
Vorhersagen und Prognosen von Maschinenlernmodellen sollten in Form von Wahrscheinlichkeitsverteilungen erfolgen, um die an Endnutzer übermittelte Informationsmenge zu erhöhen. Obwohl Anwendungen der probabilistischen Vorhersage und Prognose mit Maschinenlernmodellen in Wissenschaft und Industrie zunehmend häufiger werden, wurden die damit verbundenen Konzepte und Methoden noch nicht ganzheitlich strukturiert.
Abstract
Die Übersicht behandelt das Thema der Schätzung der Vorhersageunsicherheit mit Maschinenlernalgorithmen sowie die damit verbundenen Metriken (konsistente Bewertungsfunktionen und korrekte Bewertungsregeln) zur Beurteilung probabilistischer Vorhersagen.
Der Überblick umfasst den Zeitraum von der Einführung früher statistischer (lineare Regression und Zeitreihenmodelle, basierend auf der Bayes'schen Statistik oder der Quantilsregression) bis hin zu neueren Maschinenlernalgorithmen (einschließlich verallgemeinerter additiver Modelle für Lage, Skala und Form, Zufallswälder, Boosting und Deep-Learning-Algorithmen), die von Natur aus flexibler sind.
Die Überprüfung des Fortschritts in diesem Bereich fördert unser Verständnis darüber, wie neue, auf die Bedürfnisse der Nutzer zugeschnittene Algorithmen entwickelt werden können, da die neuesten Fortschritte auf einigen grundlegenden Konzepten beruhen, die auf komplexere Algorithmen angewendet werden.
Abschließend werden das Material klassifiziert und Herausforderungen diskutiert, die zu einem aktuellen Forschungsthema werden.
Stats
Die Vorhersagen und Prognosen von Maschinenlernmodellen sollten in Form von Wahrscheinlichkeitsverteilungen erfolgen, um die an Endnutzer übermittelte Informationsmenge zu erhöhen.
Obwohl Anwendungen der probabilistischen Vorhersage und Prognose mit Maschinenlernmodellen in Wissenschaft und Industrie zunehmend häufiger werden, wurden die damit verbundenen Konzepte und Methoden noch nicht ganzheitlich strukturiert.
Frühe Überlegungen zur Schätzung der Vorhersageunsicherheit waren Bayes'sche statistikbasiert für unabhängige und identisch verteilte (IID) Variablen, weitere Fortschritte wurden jedoch durch den Fortschritt in der Zeitreihenprognose, meist wieder in Bayes'schen Einstellungen, möglich.
Quotes
"Vorhersagen und Prognosen von Maschinenlernmodellen sollten in Form von Wahrscheinlichkeitsverteilungen erfolgen, um die an Endnutzer übermittelte Informationsmenge zu erhöhen."
"Obwohl Anwendungen der probabilistischen Vorhersage und Prognose mit Maschinenlernmodellen in Wissenschaft und Industrie zunehmend häufiger werden, wurden die damit verbundenen Konzepte und Methoden noch nicht ganzheitlich strukturiert."