Simulationen auf synthetischen Datensätzen mit unterschiedlichen Mustern und Fehlbildungsgraden wurden durchgeführt, um die Leistung von NN mit einem einzelnen Nachbarn (1NN) und mit k Nachbarn ohne (kNN) oder mit Gewichtung (wkNN) im Kontext verschiedener Lernframeworks zu bewerten: einfach gesetzt, reduziert nach ReliefF-Filterung, Absacken, zufällige Auswahl von Attributen, Baging kombiniert mit zufälliger Auswahl von Attributen (Random-Forest-like-Methode). Gefiltertes NN-Framework: Vor der Imputation des Empfängers X i wird der vollständige Satz ohne fehlende Daten C(X) gefiltert, um eine Teilmenge von Features auszuwählen, die für die fehlende Variable relevant sind (X i_miss ). Zu diesem Zweck wird C(X) als Dataset im Kontext eines Regressionsproblems betrachtet, bei dem die Variable mit dem fehlenden Datum (X miss ) als Klassenvariable und die anderen q-Variablen (X 1 , X 2 , …, X q ) als Prädiktoren festgelegt wird. Da es in realen Situationen in der Regel keine Ahnung gibt, ob eine Beziehung zwischen Prädiktoren und Ergebnis besteht oder, wenn diese Beziehung besteht, welche Form sie annimmt, wird ein vollständig nicht parametrischer Selektionsalgorithmus als geeignete Wahl betrachtet. Im vorliegenden Kontext haben wir den in [17] beschriebenen RReliefF-Algorithmus angewendet; der Satz wird dann gefiltert, um eine Teilmenge C s (X) ⊂ C(X) auszuwählen, wobei (X 1 , X 2 , …, X s ) ⊂ (X 1 , X 2 , …, X q) und s q. Im vorliegenden Kontext legen wir die Anzahl der Nachbarn für RReliefF auf 10 und s auf 10 %, 20 % oder 30 % von q fest. Da C(X) invariant zu X i ist, wird der Filterschritt nur einmal vor dem NN-Imputationsschritt ausgeführt, der im Gegenteil separat für jedes X i ausgeführt wird. Irrelevante oder laute Features fügen dem Abstandsmaß maßund und beeinträchtigen die Leistung, so dass z. B. Punkte im hochdimensionalen Raum, der zur gleichen Klasse (bei Klassifizierungsproblemen) oder zum gleichen Cluster (in unbeaufsichtigten Clustering-Anwendungen) gehört, eine geringe Ähnlichkeit aufweisen [8, 9].
Die Wahl verschiedener Ähnlichkeitsmaßnahmen kann dieses Problem teilweise lösen, löst das Problem aber letztlich nicht [8, 10]. Es wurden mehrere Methoden vorgeschlagen, um das Rauschen zu berücksichtigen und/oder die Leistung von NN-Algorithmen bei Klassifizierungsproblemen zu verbessern, und diese Methoden wurden auch bei Anrechnungsproblemen angewendet. Die Verwendung mehrerer k Nachbarn ist ein erster Versuch, Lärm zu kontrollieren, und es ist weithin anerkannt, dass der geringe Wert von k einen hohen Einfluss auf die Ergebnisse hat. kNN erwies sich als wirksam bei der Unterstelle von Mikroarray-Daten mit einer erhöhten Leistung, wie durch den normalisierten Wurzelmittel-Quadd-Fehler (RMSE) beurteilt, wenn k > 1 [11] ist. In der nächsten variablen Prozedur (kNN-V) und Varianten (kNN-H und kNN-A), die unter [12] k beschrieben sind, werden relevante Merkmale in Bezug auf die Variable mit fehlenden Werten mittels statistischer Korrelationsmaße ausgewählt; Die Auswertung in realen und synthetischen Datensätzen mit Hilfe des RMSE zeigte eine gute Leistung dieser Methode in Bezug auf die Auswahl von Nachbarn auf der Grundlage der Intra-Subjekt-Entfernung. Andere Methoden, die vorgeschlagen wurden, um die Leistung von NN zu verbessern, um Fehler zu dekorieren und durch das Rauschen bei Klassifizierungsproblemen zu waten, sind die Verwendung mehrerer NN-Klassifikatoren. In [13] werden mehrere NN-Klassifikatoren verwendet, die auf zufälligen Teilmengen von Features basieren, und die Leistung dieses Ensembles war weniger anfällig für Korruption durch irrelevante Features im Vergleich zu 1-NN oder kNN. Obwohl NN traditionell als stabiler Algorithmus mit geringer Varianz gilt, der durch andere Resampling-Techniken, wie z.
B. Das Absacken [14], nicht verbessert werden könnte, deuten andere Experimente darauf hin, dass das Absacken tatsächlich die Leistung von NN verbessern kann, vorausgesetzt, dass die Resampling-Größe angemessen unter einem Mindestschwellenwert liegt [15]. Trotz dieser Prämissen wurde die Leistung von Ensemblemethoden für die NN-Imputation bisher nicht bewertet. Die Fähigkeit der Imputationsframeworks wurde schließlich in einem realen Datensatz mit 15 % der MCAR-Werte in 4 Interessenvariablen getestet. Wie in synthetischen Datensätzen beobachtet, führte die Verwendung mehrerer Nachbarn oder komplexer Lernschemata zu einer nicht zu vernachlässigenden Verzerrung von Daten, trotz einer guten Leistung bei der Unterstelle des richtigen Wertes oder beim Ableiten der Regressionskoeffizienten (Tabelle 5).