Per verificare se i valori elevati di accuratezza dell'algoritmo Logistic regression non siano dovuti ad overfitting, in questa variante del workflow originale, provo a separare tutte le osservazioni utilizzando l'algoritmo di clustering K-means, per determinare se questo riesce a separarle alla stessa maniera.
Utilizzando un loop di ottimizzazione per K-means e il nodo Silhouette, ricavo che il numero di cluster ottimale è due (corrisponde col problema di classificazione binaria) e graficamente, tramite l'utilizzo di PCA e del nodo 3D Scatter Plot riesco a visualizzare che le osservazioni sono adeguatamente 'separate', quindi che le performance dell'algoritmo di logistic regression sono corrette e non sono dovute ad overfitting.
Con una pivot sui dati clusterizzati si può costruire una pseudo matrice di confusione e l'accuratezza, anche utilizzando il clustering, rimane elevata (per questa elaborazione circa 99% per i bianchi e 95% per i rossi).
Workflow
Logistic Regression (verificare se si è in overfitting)
External resources
Used extensions & nodes
Created with KNIME Analytics Platform version 4.6.3
- Go to item
- Go to item
- Go to item
- Go to item
- Go to item
- Go to item
Loading deployments
Loading ad hoc executions
Legal
By using or downloading the workflow, you agree to our terms and conditions.
Discussion
Discussions are currently not available, please try again later.