Logistic Regression (verificare se si è in overfitting)
Per verificare se i valori elevati di accuratezza dell'algoritmo Logistic regression non siano dovuti ad overfitting, in questa variante del workflow originale, provo a separare tutte le osservazioni utilizzando l'algoritmo di clustering K-means, per determinare se questo riesce a separarle alla stessa maniera.
Utilizzando un loop di ottimizzazione per K-means e il nodo Silhouette, ricavo che il numero di cluster ottimale è due (corrisponde col problema di classificazione binaria) e graficamente, tramite l'utilizzo di PCA e del nodo 3D Scatter Plot riesco a visualizzare che le osservazioni sono adeguatamente 'separate', quindi che le performance dell'algoritmo di logistic regression sono corrette e non sono dovute ad overfitting.
Con una pivot sui dati clusterizzati si può costruire una pseudo matrice di confusione e l'accuratezza, anche utilizzando il clustering, rimane elevata (per questa elaborazione circa 99% per i bianchi e 95% per i rossi).
Per verificare se i valori elevati di accuratezza dell'algoritmo Logistic regression non siano dovuti ad overfitting, in questa variante del workflow originale, provo a separare tutte le osservazioni utilizzando l'algoritmo di clustering K-means, per determinare se questo riesce a separarle alla stessa maniera.
Utilizzando un loop di ottimizzazione per K-means e il nodo Silhouette, ricavo che il numero di cluster ottimale è due (corrisponde col problema di classificazione binaria) e graficamente, tramite l'utilizzo di PCA e del nodo 3D Scatter Plot riesco a visualizzare che le osservazioni sono adeguatamente 'separate', quindi che le performance dell'algoritmo di logistic regression sono corrette e non sono dovute ad overfitting.
Con una pivot sui dati clusterizzati si può costruire una pseudo matrice di confusione e l'accuratezza, anche utilizzando il clustering, rimane elevata (per questa elaborazione circa 99% per i bianchi e 95% per i rossi).