Il clustering è una tecnica di apprendimento automatico opera raggruppando dati simili tra loro. Il clustering è un tipo di apprendimento automatico supervisionato . L'algoritmo non ha bisogno di essere "addestrati " e può raggruppare i dati in gruppi coerenti con un concetto " preconcetto " di ciò che appartiene insieme . Questo differisce dai sistemi di apprendimento automatico supervisionato che devono essere "addestrato" per etichettare i dati correttamente . Il clustering è usato principalmente come un meccanismo di riconoscimento di forme del computer . Generativi o Probabilità algoritmi basati
algoritmi di clustering basate generativi o probabilità tentano di classificare insiemi di dati come una sorta di distribuzione conosciuta , un gruppo comune di dati numerici . Questo tipo di algoritmo può essere utilizzata solo su dati numerici . Algoritmi generativi sono dotati di diversi avvertimenti. Il problema può essere irrisolvibile se i dati è consentito di variare troppo liberamente . Algoritmi generativi anche supporre che i dati incarna una distribuzione nota , il che non è sempre vero . Questi tipi di algoritmi , inoltre, non tengono conto di "rumore " nei dati .
K -means
K -means è stato uno dei primi metodi di clustering per essere sviluppato . È semplice da implementare , tuttavia ha lo svantaggio di essere estremamente sensibili ai suoi ingressi iniziali . K - significa opere di clustering dividendo i dati in un insieme casuale di grappoli e poi ricalcolo dei punti medi di ogni cluster e ripetendo il processo fino a quando non vi è un solo cluster . Questo è noto come convergenza .
Fuzzy Clustering
Invece di dati che identificano come appartenenti a gruppi specifici , tentativi fuzzy clustering per identificare il grado in cui una di dati punto appartiene a un gruppo . Gli algoritmi utilizzati per fare fuzzy clustering sono noti come "C- mezzi algoritmi ". Nell'approccio fuzzy clustering , un punto dati può appartenere a più di un gruppo . Questo tipo di raggruppamento è utile quando i punti di dati possono avere bisogno di appartenere a più di un gruppo .
Agglomerativo Clustering
agglomerative clustering è stato uno dei primi algoritmi di clustering per essere sviluppato . Esso rimane in uso , come è anche uno dei più semplici algoritmi sviluppati fino ad oggi . Agglomerative clustering funziona trattando ogni singolo punto dati come cluster e raggruppamento con il punto dati più simile. Questo processo viene ripetuto finché " converge ", i dati o c'è una grande cluster contenente tutti i dati . Il processo può anche essere invertito per lo stesso effetto . Partendo da un cluster , tutti i dati possono essere ripetutamente divise fino a quando ogni punto di dati è il proprio cluster.