Порівняння алгоритмів кластеризації даних
Abstract
даній роботі розглянуто порівняння алгоритмів кластеризації даних: K-Means, Hierarchical Agglomerative Clustering (HAC), Density-Based Spatial Clustering of Applications with Noise (DBSCAN), Expectation–Maximization clustering using Gaussian Mixture Models (GMM). Порівняння здійснюється завдяки наперед згенерованим наборам даних, які мають різний характер поведінки: концентричні кола (2 кластери), смужки (3), хмари (3), нероздільна множина (1), серпи (2). Для кожного з наборів даних застосовано перелічені методи і визначено найкращий алгоритм кластеризації для певного типу даних. Алгоритми кластеризації даних застосовано до трьох наборів реальних даних. Створено інтерактивний веб-застосунок для інтерактивної кластеризації даних згаданими алгоритмами, який розгорнуто на хмарному сервері shinyapps.io.