Што е к-значи кластерирање?

Материјали за податоци со алгоритмот на k-средства

К- алгоритам за групирање на кластери е алатка за податоци за рударство и за машинско учење што се користи за групирање на набљудувања во групи на сродни набљудувања без претходно познавање на тие односи. Со земање примероци, алгоритамот се обидува да покаже во која категорија, или кластерот, податоците припаѓаат, со бројот на кластери кои се дефинирани со вредноста k.

Алгоритмот k- средства е една од наједноставните техники на кластерирање и најчесто се користи во медицинските слики, биометриката и сродни полиња. Предноста на к- значи кластерирање е тоа што таа раскажува за вашите податоци (користејќи ја својата ненаменска форма), наместо да морате да го наведете алгоритмот за податоците на почетокот (со користење на надгледувана форма на алгоритам).

Тоа понекогаш се нарекува и алгоритам на Лојд, особено во круговите за компјутерски науки, бидејќи стандардниот алгоритам за првпат беше предложен од Стјуарт Лојд во 1957 година. Терминот "к-средства" беше измислен во 1967 година од страна на Џејмс Меквин.

Како функционираат функциите на алгоритмот k-значи

Алгоритмот k- значи е еволутивен алгоритам кој го добива своето име од неговиот метод на работа. Алгоритмот ги опфаќа набљудувањата во k групи, каде k е даден како влезен параметар. Потоа, секое набљудување се доделува на кластери врз основа на близината на набљудување до средната вредност на кластерот. Потоа, средната вредност на кластерот е повторно пресметана и процесот започнува повторно. Еве како работи алгоритмот:

  1. Алгоритамот произволно ги избира k- точките како почетни кластерски центри (средствата).
  2. Секоја точка во сетот на податоци е доделена на затворен кластер, врз основа на евклидовото растојание помеѓу секоја точка и секој кластерски центар.
  3. Секој кластерски центар се пресметува како просек на точките во тој кластер.
  4. Чекорите 2 и 3 се повторуваат сè додека кластерите не се спојат. Конвергенцијата може да се дефинира различно во зависност од спроведувањето, но вообичаено значи дека ниту едното набљудување не ги менува кластерите кога се повторуваат чекорите 2 и 3, или дека промените не прават разлика во дефиницијата на кластерите.

Избор на бројот на кластери

Една од главните недостатоци на к- значи кластери е фактот дека мора да го наведете бројот на кластери како влез во алгоритмот. Како што е дизајнирано, алгоритам не е способен за одредување на соодветен број на кластери и зависи од корисникот да го идентификува ова однапред.

На пример, ако сте имале група на луѓе кои треба да се групираат врз основа на бинарен родов идентитет како машки или женски, повикувајќи го алгоритмот k- средства со користење на влезот k = 3, луѓето ќе ги принудат во три кластери кога се само две, или влезот на k = 2, ќе обезбеди поприродно вклопување.

Слично на тоа, ако една група поединци лесно се групирани врз основа на матичната држава и ти го нарекувате алгоритам со средства k со влезот k = 20, резултатите може да бидат премногу генерализирани за да бидат ефективни.

Поради оваа причина, често е добра идеја да експериментирате со различни вредности на k за да ја идентификувате вредноста што најмногу одговара на вашите податоци. Исто така, можеби ќе сакате да ја испитате употребата на други алгоритми за пребарување на податоци во вашата потрага по машински научени знаења.