K-Means ալգորիթմը կիրառելի չէ դասակարգային տվյալների համար, քանի որ դասակարգային փոփոխականները դիսկրետ են և չունեն որևէ բնական ծագում: Այսպիսով, էվկլիդեսյան հեռավորությունը հաշվելը, ինչպիսին է տարածությունը, իմաստ չունի։
Կարո՞ղ ենք օգտագործել կլաստերավորումը դասակարգային տվյալների համար:
Կատեգորիայի տվյալները վերածվել են թվերի՝ դասակարգման արժեք նշանակելով: Դա այն է, որ դասակարգային տվյալների կարող է խմբավորվել որպես թվային տվյալների հավաքածու: Նկատվում է, որ այս տրամաբանության իրականացումը, k- միջինը տալիս է նույն արդյունքը, ինչ օգտագործվում է թվային տվյալների հավաքածուներում:
Կարո՞ղ է նշանակվել դասակարգային փոփոխականների համար:
Չկամիջոց գտնել այս տվյալներից, քանի որ չկա աչքի «միջին» գույն: Դուք կարող եք գտնել համամասնությունները, բայց ոչ միջինը: Հուսով եմ, որ սա կօգնի:
Ի՞նչ պետք է օգտագործվի, երբ տվյալները կատեգորիկ են:
Կատեգորիայի տվյալները վերլուծվում են՝ օգտագործելով ռեժիմը և մեդիանային բաշխումները, որտեղ անվանական տվյալները վերլուծվում են ռեժիմով, մինչդեռ հերթական տվյալները օգտագործում են երկուսն էլ: Որոշ դեպքերում, հերթական տվյալները կարող են վերլուծվել նաև միակողմանի վիճակագրության, երկփոփոխական վիճակագրության, ռեգրեսիայի կիրառումների, գծային միտումների և դասակարգման մեթոդների միջոցով:
Ի՞նչ է կլաստերավորումը դասակարգային հատկանիշներով:
Տվյալների կատեգորիայի կլաստերավորումը վերաբերում է այն դեպքին, երբ տվյալների օբյեկտները սահմանվում են դասակարգային հատկանիշներով… Այսինքն՝ չկա դասակարգային արժեքների մեկ դասակարգման կամ բնորոշ հեռավորության ֆունկցիա, և Չկա քարտեզագրում դասակարգայինից թվային արժեքներ, որոնք իմաստաբանորեն խելամիտ են: