Нормалдаштыруу ашыкча берилиштерди жок кылуу үчүн колдонулат жана кластердик алгоритмдердин натыйжалуулугун жогорулата турган сапаттуу кластерлердин түзүлүшүн камсыздайт. Демек, бул Евклиддик аралык катары кластерлөөдөн мурун маанилүү кадам болуп калат айырмачылыктардагы өзгөрүүлөргө өтө сезгич[3].
К-каражаттарды кластерлөө үчүн маалыматтарды нормалдаштыруу керекпи?
k-NN методундагыдай эле, кластерлөө үчүн колдонулган мүнөздөмөлөр салыштырылуучу бирдиктер менен өлчөнөт. Бул учурда, бирдиктер маселе эмес, анткени бардык 6 мүнөздөмө 5 баллдык шкалада көрсөтүлгөн. Нормалдаштыруу же стандартташтыруу зарыл эмес.
Кластерлөө алдында маалыматтарды кантип даярдайсыз?
Маалыматтарды даярдоо
Rде кластердик анализ жүргүзүү үчүн жалпысынан маалыматтар төмөнкүдөй даярдалышы керек: Катарлар байкоолор (индивидуалдар) жана мамычалар өзгөрмөлөр. Маалыматтардагы жетишпеген маанилер алынып салынышы же бааланышы керек. Өзгөрмөлөрдү салыштыруу үчүн берилиштер стандартташтырылган (б.а. масштабдуу) болушу керек.
Кластерлөө үчүн берилиштер масштабдалышы керекпи?
Кластерлөөдө, сиз эки мисалдын окшоштугун ал мисалдар үчүн бардык өзгөчөлүк берилиштерин сандык мааниге бириктирүү аркылуу эсептейсиз. Функция дайындарын бириктирүү үчүн берилиштердин масштабы бирдей болушу керек.
Кластерлөөдөн мурун функцияларды нормалдаштыруу эмне үчүн маанилүү?
Стандартташтыруу дайындардын маанилүү кадамыалдын ала иштетүү.
Бул документте түшүндүрүлгөндөй, k-каражат Ньютон алгоритмин, б.а. градиентке негизделген оптималдаштыруу алгоритмин колдонуу менен ката функциясын азайтат. Дайындарды нормалдаштыруу мындай алгоритмдердин конвергенциясын жакшыртат.