k- 평균 이 일반적으로 Expectation Maximization을 사용하여 최적화 된다는 것을 알고 있습니다. 그러나 다른 최적화 방법과 동일하게 손실 기능을 최적화 할 수 있습니다!
실제로 대규모 k- 평균에 확률 론적 경사 하강 을 사용하는 일부 논문을 찾았 지만 질문에 대한 답변을 얻을 수 없었습니다.
왜 그런지 아는 사람이 있습니까? 기대 극대화가 더 빨리 수렴 되기 때문 입니까? 특별한 보증이 있습니까? 아니면 역사적인 이유 입니까?