정규 분포에는 mean 와 variance 두 매개 변수가 있습니다 . Pattern Recognition and Machine Learning 서적에서 갑자기 오류 함수의 정규화 용어에 하이퍼 파라미터 가 나타납니다 .
하이퍼 파라미터 란 무엇입니까? 왜 그렇게 지명 되었습니까? 그리고 그것들은 일반적으로 매개 변수와 직관적으로 어떻게 다른가요?
정규 분포에는 mean 와 variance 두 매개 변수가 있습니다 . Pattern Recognition and Machine Learning 서적에서 갑자기 오류 함수의 정규화 용어에 하이퍼 파라미터 가 나타납니다 .
하이퍼 파라미터 란 무엇입니까? 왜 그렇게 지명 되었습니까? 그리고 그것들은 일반적으로 매개 변수와 직관적으로 어떻게 다른가요?
답변:
하이퍼 파라미터라는 용어는 매우 모호합니다. 다른 매개 변수보다 더 높은 레벨의 계층 구조에있는 매개 변수를 나타내는 데 사용합니다. 예를 들어, 분산이 알려진 회귀 모형 (이 경우 1)을 고려하십시오.
그런 다음 매개 변수에 대한 사전
여기서 는 의 분포를 결정 하고 는 의 분포를 결정합니다 . 참조하고 싶을 때는 매개 변수라고하고 참조하고 싶을 때는 하이퍼 파라미터라고 부를 수 있습니다.
매개 변수가 여러 레벨에 표시되거나 계층 적 레벨이 더 많을 때 (과 하이퍼 파라미터라는 용어를 사용하지 않으려는 경우) 이름이 더 복잡해집니다. 저자가 해당 문제에 대해 하이퍼 파라미터 또는 매개 변수라는 용어를 사용할 때의 의미를 정확하게 지정하는 것이 가장 좋습니다.
하이퍼 파라미터는 단순히 다른 파라미터에 완전히 또는 부분적으로 영향을 미치는 파라미터입니다. 그것들은 당신이 직면 한 최적화 문제를 직접적으로 해결하지는 않지만 문제를 해결할 수있는 매개 변수를 최적화합니다 (따라서 hyper 는 최적화 문제의 일부가 아니라 오히려 "애드온"이기 때문에 hyper입니다 ). 내가 본 것에 대해서는 참조가 없지만이 관계는 단방향입니다 ( 하이 매개 변수는 영향을받는 매개 변수에 영향을받을 수 없으므로 hyper ). 일반적으로 정규화 또는 메타 최적화 체계로 도입됩니다.
예를 들어, 매개 변수는 및 에 자유롭게 영향을 주어 정규화 비용을 조정할 수 있습니다 (그러나 및 는 영향을 미치지 않음 ). 따라서 는 및 의 하이퍼 파라미터입니다 . 당신이 있다면 추가 매개 변수를 좌우하는 , 그것은을위한 hyperparameter 것 와의 hyperhyperparameter 와 (하지만이 nomenclatura을 본 적이 있지만, 나는 그것이 잘못된 것 느끼지 않을 것 내가 본다면).
하이퍼 파라미터 개념은 교차 검증에 매우 유용하다는 것을 알았습니다. 매개 변수의 계층 구조를 상기시키는 동시에 매개 변수를 계속 수정하는 경우 여전히 교차 검증되고 일반화되지 않는다는 사실을 상기시킵니다. 당신의 결론에주의를 기울이십시오 (순환 적 사고를 피하기 위해).
@jaradniemi에 의해 정확하게 지적 된 바와 같이, 하이퍼 파라미터 라는 용어의 사용은 계층 적 또는 다중 레벨 모델링에서 비롯됩니다.
그러나 다른 의미에서도 다른 용어에서도 동일한 용어가 사용됩니다. 예를 들어, 하이퍼 파라미터 라는 용어 가 확률 적 모델의 시뮬레이션 매개 변수 (실행 길이, 독립 복제 수, 각 복제의 상호 작용 입자 수 등)를 나타내는 데 사용되는 것을 보았습니다 . 모델링.