이름에있는 것 : 하이퍼 파라미터


19

정규 분포에는 mean 와 variance 두 매개 변수가 있습니다 . Pattern Recognition and Machine Learning 서적에서 갑자기 오류 함수의 정규화 용어에 하이퍼 파라미터 가 나타납니다 .μσ2λ

하이퍼 파라미터 란 무엇입니까? 왜 그렇게 지명 되었습니까? 그리고 그것들은 일반적으로 매개 변수와 직관적으로 어떻게 다른가요?


3
나는 개인적으로 그것이 사람들이 하이퍼로가는 전염병이라고 생각합니다. 이거 하이퍼 그거 초구-차원이 3을 초과하기 때문에 d @ manit 구체입니다. 계층 수준 또는 무언가를 나타냅니다. 어떤 경우 든 최적화 문제가있는 경우 최적화 할 매개 변수와 제약 조건 (다중 수준 최적화 인 경우 철자)을 명확하게 설명하십시오. 이 의견에서 너무 과장되지 않았기를 바랍니다.
Mark L. Stone

2
저는 항상 "초구"를 사용하여 "공구 차원"을 의미했습니다. 적어도 수학에서는 무언가를 의미하는 것 같습니다. 아니면 적어도 수학에 관해 이야기 할 때. 이제 진정해
Matthew Drury

답변:


18

하이퍼 파라미터라는 용어는 매우 모호합니다. 다른 매개 변수보다 더 높은 레벨의 계층 구조에있는 매개 변수를 나타내는 데 사용합니다. 예를 들어, 분산이 알려진 회귀 모형 (이 경우 1)을 고려하십시오.

와이(엑스β,나는)

그런 다음 매개 변수에 대한 사전

β(0,λ나는)

여기서 는 의 분포를 결정 하고 는 의 분포를 결정합니다 . 참조하고 싶을 때는 매개 변수라고하고 참조하고 싶을 때는 하이퍼 파라미터라고 부를 수 있습니다.λββ와이βλ

매개 변수가 여러 레벨에 표시되거나 계층 적 레벨이 더 많을 때 (과 하이퍼 파라미터라는 용어를 사용하지 않으려는 경우) 이름이 더 복잡해집니다. 저자가 해당 문제에 대해 하이퍼 파라미터 또는 매개 변수라는 용어를 사용할 때의 의미를 정확하게 지정하는 것이 가장 좋습니다.


이것은 좋은 설명입니다. 나는 이제 그것을 '기능 구성 -ish'로 상상하고있다. 기호에 넣은 것을 번역하기 위해 는 보통 정규 분포 되지만 는 차례로 분포됩니다. 감사합니다와이엑스β이자형
cgo

10

하이퍼 파라미터는 단순히 다른 파라미터에 완전히 또는 부분적으로 영향을 미치는 파라미터입니다. 그것들은 당신이 직면 한 최적화 문제를 직접적으로 해결하지는 않지만 문제를 해결할 수있는 매개 변수를 최적화합니다 (따라서 hyper 는 최적화 문제의 일부가 아니라 오히려 "애드온"이기 때문에 hyper입니다 ). 내가 본 것에 대해서는 참조가 없지만이 관계는 단방향입니다 ( 하이 매개 변수는 영향을받는 매개 변수에 영향을받을 수 없으므로 hyper ). 일반적으로 정규화 또는 메타 최적화 체계로 도입됩니다.

예를 들어, 매개 변수는 및 에 자유롭게 영향을 주어 정규화 비용을 조정할 수 있습니다 (그러나 및 는 영향을 미치지 않음 ). 따라서 는 및 의 하이퍼 파라미터입니다 . 당신이 있다면 추가 매개 변수를 좌우하는 , 그것은을위한 hyperparameter 것 와의 hyperhyperparameter 와 (하지만이 nomenclatura을 본 적이 있지만, 나는 그것이 잘못된 것 느끼지 않을 것 내가 본다면).λμσμσλλμστλλμσ

하이퍼 파라미터 개념은 교차 검증에 매우 유용하다는 것을 알았습니다. 매개 변수의 계층 구조를 상기시키는 동시에 매개 변수를 계속 수정하는 경우 여전히 교차 검증되고 일반화되지 않는다는 사실을 상기시킵니다. 당신의 결론에주의를 기울이십시오 (순환 적 사고를 피하기 위해).


7

다른 설명은 약간 모호합니다. 보다 명확한 설명이 여기에 있습니다.

하이퍼 파라미터는 모델의 매개 변수입니다 , 하지 모델링되는 물리적 과정. 유한 데이터 및 / 또는 유한 계산 시간 이있을 때 모델을 "인공적으로"만들기 위해 "인공적으로"소개합니다 . 측정하거나 계산할 무한한 힘이 있다면 하이퍼 파라미터는 더 이상 실제 시스템의 물리적 측면을 설명하지 않기 때문에 더 이상 모델에 존재하지 않습니다.

반면에 일반 매개 변수는 물리적 시스템을 설명하는 매개 변수이며 아티팩트 만 모델링하는 것이 아닙니다.


6

그것은 정확하게 정의 된 용어가 아니므로, 계속해서 일반적인 사용법과 일치하는 또 다른 정의를 드리겠습니다.

하이퍼 파라미터는 최종 예측 함수의 기능적 형태에 참여하지 않는 기계 학습 알고리즘에서 추정되는 수량입니다.

능선 회귀 분석을 예로 들어 보겠습니다. 릿지 회귀 분석에서 다음 최적화 문제를 해결합니다.

β(λ)=아르 민β((와이엑스β)(와이엑스β)+λββ)
β=아르 민λ(와이'엑스'β(λ))(와이'엑스'β(λ))

엑스,와이엑스',와이'

에프(엑스)=엑스β

λβλ


3

@jaradniemi에 의해 정확하게 지적 된 바와 같이, 하이퍼 파라미터 라는 용어의 사용은 계층 적 또는 다중 레벨 모델링에서 비롯됩니다.

그러나 다른 의미에서도 다른 용어에서도 동일한 용어가 사용됩니다. 예를 들어, 하이퍼 파라미터 라는 용어 가 확률 적 모델의 시뮬레이션 매개 변수 (실행 길이, 독립 복제 수, 각 복제의 상호 작용 입자 수 등)를 나타내는 데 사용되는 것을 보았습니다 . 모델링.


1
FWIW 나는 일반적으로 주행 길이, 상호 작용 입자의 수 ​​등을 튜닝 매개 변수라고합니다.
jaradniemi

나는 동의한다. 나에게는 하이퍼 파라미터보다 더 적절한 선택이 들린다. 그럼에도 불구하고 다른 지식 분야의 다른 사람들에게는 여전히 합리적으로 들렸습니다.
Marcelo Ventura
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.