«loss-functions» 태그된 질문

모델에 따라 관측 된 데이터와 예측 된 값의 차이를 정량화하는 데 사용되는 함수입니다. 손실 함수의 최소화는 모델의 매개 변수를 추정하는 방법입니다.

2
그라디언트 디센트를 사용하여 k- 평균이 최적화되지 않는 이유는 무엇입니까?
k- 평균 이 일반적으로 Expectation Maximization을 사용하여 최적화 된다는 것을 알고 있습니다. 그러나 다른 최적화 방법과 동일하게 손실 기능을 최적화 할 수 있습니다! 실제로 대규모 k- 평균에 확률 론적 경사 하강 을 사용하는 일부 논문을 찾았 지만 질문에 대한 답변을 얻을 수 없었습니다. 왜 그런지 아는 사람이 있습니까? 기대 극대화가 …

2
시끄러운 레이블로 분류?
분류를 위해 신경망을 훈련하려고하지만 레이블이 다소 시끄 럽습니다 (라벨의 약 30 %가 잘못되었습니다). 교차 엔트로피 손실이 실제로 작동하지만이 경우 더 효과적인 대안이 있는지 궁금합니다. 또는 교차 엔트로피 손실이 최적입니까? 확실하지는 않지만 교차 엔트로피 손실을 어느 정도 "클리핑"하여 하나의 데이터 포인트에 대한 손실이 상한보다 크지 않을 것이라고 생각하고 있습니까? 감사! 업데이트 …

1
바이어스-분산 분해
주교의 패턴 인식 및 기계 학습의 3.2 절 에서, 제곱 손실 함수에 대해 예상 손실이 제곱 바이어스 항으로 분해 될 수 있음을 나타내는 바이어스-분산 분해에 대해 설명합니다 (평균 예측이 실제로부터 얼마나 멀리 떨어져 있는지 설명 함). 모델), 분산 항 (평균 주변 예측의 확산을 설명) 및 잡음 항 (데이터의 고유 잡음을 …

1
순진 베이 분류 기가 0-1 손실에 최적 인 이유는 무엇입니까?
Naive Bayes 분류기는 클래스 멤버쉽 의 사후 를 최대화하여 항목 를 클래스 할당하는 분류기이며 항목 의 기능이 독립적이라고 가정합니다.xxxCCCP(C|x)P(C|x)P(C|x) 0-1 손실은 모든 잘못된 분류에 "1"의 손실과 "0"의 손실을 올바른 분류에 할당하는 손실입니다. 나는 종종 (1) "Naive Bayes"분류 기가 0-1 손실에 최적이라는 것을 읽습니다. 왜 이것이 사실입니까? (1) 하나의 예시적인 출처 …

2
0-1 손실 함수가 다루기 어려운 이유는 무엇입니까?
Ian Goodfellow의 딥 러닝 북에는 다음과 같이 쓰여 있습니다. 때때로, 우리가 실제로 걱정하는 손실 함수 (예 : 분류 오류)는 효율적으로 최적화 할 수없는 기능이 아닙니다. 예를 들어 선형 분류기의 경우에도 예상되는 0-1 손실을 정확하게 최소화하는 것은 일반적으로 다루기 어렵습니다 (입력 차원에서 지수). 이러한 상황에서 대체적으로 대리 손실 기능을 최적화하여 프록시 …

2
교차 엔트로피 손실 함수의 다른 정의
신경망과 딥 러닝 닷컴 자습서를 통해 신경망에 대해 배우기 시작했습니다. 특히 3 장 에는 교차 엔트로피 기능에 대한 섹션이 있으며 교차 엔트로피 손실을 다음과 같이 정의합니다. 씨= − 1엔∑엑스∑제이( y제이lnㅏ엘제이+ ( 1 − y제이) ln( 1 − a엘제이) )씨=−1엔∑엑스∑제이(와이제이ln⁡ㅏ제이엘+(1−와이제이)ln⁡(1−ㅏ제이엘))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 …



1
손실 함수의 2 차 근사 (딥 러닝 북, 7.33)
딥 러닝에 관한 Goodfellow (2016)의 저서에서 그는 L2 정규화 ( https://www.deeplearningbook.org/contents/regularization.html 247 쪽) 의 조기 중지와 동등한 내용에 대해 이야기했습니다 . 비용 함수 의 2 차 근사값 은 다음과 같습니다.jjj 제이^( θ ) = J( 승※) + 12( w − w※)티H( w − w※)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) 여기서 는 헤 시안 행렬입니다 (식 …

3
고정밀 또는 리콜 이진 분류기를 얻기 위해 어떤 손실 함수를 사용해야합니까?
슬라이딩 / 크기 조정 창에 적용된 CNN 이진 분류기를 사용하여 매우 드물게 발생하는 물체 (이미지에서)를 탐지하려고합니다. 균형 잡힌 1 : 1 양의 음수 훈련 및 테스트 세트를 구성했으며 (이 경우 btw입니까?) 분류기는 정확도 측면에서 테스트 세트에서 잘 수행됩니다. 이제 분류기의 리콜 / 정밀도를 제어하고 싶습니다. 예를 들어, 대다수 클래스 발생에 …

1
Scikit 이항 편차 손실 함수
이것은 scikit GradientBoosting의 이항 이탈 손실 함수입니다. def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * …

2
백분위 수 손실 함수
문제에 대한 해결책 : minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] X 의 중앙값으로 잘 알려져 XXX있지만 손실 함수는 다른 백분위 수에 어떤 모양입니까? 예 : X의 25 번째 백분위 수는 다음에 대한 솔루션입니다. minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] 이 경우 LLL 은 무엇입니까 ?

3
MAP은 대한 솔루션입니다
내가 건너 온 이 슬라이드 온라인 교육 과정 중 하나 (슬라이드 # 16 & # 17). 강사는 최대 후방 추정치 (MAP)가 실제로 솔루션 인 방법을 설명하려고했습니다 . 여기서 는 참 매개 변수.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} 누군가 이것이 어떻게 진행되는지 설명해 주시겠습니까? 편집 : 링크가 끊어 질 경우 슬라이드를 추가했습니다.

1
seq2seq RNN 모델의 점수를 매기려면 어떤 손실 함수를 사용해야합니까?
seq2seq 모델링을위한 인코더-디코더 아키텍처를 소개 한 Cho 2014 논문을 연구하고 있습니다. 이 논문에서 그들은 입력이 주어진 입력의 확률 을 길이 의 입력 와 길이 출력 에 대한 손실 함수로 사용하는 것처럼 보입니다 (또는 음의 로그 가능성) :M y NxxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,엑스미디엄)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …

1
가중 제곱 바이어스와 분산의 합을 최소화하는 추정기는 의사 결정 이론에 어떻게 적합합니까?
알았어요. 제 원래의 메시지는 응답을 이끌어 내지 못했습니다. 질문을 다르게하겠습니다. 나는 결정 이론적 관점에서 추정에 대한 나의 이해를 설명하는 것으로 시작할 것이다. 나는 공식적인 훈련이 없으며 어떤 식 으로든 내 생각에 결함이 있다고해도 놀라지 않을 것입니다. 손실 함수 가 있다고 가정 합니다. 예상되는 손실은 (자주적인) 위험입니다.L(θ,θ^(x))L(θ,θ^(x))L(\theta,\hat\theta(x)) R(θ,θ^(x))=∫L(θ,θ^(x))L(θ,θ^(x))dx,R(θ,θ^(x))=∫L(θ,θ^(x))L(θ,θ^(x))dx,R(\theta,\hat\theta(x))=\int L(\theta,\hat\theta(x))\mathcal{L}(\theta,\hat\theta(x))dx, 여기서 는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.