전체 데이터 세트를 가져 와서 배트맨을 얻은 볼의 총 수를 볼링 된 총 볼 수로 나눈 경우 볼링 선수가 배트맨을 꺼내는 평균 확률이 있음을 알 수 있습니다-약 0.03 나는 이미 잘못하지 않았다?)
불행히도, 이것은 이미 정확히 당신이 찾고있는 것이 아닙니다.
한 명의 중산과 두 명의 타자, 돈 브래드 먼 과 저가 있다고 가정 해 봅시다 . (크리켓에 대해서는 거의 알지 못하므로 여기서 벗어나는 방법을 알려주세요.) 게임은 다음과 같이 진행됩니다.
- 돈이 방망이에 들어가 99 번 사발에 나옵니다.
- 나는 박쥐에 가서 즉시 나간다.
- 돈이 방망이에 들어가 99 번 사발에 나옵니다.
- 나는 박쥐에 가서 즉시 나간다.
이 경우, 200 개의 볼 중 4 개의 아웃이 있으므로, 볼러가 타자를 뽑을 확률은 4/200 = 2 %로 추정됩니다. 그러나 실제로 돈이 나올 확률은 1 %와 비슷하지만 내 것은 100 %입니다. 따라서 배트맨과 볼러를 무작위로 선택한다면,이 중산 인이 이번 배트맨을 이번에 나올 확률은 (50 % 확률로 돈을 골랐습니다) * (1 % 확률) + (50 % 확률로 뽑았습니다) 나) * (100 % 확률) = 50.05 %. 그러나 임의로 피치 를 선택하면 2 %의 확률로 나옵니다. 따라서 어떤 샘플링 모델을 생각하고 있는지 신중하게 고려해야합니다.
어쨌든, 당신의 제안은 미친 것이 아닙니다. 더 상징적으로비 중산이되고 미디엄타자; 허락하다에프( b , m ) 가능성이있다 비 얻는다 미디엄밖. 그렇다면 당신은 말하고 있습니다 :
에프( b , m ) =이자형미디엄'[ f( b ,미디엄') ]이자형비'[ f(비', m ) ]이자형비',미디엄'[ f(비',미디엄') ].
여기에는 다음과 같은 원하는 속성이 있습니다.
이자형b , m[ f( b , m ) ] =이자형B ,미디엄'[ f( b ,미디엄') ]이자형비', m[ f(비', m ) ]이자형비',미디엄'[ f(비',미디엄') ]=이자형b , m[ f( b , m ) ] ;
당신이 단지 수단을 인수한다면 그것은 비슷하게 일관됩니다
비 또는
미디엄.
이 경우 우리는 할당 할 수 있습니다
씨: =이자형b , m[ f( b , m ) ]지( b ) : =이자형미디엄[ f( b , m ) ] /씨−−√h ( m ) : =이자형비[ f( b , m ) ] /씨−−√그래서 f( b , m ) = g( b )h ( m ) .
당신의 가정은 관찰 할 수 있다는 것입니다
지( b ) 과
h ( m )데이터에서 합리적으로 잘. (a) 충분한 게임이 있고 (b) 플레이어가 모두 비슷한 주파수로 서로 게임을하는 한 괜찮습니다.
좀 더 정교하게 설명하자면 : 많은 전문 게임의 데이터와 친구와 함께하는 많은 게임이 있다고 상상해보십시오. 겹치지 않으면 내 친구들에 비해 정말 좋아 보일 수도 있으므로 최악의 프로 선수보다 훨씬 나을 것이라고 생각할 수도 있습니다. 이것은 분명히 거짓이지만, 반박 할 데이터가 없습니다. 그래도 프로 선수와 한 번 경기를하고 파괴 된 부분이 약간 겹치면 데이터가 나와 내 친구를 프로보다 나쁘게 순위를 매기는 것을 지원하지만 방법은 설명하지 않습니다. 기술적으로, 여기서 문제는 예를 들어 좋은 샘플이 있다고 가정한다는 것입니다.이자형비'[ f(비', m ) ]하지만 비' 분포가 편향되어 있습니다.
물론 데이터는 나쁘지 않지만 리그 구조 또는 기타 사항에 따라 해당 문제의 일부 요소가있을 수 있습니다.
다른 접근 방식으로 문제를 해결할 수 있습니다. 제안 된 모델에프실제로 Netflix 문제 에서와 같이 협업 필터링 에서 일반적으로 사용되는 저급 매트릭스 인수 분해 모델의 인스턴스입니다 . 거기, 당신은 기능을 선택지( b ) 과 h ( m ) 치수가 아르 자형, 대표 에프( b , m ) = g( b)티h ( m ). 당신은 해석 할 수 있습니다r > 1단일 "품질"점수에서 여러 차원에 걸쳐 점수를 얻는 것까지 모델을 복잡하게 만들 수 있습니다. 특정 볼러는 특정 유형의 타자에 비해 더 나을 수 있습니다. (이것은 예 를 들어 NBA 게임 에서 수행되었습니다 .)
그것들을 행렬 분해라고 부르는 이유는 행렬을 만들면 에프 볼러만큼 많은 행과 타자만큼 많은 열로, 이것을 다음과 같이 쓸 수 있습니다.
⎡⎣⎢⎢⎢⎢⎢에프(비1,미디엄1)에프(비2,미디엄1)⋮에프(비엔,미디엄1)에프(비1,미디엄2)에프(비2,미디엄2)⋮에프(비엔,미디엄2)……⋱…에프(비1,미디엄미디엄)에프(비2,미디엄미디엄)⋮에프(비엔,미디엄미디엄)⎤⎦⎥⎥⎥⎥⎥에프=⎡⎣⎢⎢지(비1)⋮지(비엔)⎤⎦⎥⎥지⎡⎣⎢⎢h (미디엄1)⋮h (미디엄미디엄)⎤⎦⎥⎥티H티
당신이 고려한 곳
엔× M 매트릭스
에프 로
엔× r 하나
지 그리고
미디엄× r 하나
H.
물론, 당신은 관찰 할 수 없습니다 에프직접. 일반적인 모델은 시끄러운 항목을 관찰하는 것입니다.에프무작위; 귀하의 경우, 각 항목에 대해 임의의 횟수의 시행 으로 이항 분포 에서 추첨을 관찰 할 수 있습니다.에프.
다음과 같이 확률 모델을 구성 할 수 있습니다.
지나는 k~ N( 0 ,σ2지)Hj k~ N( 0 ,σ2H)에프나는 j=지티나는H제이아르 자형나는 j∼ Bi n o m i a l (엔나는 j,에프나는 j)
어디
엔나는 j 과
아르 자형나는 j 관찰되고, 아마도 당신은 아마도 일부
σ지/
σH그리고 예를 들어
Stan 에서 유추하십시오 .
이것은 완벽한 모델이 아닙니다. 엔 점수와 상관 관계가 있으며 (첫 번째 섹션에서 언급했듯이) 더 중요하게는 에프나는 j ~에있다 [ 0 , 1 ](아마도 물류 시그 모이 드 또는 이와 유사한 것을 사용하여 달성 할 수 있습니다). 보다 복잡한 우선 순위를 가진 관련 기사지 과 H(그러나 이항 가능성을 사용하지는 않음) : Salakhutdinov와 Mnih, Markov chain Monte Carlo , ICML 2008을 사용한 베이지안 확률 행렬 인수 분해 . ( doi / author 's pdf )