이 질문이 있습니다. YouTube에서 하루에 소비 한 시간의 분포는 어떻게 생각하십니까?
내 대답은 아마도 정상적으로 분포되어 있고 매우 왼쪽으로 기울어 져 있다는 것입니다. 나는 대부분의 사용자가 평균 시간을 소비하고 일부 사용자가 압도적 인 고급 사용자이기 때문에 긴 꼬리를 보내는 하나의 모드가 있다고 생각합니다.
그게 정답입니까? 그 분포에 대해 더 나은 단어가 있습니까?
이 질문이 있습니다. YouTube에서 하루에 소비 한 시간의 분포는 어떻게 생각하십니까?
내 대답은 아마도 정상적으로 분포되어 있고 매우 왼쪽으로 기울어 져 있다는 것입니다. 나는 대부분의 사용자가 평균 시간을 소비하고 일부 사용자가 압도적 인 고급 사용자이기 때문에 긴 꼬리를 보내는 하나의 모드가 있다고 생각합니다.
그게 정답입니까? 그 분포에 대해 더 나은 단어가 있습니까?
답변:
하루의 분수는 확실히 음수가 아닙니다. 이것은 정규 분포를 배제하는데, 이는 실제 축 전체, 특히 음의 절반에 대한 확률 질량을 갖습니다.
전력 법 분포 는 종종 소득 분포, 도시 크기 등과 같은 것들을 모델링하는 데 사용됩니다. 이는 음이 아니며 일반적으로 치우칩니다. 이것들은 YouTube 시청 시간을 모델링 할 때 처음 시도 할 것입니다. 또는 CrossValidated 질문을 모니터링합니다.
정규 분포는 치우 치지 않습니다. 그것은 모순입니다. 정규적으로 분포 된 변수는 기울이기 = 0입니다.
오른쪽 꼬리가 길면 오른쪽으로 치우칩니다.
skew! = 0 이후 정규 분포가 될 수 없습니다. 아마도 단조로운 비대칭 분포 일 것입니다.
"그 분포에 대해 더 나은 단어가 있습니까?"
분포 의 속성 을 설명하기 위해 단어를 사용 하는 것과 분포에 대한 "이름"을 찾는 것 사이에 특별한 표준 분포의 인스턴스 (대략 수식)를 식별 할 수 있도록하는 것 사이에는 가치있는 차이점 이 있습니다. 또는 통계표가 분포 함수에 대해 존재하고 모수를 추정 할 수 있습니다. 후자의 경우 데이터의 모집단을 주장하는 대신 데이터의 주요 기능 중 일부를 캡처 하는 모델 로 명명 된 분포 (예 : "정상 / 가우스"(일반적으로 두 용어는 동의어))를 사용하고있을 것입니다. 이론적 분포 를 정확히 따릅니다. 조지 박스를 약간 잘못 인용하기 위해모든 모델이 "잘못된"것이지만 일부는 유용합니다. 모델링 접근 방식에 대해 생각하고 있다면 통합하려는 기능과 모델이 얼마나 복잡하거나 조화로 운지 고려할 가치가 있습니다.
된다는 긍정적 비우는 것은 분포가 있지만 기성 분포 "은"해당 모델 인 지정 가까이 오지 않는다는 성질을 기술하는 예이다. 예를 들어 가우스 분포 (예 : 정규 분포)에 스큐가없는 경우와 같이 일부 후보를 제외하므로 스큐가 중요한 기능인 경우 데이터를 모델링하는 데 적합하지 않습니다. 중요한 데이터의 다른 속성도있을 수 있습니다. 예를 들어, 단조로운 (단 하나의 피크 만 있음) 또는 0에서 24 시간 사이 (또는 분수로 쓰는 경우 0과 1 사이)로 제한됩니다. 또는 하루에 YouTube를 전혀 보지 않는 사람들이 있기 때문에 0에 집중 될 확률이 있습니다.첨도 . 그리고 여러분의 분포가 "혹"또는 "종 곡선"모양을 갖고 0 또는 거의 0으로 치우친 경우에도 정규 분포가 "올바른"것으로 자동으로 따라 가지 않습니다! 반면에 데이터를 수집 한 모집단이 실제로 샘플링 오차 로 인해 특정 분포를 정확하게 따라갔습니다.데이터 세트와 매우 유사하지 않을 수 있습니다. 작은 데이터 세트는 "잡음"일 가능성이 높으며 추가 작은 혹이나 비대칭 테일과 같이 볼 수있는 특정 피처가 데이터가 추출 된 기본 개체의 특성인지 확실하지 않을 수 있습니다. 모델에서) 또는 특정 샘플의 인공물인지 모델링 (및 모델링 목적으로 무시)해야합니다. 작은 데이터 세트가 있고 스큐가 0에 가까우면 기본 분포가 실제로 대칭이 될 수 있습니다. 데이터 세트가 클수록 왜곡도가 커질수록 그럴듯 해집니다. 그러나 유의성 테스트를 수행하여 데이터가 추출 된 모집단의 왜도에 대한 데이터가 제공하는 증거인지를 확인할 수 있습니다., 이것은 정규 (또는 다른 제로 스큐) 분포가 모형으로 적합한 지에 대한 요점을 놓칠 수 있습니다 ...
데이터를 모델링하려는 목적에 중요한 데이터 속성은 무엇입니까? 왜곡이 합리적으로 작고 근본 인구가 실제로 왜곡되어 있더라도 크게 신경 쓰지 않으면 정규 분포가 시청 시간의 실제 분포를 근사화 하는 데 유용한 모델 일 수 있습니다. 그러나 이것이 바보 같은 예측을하지 않는지 확인해야합니다. 정규 분포는 가능한 최대 값 또는 최저값이 없기 때문에 극히 높거나 낮은 값이 점점 커지지는 않지만 항상 모델에 일부 값이 있음을 예측할 수 있습니다.하루에 음수 또는 24 시간 이상 시청할 확률. 그러한 불가능한 사건의 예측 확률이 높아지면 이것은 더 문제가됩니다. 법선과 같은 대칭 분포는 많은 사람들이 평균보다 50 % 미만을 감시하는 것처럼 평균보다 50 % 이상 긴 시간을 관찰 할 것으로 예측합니다. 시청 시간이 매우 치우친 경우 이러한 종류의 예측은 어리석은 것처럼 믿기 어려울 수 있으며 모델 결과를 가져 와서 다른 목적으로 입력으로 사용하는 경우 잘못된 결과를 제공 할 수 있습니다 (예 : 최적의 광고 예약을 계산하기 위해 시청 시간의 시뮬레이션을 실행하고 있습니다). 왜도가 주목할 만하면 모델의 일부로 캡처하려고합니다.비정규 분포가 더 적절할 수 있습니다. 왜도 및 첨도를 모두 캡처하려면 비뚤어진 t 를 고려하십시오 . 물리적으로 가능한 상한과 하한을 통합하려면 이 분포 의 잘린 버전을 사용하는 것이 좋습니다. F 또는 감마 분포 와 같이 왜곡되고 단조로운 (적절한 매개 변수 선택의 경우) 많은 다른 확률 분포가 존재하며 , 다시 시청 시간을 예측할 수 없도록 잘라낼 수 있습니다. 베타 배포시청 시간의 일부를 모델링하는 경우 추가 절단이 필요하지 않고 항상 0과 1 사이로 제한되므로 좋은 선택이 될 수 있습니다. 관찰자가 아닌 사람으로 인해 정확히 0에 확률 집중도를 통합하려면 허들 모델로 구축하는 것을 고려하십시오 .
그러나 현재 데이터에서 식별 할 수있는 모든 기능을 사용하고보다 정교한 모델을 만들려고하는 이유 는 무엇입니까? 더 간단한 모델의 장점이 있습니까? 예를 들어 수학적으로 작업하기가 더 쉽고 추정 할 매개 변수가 더 적습니까? 그러한 단순화로 인해 관심있는 모든 특성을 포착 할 수 없게 될 것으로 우려되는 경우 "기성품"배포가 원하는 것을 수행하지 않을 수도 있습니다. 그러나 우리는 수학적 특성이 이전에 설명 된 명명 된 분포를 다루는 데 제한되지 않습니다. 대신, 경험적 분포 함수 를 구성하기 위해 데이터 사용을 고려하십시오. 데이터에 존재하는 모든 동작을 캡처하지만 더 이상 "정상"또는 "감마"와 같은 이름을 지정할 수 없으며 특정 분포에만 관련된 수학적 속성을 적용 할 수도 없습니다. 예를 들어, "데이터의 95 %는 평균의 1.96 표준 편차 내에 있습니다"규칙은 정규 분포 데이터에 대한 것이며 분포에 적용되지 않을 수 있습니다. 참고하지만 몇 가지 규칙은 모든 배포판에 적용되는 것으로, 예를 들어, 체비 쇼프 부등식의 보장 이상데이터의 75 %는 기울기와 상관없이 평균의 두 표준 편차 내에 있어야합니다. 불행히도 경험적 분포는 기본 모집단이 소유 한 속성뿐만 아니라 샘플링 오류에 의해 순수하게 발생하는 데이터 세트의 모든 속성을 상속하므로 경험적 분포의 히스토그램에는 모집단 자체가 그렇지 않은 혹과 딥이 있음을 알 수 있습니다 . 평활화 된 경험적 분포 함수 를 조사 하거나 표본 크기를 늘리는 것이 좋습니다.
요약 : 정규 분포에 치우침이 없지만 데이터가 치우친 사실은 정규 분포를 유용한 모델로 배제하지 않지만 다른 분포가 더 적절할 수 있음을 시사합니다. 모형을 선택할 때 기울이기 외에 데이터의 다른 속성을 고려해야하고 모형을 사용할 목적도 고려해야합니다. 시청 시간의 실제 인구가 유명한 유명한 분포를 따르지 않는다고해서 이것이 그러한 분포가 모형으로서 쓸모없는 운명을 의미하는 것은 아닙니다. 그러나 어떤 목적을 위해서는 표준 분포를 맞추기보다는 경험적 분포 자체 만 사용하는 것이 좋습니다.
감마 분포는 음이 아닌 오른쪽으로 치우친 데이터에 대한 이러한 종류의 분포를 설명하는 좋은 후보가 될 수 있습니다. https://en.m.wikipedia.org/wiki/Gamma_distribution 에서 이미지의 녹색 선을 참조하십시오.
허들 모델은 어떻습니까?
허들 모델에는 두 부분이 있습니다. 첫 번째는 YouTube 사용 여부를 결정하는 Bernoulli 실험입니다. 그렇지 않으면 사용 시간이 분명히 0이며 완료된 것입니다. 그렇게한다면, "이 장애물을 통과"하면, 사용 시간은 엄밀히 다른 긍정적 인 분포에서 비롯됩니다.
밀접하게 관련된 개념은 제로 팽창 모델입니다. 이것들은 우리가 0의 무리를 관찰하는 상황을 다루기위한 것이지만 항상 0과 때로는 0을 구별 할 수는 없습니다. 예를 들어, 매일 담배를 피우는 담배의 수를 고려하십시오. 비 흡연자의 경우 해당 숫자는 항상 0이지만 일부 흡연자는 지정된 날 (담배에서? 긴 비행에서) 담배를 피울 수 없습니다. 허들 모델과 달리, 여기서 "흡연자"분포는 0을 포함해야하지만,이 수는 비 흡연자 기여도에 의해 '팽창'됩니다.
분포가 실제로 정규 분포의 '하위 집합' 인 경우 절단 된 모형을 고려해야합니다. 이러한 맥락에서 TOBIT 모델 제품군이 널리 사용됩니다.
그들은 본질적으로 0에서 (양의) 확률 질량을 가진 pdf를 제안한 다음 양수 값에 대해 '정규 분포의 일부를 자릅니다' .
여기에 수식을 입력하지 말고 Wikipedia 기사를 참조하십시오. https://en.wikipedia.org/wiki/Tobit_model
정규 분포는 정의에 따라 기울어지지 않으므로 두 가지를 모두 가질 수는 없습니다. 분포가 왼쪽으로 치우치면 가우시안이 될 수 없습니다. 다른 것을 골라야합니다! 내가 생각할 수있는 가장 가까운 것은 이것입니다.