정규 분포이지만 치우친 분포가 가우시안으로 간주됩니까?


12

이 질문이 있습니다. YouTube에서 하루에 소비 한 시간의 분포는 어떻게 생각하십니까?

내 대답은 아마도 정상적으로 분포되어 있고 매우 왼쪽으로 기울어 져 있다는 것입니다. 나는 대부분의 사용자가 평균 시간을 소비하고 일부 사용자가 압도적 인 고급 사용자이기 때문에 긴 꼬리를 보내는 하나의 모드가 있다고 생각합니다.

그게 정답입니까? 그 분포에 대해 더 나은 단어가 있습니까?


4
일부 답변에서 언급했지만 강조하지는 않지만 긴 꼬리가있는 경우 비대칭으로 비대칭으로 이름이 지정되고 오른쪽 꼬리가 길면 오른쪽으로 치우칩니다. 이 문맥에서 사용 된 좌측 및 우측은 수평 축에 크기가 표시되는 규칙에 따라 디스플레이를 전제로한다. 그것이 너무 분명하게 들리면, 지구와 환경 과학에서 크기가 높이 또는 깊이이며 세로로 표시되는 디스플레이를 고려하십시오. 작은 글씨 : 분포가 기하학적으로 치우친 경우에도 일부 왜도 측정 값은 0 일 수 있습니다.
닉 콕스

1
모든 사용자의 하루 총 시간? 또는 하루에 사람마다 시간? 후자가 반드시 0에 약간 큰 스파이크가있는 경우,이 경우 아마도 Dirac 델타가 0 인 '스파이크 및 슬래브'스타일 분포가 필요할 것입니다.
innisfree

6
"정규"는 "가우스"와 동의어이며 정규 분포라고도하는 가우스 분포는 왜곡되지 않습니다.
Michael Hardy

제목의 질문은 본문의 질문과 크게 다릅니다. 또는 적어도 제목이 매우 혼란 스럽습니다. '정상이지만 고도로 치우친'분포는 모순입니다. 또한 가우시안 분포는 매우 잘 정의됩니다. 이며 YouTube에서 하루를 보내는 시간의 분포와 전혀 다릅니다. 제목의 질문에 대한 대답은 큰 아니오입니다. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus

2
또한 마지막 질문은 '그 분포에 대해 더 나은 단어가 있습니까?' 매우 모호하거나 광범위합니다. 정보는 '하나의 모드'와 '오른쪽 긴 꼬리'인 것 같습니다 ( '정규적으로 분포 된'부분은 의미가 없습니다). 이러한 조건을 만족하는 많은 분포가있을 수 있습니다. 이 질문에 실제로 10 가지가 넘는 답변과 적어도 대안 배포에 대한 제안이 실제로 그 질문을 명확하게하기 전에 제시하는 것은 놀라운 일입니다 (데이터조차 없습니다).
Sextus Empiricus

답변:


14

하루의 분수는 확실히 음수가 아닙니다. 이것은 정규 분포를 배제하는데, 이는 실제 축 전체, 특히 음의 절반에 대한 확률 질량을 갖습니다.

전력 법 분포 는 종종 소득 분포, 도시 크기 등과 같은 것들을 모델링하는 데 사용됩니다. 이는 음이 아니며 일반적으로 치우칩니다. 이것들은 YouTube 시청 시간을 모델링 할 때 처음 시도 할 것입니다. 또는 CrossValidated 질문을 모니터링합니다.

전력 법에 대한 자세한 내용은 여기 또는 여기 또는 태그를 참조하십시오.


16
정규 분포가 실제 라인을 지원한다는 것은 완전히 정확합니다. 그럼에도 불구하고 ... 성인의 키나 몸무게와 같이 엄격하게 긍정적 인 특성에 대한 끔찍한 모델은 아닙니다. 평균과 편차는 모델에서 음수 값이 거의 없을 가능성이 높습니다.
매트 크라우스

2
@MattKrause 실제로 좋은 질문입니다. '평균 높이 위나 아래 10cm'또는 '평균 높이 위나 아래 10 %'와 같은 확률이 있습니까? 첫 번째 경우 만 정규 분포를 보증 할 수 있습니다.
Tomáš Kafka

1
@ MatKrause : 나는 일반적인 의미에서 완전히 동의합니다. 그러나 현재 질문은 YouTube 시청에 소요 된 일일 시간의 비율에 관한 것입니다. 우리는 데이터가 없지만 분포가 원격으로 대칭이라면 놀랄 것입니다.
Stephan Kolassa

43

정규 분포는 치우 치지 않습니다. 그것은 모순입니다. 정규적으로 분포 된 변수는 기울이기 = 0입니다.


1
분포를 설명하는 더 좋은 방법은 무엇입니까? 모드를 중심으로 한 다음 긴 꼬리를 갖는 분포 유형에 대한 단어가 있습니까?
Cauder


9
제쳐두고, 사람들이 다른 사람들이이 일을 더 잘할 수 있도록 시간을내는 것은 정말 놀랍습니다. 나는 그것이 말도없이 진행된다는 것을 알고 있지만, 당신이하는 일이 너무 멋지다!
Cauder

6
그렇습니다. 그러나 그 진술은 정규 분포 인구와 관련이 있음을 분명히 할 가치가 있습니다. 해당 모집단에서 추출한 표본이 매우 왜곡 될 수 있습니다.
gung-복직 모니카

왜도 값이 작을 경우 (문제 통계를 처리하는 사람들이 "작은"결정), 결과는 약간의 오차가 있더라도 모집단을 정상으로 취급 할 수 있습니다.
Carl Witthoft


13

로그 정규 분포 일 수 있습니다. 여기에 언급 한 바와 같이 :

온라인 기사 (농담, 뉴스 등)에 대한 사용자의 체류 시간은 로그 정규 분포를 따릅니다.

주어진 참조는 Yin, Peifeng; 루오, 핑; 이왕 치엔; 왕민 (2013). 침묵은 또한 증거입니다 : 심리적 관점에서 추천을위한 체류 시간 해석. KDD에 관한 ACM 국제 회의.


7

"그 분포에 대해 더 나은 단어가 있습니까?"

분포 의 속성 을 설명하기 위해 단어를 사용 하는 것과 분포에 대한 "이름"을 찾는 것 사이에 특별한 표준 분포의 인스턴스 (대략 수식)를 식별 할 수 있도록하는 것 사이에는 가치있는 차이점 이 있습니다. 또는 통계표가 분포 함수에 대해 존재하고 모수를 추정 할 수 있습니다. 후자의 경우 데이터의 모집단을 주장하는 대신 데이터의 주요 기능 중 일부를 캡처 하는 모델 로 명명 된 분포 (예 : "정상 / 가우스"(일반적으로 두 용어는 동의어))를 사용하고있을 것입니다. 이론적 분포 를 정확히 따릅니다. 조지 박스를 약간 잘못 인용하기 위해모든 모델이 "잘못된"것이지만 일부는 유용합니다. 모델링 접근 방식에 대해 생각하고 있다면 통합하려는 기능과 모델이 얼마나 복잡하거나 조화로 운지 고려할 가치가 있습니다.

된다는 긍정적 비우는 것은 분포가 있지만 기성 분포 "은"해당 모델 인 지정 가까이 오지 않는다는 성질을 기술하는 예이다. 예를 들어 가우스 분포 (예 : 정규 분포)에 스큐가없는 경우와 같이 일부 후보를 제외하므로 스큐가 중요한 기능인 경우 데이터를 모델링하는 데 적합하지 않습니다. 중요한 데이터의 다른 속성도있을 수 있습니다. 예를 들어, 단조로운 (단 하나의 피크 만 있음) 또는 0에서 24 시간 사이 (또는 분수로 쓰는 경우 0과 1 사이)로 제한됩니다. 또는 하루에 YouTube를 전혀 보지 않는 사람들이 있기 때문에 0에 집중 될 확률이 있습니다.첨도 . 그리고 여러분의 분포가 "혹"또는 "종 곡선"모양을 갖고 0 또는 거의 0으로 치우친 경우에도 정규 분포가 "올바른"것으로 자동으로 따라 가지 않습니다! 반면에 데이터를 수집 한 모집단이 실제로 샘플링 오차 로 인해 특정 분포를 정확하게 따라갔습니다.데이터 세트와 매우 유사하지 않을 수 있습니다. 작은 데이터 세트는 "잡음"일 가능성이 높으며 추가 작은 혹이나 비대칭 테일과 같이 볼 수있는 특정 피처가 데이터가 추출 된 기본 개체의 특성인지 확실하지 않을 수 있습니다. 모델에서) 또는 특정 샘플의 인공물인지 모델링 (및 모델링 목적으로 무시)해야합니다. 작은 데이터 세트가 있고 스큐가 0에 가까우면 기본 분포가 실제로 대칭이 될 수 있습니다. 데이터 세트가 클수록 왜곡도가 커질수록 그럴듯 해집니다. 그러나 유의성 테스트를 수행하여 데이터가 추출 된 모집단의 왜도에 대한 데이터가 제공하는 증거인지를 확인할 수 있습니다., 이것은 정규 (또는 다른 제로 스큐) 분포가 모형으로 적합한 지에 대한 요점을 놓칠 수 있습니다 ...

데이터를 모델링하려는 목적에 중요한 데이터 속성은 무엇입니까? 왜곡이 합리적으로 작고 근본 인구가 실제로 왜곡되어 있더라도 크게 신경 쓰지 않으면 정규 분포가 시청 시간의 실제 분포를 근사화 하는 데 유용한 모델 일 수 있습니다. 그러나 이것이 바보 같은 예측을하지 않는지 확인해야합니다. 정규 분포는 가능한 최대 값 또는 최저값이 없기 때문에 극히 높거나 낮은 값이 점점 커지지는 않지만 항상 모델에 일부 값이 있음을 예측할 수 있습니다.하루에 음수 또는 24 시간 이상 시청할 확률. 그러한 불가능한 사건의 예측 확률이 높아지면 이것은 더 문제가됩니다. 법선과 같은 대칭 분포는 많은 사람들이 평균보다 50 % 미만을 감시하는 것처럼 평균보다 50 % 이상 긴 시간을 관찰 할 것으로 예측합니다. 시청 시간이 매우 치우친 경우 이러한 종류의 예측은 어리석은 것처럼 믿기 어려울 수 있으며 모델 결과를 가져 와서 다른 목적으로 입력으로 사용하는 경우 잘못된 결과를 제공 할 수 있습니다 (예 : 최적의 광고 예약을 계산하기 위해 시청 시간의 시뮬레이션을 실행하고 있습니다). 왜도가 주목할 만하면 모델의 일부로 캡처하려고합니다.비정규 분포가 더 적절할 수 있습니다. 왜도 및 첨도를 모두 캡처하려면 비뚤어진 t 를 고려하십시오 . 물리적으로 가능한 상한과 하한을 통합하려면 이 분포 의 잘린 버전을 사용하는 것이 좋습니다. F 또는 감마 분포 와 같이 왜곡되고 단조로운 (적절한 매개 변수 선택의 경우) 많은 다른 확률 분포가 존재하며 , 다시 시청 시간을 예측할 수 없도록 잘라낼 수 있습니다. 베타 배포시청 시간의 일부를 모델링하는 경우 추가 절단이 필요하지 않고 항상 0과 1 사이로 제한되므로 좋은 선택이 될 수 있습니다. 관찰자가 아닌 사람으로 인해 정확히 0에 확률 집중도를 통합하려면 허들 모델로 구축하는 것을 고려하십시오 .

그러나 현재 데이터에서 식별 할 수있는 모든 기능을 사용하고보다 정교한 모델을 만들려고하는 이유 는 무엇입니까? 더 간단한 모델의 장점이 있습니까? 예를 들어 수학적으로 작업하기가 더 쉽고 추정 할 매개 변수가 더 적습니까? 그러한 단순화로 인해 관심있는 모든 특성을 포착 할 수 없게 될 것으로 우려되는 경우 "기성품"배포가 원하는 것을 수행하지 않을 수도 있습니다. 그러나 우리는 수학적 특성이 이전에 설명 된 명명 된 분포를 다루는 데 제한되지 않습니다. 대신, 경험적 분포 함수 를 구성하기 위해 데이터 사용을 고려하십시오. 데이터에 존재하는 모든 동작을 캡처하지만 더 이상 "정상"또는 "감마"와 같은 이름을 지정할 수 없으며 특정 분포에만 관련된 수학적 속성을 적용 할 수도 없습니다. 예를 들어, "데이터의 95 %는 평균의 1.96 표준 편차 내에 있습니다"규칙은 정규 분포 데이터에 대한 것이며 분포에 적용되지 않을 수 있습니다. 참고하지만 몇 가지 규칙은 모든 배포판에 적용되는 것으로, 예를 들어, 체비 쇼프 부등식의 보장 이상데이터의 75 %는 기울기와 상관없이 평균의 두 표준 편차 내에 있어야합니다. 불행히도 경험적 분포는 기본 모집단이 소유 한 속성뿐만 아니라 샘플링 오류에 의해 순수하게 발생하는 데이터 세트의 모든 속성을 상속하므로 경험적 분포의 히스토그램에는 모집단 자체가 그렇지 않은 혹과 딥이 있음을 알 수 있습니다 . 평활화 된 경험적 분포 함수 를 조사 하거나 표본 크기를 늘리는 것이 좋습니다.

요약 : 정규 분포에 치우침이 없지만 데이터가 치우친 사실은 정규 분포를 유용한 모델로 배제하지 않지만 다른 분포가 더 적절할 수 있음을 시사합니다. 모형을 선택할 때 기울이기 외에 데이터의 다른 속성을 고려해야하고 모형을 사용할 목적도 고려해야합니다. 시청 시간의 실제 인구가 유명한 유명한 분포를 따르지 않는다고해서 이것이 그러한 분포가 모형으로서 쓸모없는 운명을 의미하는 것은 아닙니다. 그러나 어떤 목적을 위해서는 표준 분포를 맞추기보다는 경험적 분포 자체 만 사용하는 것이 좋습니다.



4

"정상"과 "가우시안"은 정확히 같은 것을 의미합니다. 다른 답변에서 알 수 있듯이, 분포는 실제 라인의 모든 값에 확률을 할당하지만 분포는 과  사이에 있기 때문에 이야기하는 분포는 정상 / 가우스가 아닙니다 .024


3

현재의 경우, 하루에 소비 된 시간이 에서 (하루의 일부로 정량화되는 경우)로 제한되므로, 위의 범위에 속하지 않은 분포 (예 : 파레토, 스큐-정규, 감마, 로그-정규) 작동하지 않지만 베타는 작동합니다.01


2

허들 모델은 어떻습니까?

허들 모델에는 두 부분이 있습니다. 첫 번째는 YouTube 사용 여부를 결정하는 Bernoulli 실험입니다. 그렇지 않으면 사용 시간이 분명히 0이며 완료된 것입니다. 그렇게한다면, "이 장애물을 통과"하면, 사용 시간은 엄밀히 다른 긍정적 인 분포에서 비롯됩니다.

밀접하게 관련된 개념은 제로 팽창 모델입니다. 이것들은 우리가 0의 무리를 관찰하는 상황을 다루기위한 것이지만 항상 0과 때로는 0을 구별 할 수는 없습니다. 예를 들어, 매일 담배를 피우는 담배의 수를 고려하십시오. 비 흡연자의 경우 해당 숫자는 항상 0이지만 일부 흡연자는 지정된 날 (담배에서? 긴 비행에서) 담배를 피울 수 없습니다. 허들 모델과 달리, 여기서 "흡연자"분포는 0을 포함해야하지만,이 수는 비 흡연자 기여도에 의해 '팽창'됩니다.


0

분포가 실제로 정규 분포의 '하위 집합' 인 경우 절단 된 모형을 고려해야합니다. 이러한 맥락에서 TOBIT 모델 제품군이 널리 사용됩니다.
그들은 본질적으로 0에서 (양의) 확률 질량을 가진 pdf를 제안한 다음 양수 값에 대해 '정규 분포의 일부를 자릅니다' .
여기에 수식을 입력하지 말고 Wikipedia 기사를 참조하십시오. https://en.wikipedia.org/wiki/Tobit_model


-4

정규 분포는 정의에 따라 기울어지지 않으므로 두 가지를 모두 가질 수는 없습니다. 분포가 왼쪽으로 치우치면 가우시안이 될 수 없습니다. 다른 것을 골라야합니다! 내가 생각할 수있는 가장 가까운 것은 이것입니다.

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
OP가 이미 지적했듯이 왼쪽과 오른쪽 왜곡을 혼란스럽게한다는 점을 제외하고는 동의합니다. 그리고 @behold는 이미 답변에서 왜곡 표준을 제안했습니다. 따라서 이것이 기존 답변에 추가되는 것을 볼 수 없습니다.
Nick Cox

그것은 많은 사람들을 간단한 3 줄 응답으로 요약합니다
David

4
죄송하지만 여전히 반복됩니다.
Nick Cox

좋아 ... 누가 신경 쓰겠 어?
David

4
글쎄요. 내 의견에 +1을 추가 한 사람 (분명히 나 아님)과 답을 내려받은 사람 (나가 아니라) 이 실은 이미 길고 반복적입니다. 그럼에도 불구하고 더 많은 중복 의견은 미래 독자들을 위해 그것을 개선하지 않습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.