분석을 위해 CDF 및 PDF 통계를 사용하는 방법


12

이것은 일반적인 질문이 너무 많을 수 있지만 여기서 도움을 얻을 수 있기를 바랍니다. 나는 대학에서 RA 직업을 시작하고 있으며 내 주제는 인터넷 트래픽 분석과 관련이 있습니다. 나는 분석의 세계에 상당히 새로운 것이지만 연구의 세계에서 이것이 내가해야 할 일이라고 생각합니다.

나는 몇 가지 논문을 겪었고 많은 논문에서 그들이 얻은 결과를 설명하기 위해 Probability Density (PDF), CDF, CCDF 등을 사용한다는 것을 알았습니다. 예를 들어, 사용자 세션 기간의 PDF, 매일 전송되는 바이트의 CDF 등. 나는 확률과 통계 클래스를 취했기 때문에 그것들이 무엇인지 이해하지만 여전히 그러한 표현이 선택되는 경우와 혼동됩니다.

따라서 그래프와 분석을하는 사람이 있다면 (일반적으로 또는 다른 주제로) 어떤 상황 에서이 표현 중 하나를 사용할 것인지 간단히 말해 줄 수 있습니까

답변:


17

그것은 부분적으로 미각과 관습의 문제이지만 이론, 목표에 대한주의,인지 신경 과학의 smidgen (참고 문헌 참조)이 약간의 지침을 제공 할 수 있습니다.

pdf와 cdf가 동일한 정보를 전달하기 때문에, pdf와 cdf의 차이점은 그들이 수행 하는 방식 에서 비롯됩니다 . pdf는 영역의 확률을 나타내고, cdf는 (수직) 거리의 확률을 나타냅니다 . 연구에 따르면 사람들은 면적을 비교하는 것보다 거리를 더 빠르고 정확하게 비교하며 체계적으로 면적을 잘못 추정합니다. 따라서, 확률을 읽기위한 그래픽 도구를 제공하려는 경우 cdf를 사용하는 것이 좋습니다.

Pdf와 cdfs는 또한 확률 밀도를 나타냅니다 . 전자는 높이 를 사용하고 후자는 기울기 를 사용하여 밀도를 나타냅니다 . 이제 사람들은 경사의 각도가 좋지 않습니다 (각도의 탄젠트이므로 각도 자체를 보는 경향이 있기 때문에). 밀도는 모드, 꼬리 무거움 및 간격에 대한 정보를 전달하는 데 유용합니다. 이러한 상황과 확률 분포에 대한 로컬 세부 사항을 강조해야하는 곳에서는 PDF를 사용하는 것이 좋습니다.

때로는 pdf 또는 cdf가 유용한 이론 정보를 제공합니다. 그 값 (또는 그 반대)은 Quantile, Extremes 및 Rank 통계의 표준 오차 공식에 포함됩니다. 이러한 상황에서는 cdf 대신 pdf를 표시하십시오. copulas 와 같은 비모수 적 설정에서 다변량 상관 관계를 연구 할 때 cdf가 더 유용한 것으로 판명되었습니다 (연속 확률 법칙을 균일 한 법칙으로 변환하는 함수이기 때문에).

pdf 또는 cdf는 특정 통계 테스트와 밀접하게 연관 될 수 있습니다. 콜 모고 로프 - 스 미르 노프 테스트 (KS 및 통계치)은 CDF 주위 수직 버퍼의 관점에서 단순한 그래픽 표현을 갖는다; 그것은 pdf (내가 아는)와 관련하여 간단한 그래픽 표현을 가지고 있지 않습니다.

ccdf (complementary cdf)는 생존과 드문 이벤트에 중점을 둔 특수 응용 프로그램에 사용됩니다. 그것의 사용은 규칙에 의해 확립되는 경향이 있습니다.

참고 문헌

WS Cleveland (1994). 그래프 데이터의 요소. 미국 뉴저지 서밋 : Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). 지도 제작 : 주제별지도 디자인 5th Ed. 미국 메사추세츠 보스턴 : WCB McGraw-Hill.

AM MacEachren (2004). 지도 작동 방식 뉴욕, 뉴욕, 미국 : 길 포드 출판사. ISBN 1-57230-040-X


(+1) 특히 거리 대 면적 및 경사 대 높이의 해석 가능성에 대한 통찰력에 적합합니다.
steffen

8

whuber의 답변에 동의하지만 추가로 한 가지 사소한 점이 있습니다.

CDF에는 경험적 분포 함수와 같이 선택할 필요가없는 간단한 비모수 추정값이 있습니다 . PDF를 추정하는 것은 그리 간단 하지 않습니다 . 히스토그램을 사용하는 경우 빈 너비와 첫 번째 빈의 시작점을 선택해야합니다. 커널 밀도 추정 을 사용하는 경우 커널 모양과 대역폭을 선택해야합니다. 의심 스럽거나 냉소적 인 독자는 당신이 이것들을 전적으로 선험적으로 선택 했는지 아니면 몇 가지 다른 값을 시도하고 가장 좋아하는 결과를 낸 값을 선택 했는지 궁금 할 것입니다.

그러나 이것은 사소한 점일뿐입니다. whuber가 만든 것들이 더 중요하므로, 아마도 그것들을 고려한 후에도 여전히 결정되지 않았을 때 선택하기 위해 이것을 사용할 것입니다.


여전히 흥미로운 점입니다. 그것을 가져 주셔서 감사합니다.
whuber

2

어떤 통계 나 조사 결과를 조사, 연구, 연구 또는보고 할 것인지에 따라 달라집니다. 이 그래프를 사용하여 대학 주제에 대한 조사 결과를 나타낼 것이라고 가정합니다.

예를 들어 '사용자가 특정 웹 사이트에 머무르는 시간'과 같은 결과를 제시하려면 해당 웹 사이트에서 보낸 시간을 페이지 등을 통해 CDF에 표시하는 것이 좋습니다. .

반면에 사용자가 광고 링크 (예 : Google adwords 링크)를 클릭 할 가능성을 간단히 표시하려면 일반적인 배포 종 곡선 일 수 있으므로 PDF 형식으로 표시 할 수 있습니다. 그 대마의 확률.

이것이 도움이되기를 바랍니다, Jeff

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.