통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


6
파이 차트 문제
파이 차트에 대한 토론이 증가하고있는 것 같습니다. 이에 대한 주요 주장은 다음과 같습니다. 면적은 길이보다 전력이 적습니다. 파이 차트는 데이터 대 픽셀 비율이 매우 낮습니다. 그러나 비율을 묘사 할 때 어떻게 든 유용 할 수 있다고 생각합니다. 대부분의 경우 테이블을 사용하는 데 동의하지만 비즈니스 보고서를 작성할 때 원형 차트가없는 수백 …


4
두 공분산 행렬 간의 유사성 또는 거리 측정
두 대칭 공분산 행렬 (모두 같은 치수를 가짐) 사이에 유사성 또는 거리 측정 값이 있습니까? 나는 여기서 두 확률 분포의 KL 발산 또는 행렬에 적용되는 것을 제외하고 벡터 사이의 유클리드 거리와의 유사성을 생각하고 있습니다. 유사성 측정이 상당히 많을 것 같습니다. 이상적으로 두 공분산 행렬이 동일하다는 귀무 가설을 테스트하고 싶습니다.

6
깨진 축에 대한 대안은 무엇입니까?
사용자는 종종 축 값을 나누어서 동일한 그래프에 다른 크기의 데이터를 표시하려고합니다 ( 여기 참조 ). 이것이 편리 할 수도 있지만 항상 데이터를 표시하는 선호되는 방법은 아닙니다 (잘못 오도 할 수 있음). 몇 자릿수가 다른 데이터를 표시하는 다른 방법은 무엇입니까? 데이터를 로그 변환하거나 격자 그림을 사용하는 두 가지 방법을 생각할 수 …

6
초보자를위한 통계 / 확률 비디오
이미 수학 통계 동영상에 대한 요청이 있었지만 사람들에게 명시 적으로 요청했습니다. 통계의 엄격한 수학적 표현을 제공하는 비디오. 즉,이 토론에서 언급 한 교재를 사용하는 과정에 수반되는 비디오 ... 그래서 궁금 동시에, (101) - - 비디오 코스는 합계 / 확률값을 위해 무엇을 추천해야합니까?
28 references 

4
Kullback-Leibler 거리의 적응?
이 사진을보세요 : 적색 밀도에서 표본을 추출하면 일부 값은 0.25보다 작을 것으로 예상되지만 청색 분포에서 이러한 표본을 생성하는 것은 불가능합니다. 결과적으로 빨간색 밀도에서 파란색 밀도까지의 쿨백-레 블러 거리는 무한대입니다. 그러나 두 곡선은 "자연적인 의미"로는 그다지 뚜렷하지 않습니다. 여기 내 질문이 있습니다 :이 두 곡선 사이의 유한 거리를 허용하는 쿨백-라이버 거리의 …

8
0에서 1 사이의 숫자로 제한되지 않은 변수를 나타내는 방법
변수를 0과 1 사이의 숫자로 나타내려고합니다. 변수는 고유 한 바인딩이없는 음이 아닌 정수입니다. 0을 0으로 매핑하지만 1 또는 0과 1 사이의 숫자로 무엇을 매핑 할 수 있습니까? 해당 변수의 기록을 사용하여 제한을 제공 할 수 있습니다. 이것은 최대 값이 증가하면 이전 통계를 다시 작성해야 함을 의미합니다. 이 작업을 수행해야합니까, 아니면 …

26
일상 업무에서 가장 유용한 R 패키지는 무엇입니까?
중복 스레드 : 최신 버전의 R을 설치했습니다. 어떤 패키지를 구해야합니까? 일상적인 데이터 작업을 상상할 수 없었던 R 패키지 는 무엇입니까 ? 일반 도구와 특정 도구를 모두 나열하십시오. 업데이트 : 24.10.10 ggplot2은 7 표를 얻은 승자 인 것 같습니다. 하나 이상 언급 된 다른 패키지는 다음과 같습니다. plyr -4 RODBC, RMySQL-4 …
28 r 

2
경험적 분포와 가우스 모델 간의 교차 엔트로피 평균 제곱 오차가 왜됩니까?
5.5에서는 딥 러닝 (Ian Goodfellow, Yoshua Bengio 및 Aaron Courville의)에 따르면 음의 로그 우도로 구성된 손실은 훈련 세트에 의해 정의 된 경험적 분포와 모델에 의해 정의 된 확률 분포 사이의 교차 엔트로피입니다. 예를 들어, 평균 제곱 오차는 경험적 분포와 가우스 모델 간의 교차 엔트로피입니다. 나는 그들이 왜 동등한 지 이해할 …

4
제트기에 컬러 맵 비리 디스를 사용하는 이유는 무엇입니까?
https://www.youtube.com/watch?v=xAoljeRJ3lU에 발표 된 것처럼 Matplotlib은 기본 컬러 맵을 제트에서 비리 디스로 변경합니다. 그러나 나는 그것을 잘 이해하지 못합니다. 내가 색맹이라서? 오리지널 컬러 맵 제트는 매우 강해 보입니다. 대비를 느낄 수 있습니다. 새로운 컬러 맵 비리 디스에는 이러한 대비가 부족합니다. 누구든지 나를 위해 더 간단하게 설명해 주시겠습니까? 내 논문에 대한 줄거리가 …

6
왜 단 변량 회귀와는 달리 다변량 회귀가 필요한가?
방금이 훌륭한 책을 찾아 보았습니다 : Johnson과 Wichern의 다변량 통계 분석을 적용했습니다 . 아이러니 한 점은, 여전히 개별 단 변량 (회귀) 모델 대신 다변량 (회귀) 모델을 사용하는 동기를 이해할 수 없다는 것입니다. 나는 (a) 다변량 회귀 분석과 다변량 회귀 분석 결과의 해석을 설명하는 stats.statexchange post 1 과 2 를 겪었 …

6
평신도의 관점에서 모델과 분포의 차이점은 무엇입니까?
Wikipedia에 정의 된 답변 (정의)은 아마도 수학 / 통계에 익숙하지 않은 사람들에게는 약간의 암호입니다. 수학적 용어로, 통계 모델은 일반적으로 쌍 ( ) 으로 생각되며 , 여기서 S 는 가능한 관측치 세트, 즉 샘플 공간이고 P 는 S 의 확률 분포 세트입니다 .S,PS,PS, \mathcal{P}SSSPP\mathcal{P}SSS 확률 및 통계에서 확률 분포는 확률 실험에서 …

5
랜덤 워크의 분산이 증가하는 이유는 무엇입니까?
임의의 거리 로 정의된다 , 백색 잡음이다. 현재 위치는 이전 위치 + 예상치 못한 용어의 합계임을 나타냅니다.Yt=Yt−1+etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t 당신은 증명할 수 평균 기능 , 이후μt=0μt=0\mu_t = 0 E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et) = 0 + 0+...+0E(Yt)=E(e1+e2+...+이자형티)=이자형(이자형1)+이자형(이자형2)+...+이자형(이자형티)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 …

3
교육, 검증 및 테스트를 포함한 교차 검증. 왜 우리는 세 개의 부분 집합이 필요합니까?
교차 유효성 검사 프로세스에 대한 질문이 있습니다. 저는 Cursera에서 기계 학습 과정을 진행 중입니다. 주제 중 하나는 교차 검증에 관한 것입니다. 따라하기가 약간 어렵다는 것을 알았습니다. 미래의 (알 수없는) 데이터에서 모델이 잘 작동하고 CV가 과적 합을 방지하기 때문에 CV가 필요한 이유를 알고 있습니다. 그러나 프로세스 자체는 혼란 스럽습니다. 내가 이해 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.