통계 및 빅 데이터

5

다른 방법으로 선택한 다른 모델 중에서 모델을 어떻게 선택합니까 (예 : 뒤로 또는 앞으로 선택)? 또한 parsimonious 모델은 무엇입니까?

28 regression model-selection

6

파이 차트에 대한 토론이 증가하고있는 것 같습니다. 이에 대한 주요 주장은 다음과 같습니다. 면적은 길이보다 전력이 적습니다. 파이 차트는 데이터 대 픽셀 비율이 매우 낮습니다. 그러나 비율을 묘사 할 때 어떻게 든 유용 할 수 있다고 생각합니다. 대부분의 경우 테이블을 사용하는 데 동의하지만 비즈니스 보고서를 작성할 때 원형 차트가없는 수백 …

28 data-visualization many-categories pie-chart

5

R 코드가 다중 프로세서를 사용하도록하는 데 대한 제안 사항이 있습니까?

다른 파일에서 많은 양의 CSV 데이터를 읽은 다음 svm과 같은 기계 학습 작업을 수행하기위한 R 스크립트가 있습니다. R의 서버에서 다중 코어를 사용하기위한 라이브러리 가 있습니까? 또는 이를 달성하기위한 가장 적합한 방법은 무엇입니까?

28 r parallel-computing multicore

4

두 공분산 행렬 간의 유사성 또는 거리 측정

두 대칭 공분산 행렬 (모두 같은 치수를 가짐) 사이에 유사성 또는 거리 측정 값이 있습니까? 나는 여기서 두 확률 분포의 KL 발산 또는 행렬에 적용되는 것을 제외하고 벡터 사이의 유클리드 거리와의 유사성을 생각하고 있습니다. 유사성 측정이 상당히 많을 것 같습니다. 이상적으로 두 공분산 행렬이 동일하다는 귀무 가설을 테스트하고 싶습니다.

28 distributions hypothesis-testing covariance-matrix kullback-leibler information-theory

6

깨진 축에 대한 대안은 무엇입니까?

사용자는 종종 축 값을 나누어서 동일한 그래프에 다른 크기의 데이터를 표시하려고합니다 ( 여기 참조 ). 이것이 편리 할 수도 있지만 항상 데이터를 표시하는 선호되는 방법은 아닙니다 (잘못 오도 할 수 있음). 몇 자릿수가 다른 데이터를 표시하는 다른 방법은 무엇입니까? 데이터를 로그 변환하거나 격자 그림을 사용하는 두 가지 방법을 생각할 수 …

28 data-visualization logarithm

6

초보자를위한 통계 / 확률 비디오

이미 수학 통계 동영상에 대한 요청이 있었지만 사람들에게 명시 적으로 요청했습니다. 통계의 엄격한 수학적 표현을 제공하는 비디오. 즉,이 토론에서 언급 한 교재를 사용하는 과정에 수반되는 비디오 ... 그래서 궁금 동시에, (101) - - 비디오 코스는 합계 / 확률값을 위해 무엇을 추천해야합니까?

28 references

4

Kullback-Leibler 거리의 적응?

이 사진을보세요 : 적색 밀도에서 표본을 추출하면 일부 값은 0.25보다 작을 것으로 예상되지만 청색 분포에서 이러한 표본을 생성하는 것은 불가능합니다. 결과적으로 빨간색 밀도에서 파란색 밀도까지의 쿨백-레 블러 거리는 무한대입니다. 그러나 두 곡선은 "자연적인 의미"로는 그다지 뚜렷하지 않습니다. 여기 내 질문이 있습니다 :이 두 곡선 사이의 유한 거리를 허용하는 쿨백-라이버 거리의 …

28 kullback-leibler

8

0에서 1 사이의 숫자로 제한되지 않은 변수를 나타내는 방법

변수를 0과 1 사이의 숫자로 나타내려고합니다. 변수는 고유 한 바인딩이없는 음이 아닌 정수입니다. 0을 0으로 매핑하지만 1 또는 0과 1 사이의 숫자로 무엇을 매핑 할 수 있습니까? 해당 변수의 기록을 사용하여 제한을 제공 할 수 있습니다. 이것은 최대 값이 증가하면 이전 통계를 다시 작성해야 함을 의미합니다. 이 작업을 수행해야합니까, 아니면 …

28 normalization

26

일상 업무에서 가장 유용한 R 패키지는 무엇입니까?

중복 스레드 : 최신 버전의 R을 설치했습니다. 어떤 패키지를 구해야합니까? 일상적인 데이터 작업을 상상할 수 없었던 R 패키지 는 무엇입니까 ? 일반 도구와 특정 도구를 모두 나열하십시오. 업데이트 : 24.10.10 ggplot2은 7 표를 얻은 승자 인 것 같습니다. 하나 이상 언급 된 다른 패키지는 다음과 같습니다. plyr -4 RODBC, RMySQL-4 …

28 r

2

경험적 분포와 가우스 모델 간의 교차 엔트로피 평균 제곱 오차가 왜됩니까?

5.5에서는 딥 러닝 (Ian Goodfellow, Yoshua Bengio 및 Aaron Courville의)에 따르면 음의 로그 우도로 구성된 손실은 훈련 세트에 의해 정의 된 경험적 분포와 모델에 의해 정의 된 확률 분포 사이의 교차 엔트로피입니다. 예를 들어, 평균 제곱 오차는 경험적 분포와 가우스 모델 간의 교차 엔트로피입니다. 나는 그들이 왜 동등한 지 이해할 …

28 machine-learning normal-distribution cross-entropy

4

제트기에 컬러 맵 비리 디스를 사용하는 이유는 무엇입니까?

https://www.youtube.com/watch?v=xAoljeRJ3lU에 발표 된 것처럼 Matplotlib은 기본 컬러 맵을 제트에서 비리 디스로 변경합니다. 그러나 나는 그것을 잘 이해하지 못합니다. 내가 색맹이라서? 오리지널 컬러 맵 제트는 매우 강해 보입니다. 대비를 느낄 수 있습니다. 새로운 컬러 맵 비리 디스에는 이러한 대비가 부족합니다. 누구든지 나를 위해 더 간단하게 설명해 주시겠습니까? 내 논문에 대한 줄거리가 …

28 data-visualization

6

왜 단 변량 회귀와는 달리 다변량 회귀가 필요한가?

방금이 훌륭한 책을 찾아 보았습니다 : Johnson과 Wichern의 다변량 통계 분석을 적용했습니다 . 아이러니 한 점은, 여전히 개별 단 변량 (회귀) 모델 대신 다변량 (회귀) 모델을 사용하는 동기를 이해할 수 없다는 것입니다. 나는 (a) 다변량 회귀 분석과 다변량 회귀 분석 결과의 해석을 설명하는 stats.statexchange post 1 과 2 를 겪었 …

28 regression multiple-regression inference multivariate-regression

6

평신도의 관점에서 모델과 분포의 차이점은 무엇입니까?

Wikipedia에 정의 된 답변 (정의)은 아마도 수학 / 통계에 익숙하지 않은 사람들에게는 약간의 암호입니다. 수학적 용어로, 통계 모델은 일반적으로 쌍 ( ) 으로 생각되며 , 여기서 S 는 가능한 관측치 세트, 즉 샘플 공간이고 P 는 S 의 확률 분포 세트입니다 .S,PS,PS, \mathcal{P}SSSPP\mathcal{P}SSS 확률 및 통계에서 확률 분포는 확률 실험에서 …

28 distributions model terminology

5

랜덤 워크의 분산이 증가하는 이유는 무엇입니까?

임의의 거리 로 정의된다 , 백색 잡음이다. 현재 위치는 이전 위치 + 예상치 못한 용어의 합계임을 나타냅니다.Yt=Yt−1+etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t 당신은 증명할 수 평균 기능 , 이후μt=0μt=0\mu_t = 0 E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et) = 0 + 0+...+0E(Yt)=E(e1+e2+...+이자형티)=이자형(이자형1)+이자형(이자형2)+...+이자형(이자형티)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 …

28 time-series self-study mathematical-statistics stochastic-processes random-walk

3

교육, 검증 및 테스트를 포함한 교차 검증. 왜 우리는 세 개의 부분 집합이 필요합니까?

교차 유효성 검사 프로세스에 대한 질문이 있습니다. 저는 Cursera에서 기계 학습 과정을 진행 중입니다. 주제 중 하나는 교차 검증에 관한 것입니다. 따라하기가 약간 어렵다는 것을 알았습니다. 미래의 (알 수없는) 데이터에서 모델이 잘 작동하고 CV가 과적 합을 방지하기 때문에 CV가 필요한 이유를 알고 있습니다. 그러나 프로세스 자체는 혼란 스럽습니다. 내가 이해 …

28 machine-learning cross-validation