통계 및 빅 데이터

1

시계열 데이터가 있고 데이터에 맞게 를 모델로 사용했습니다. (필자는 드문 경우를 볼 때) (I 드문 이벤트가 표시되지 않는 경우) 또는 1 0 중 하나 인 지표 확률 변수이다. 에 대한 이전 관찰 결과를 기반으로 Variable Length Markov Chain 방법을 사용하여 대한 모델을 개발할 수 있습니다 . 이를 통해 예측 기간 …

18 time-series forecasting simulation

6

핵심 데이터 분석 옵션

저는 5 년 가까이 SAS를 전문적으로 사용해 왔습니다. 랩톱에 설치했으며 1,000-2,000 개의 변수와 수십만 개의 관측치로 데이터 세트를 자주 분석해야합니다. 비슷한 크기의 데이터 세트에서 분석을 수행 할 수있는 SAS의 대안을 찾고있었습니다. 이런 상황에서 다른 사람들이 무엇을 사용하는지 궁금합니다. 이것은 오늘날 사용되는 방식에서 "빅 데이터"가 아닙니다. 또한 내 데이터 세트가 메모리에 …

18 r sas large-data

3

현대 통계에서 MDS의 역할은 무엇입니까?

최근에 다차원 스케일링을 경험했습니다. 이 도구와 현대 통계에서의 역할을 더 잘 이해하려고합니다. 다음은 몇 가지 안내 질문입니다. 어떤 질문에 대답합니까? 어떤 연구자들이 종종 그것을 사용하는데 관심이 있습니까? 비슷한 기능을 수행하는 다른 통계 기법이 있습니까? 어떤 이론이 그 주위에서 개발 되었습니까? "MDS"는 "SSA"와 어떤 관련이 있습니까? 이러한 혼합 / 조직화되지 않은 …

18 multidimensional-scaling

2

에서 coxph 모델의 요약에 주어진 “

의 coxph 모델 요약에 제공된 R 2 값 은 무엇입니까 ? 예를 들어아르 자형2아르 자형2R^2 Rsquare= 0.186 (max possible= 0.991 ) 나는 어리석게도 그것을 값 으로 원고를 포함 시켰고 , 검토자는 그가 Cox 모델을 위해 개발 된 고전적인 선형 회귀 와 R 2 통계 의 유사성을 알지 못한다고 말했고 , …

18 r survival r-squared cox-model

2

대학원에서 최소 편차 비 편향 추정 이론이 지나치게 강조 되었습니까?

최근에 나는 완전히 틀린 균일 분포의 모수에 대한 최소 분산 편향 추정치에 대한 커프스 답변을 제공했을 때 매우 당황했습니다. 운 좋게 나는 추기경과 헨리가 헨리 와 함께 OP에 대한 정답을 바로 잡았다 . 이것은 나를 생각하게했다. 약 37 년 전 스탠포드의 대학원 수학 통계 수업에서 최고의 편견없는 추정량 이론을 배웠습니다. …

18 estimation point-estimation

5

범주 형 또는 정 성적 변수와 함께 사용할 요약 통계는 무엇입니까?

간단히 말하면 요약 통계를 의미 할 때 평균, 사 분위수 범위, 분산, 표준 편차를 나타냅니다. 명목 및 순서를 모두 고려하여 범주 형 또는 정성형 일 변량을 요약 할 때 평균, 중앙값, 사 분위수 범위, 분산 및 표준 편차를 찾는 것이 합리적입니까? 그렇다면 연속 변수를 요약하는 것과 다른 점은 무엇입니까?

18 categorical-data descriptive-statistics

6

중요한 많은 것이 한방에 사물 일 때 통계가 유용한 이유는 무엇입니까?

나는 그것이 단지 나인지 모르겠지만, 나는 일반적으로 통계에 매우 회의적입니다. 주사위 게임, 포커 게임 등에서 이해할 수 있습니다. 매우 작고 단순하며 대부분 자체 포함 된 반복 게임이 좋습니다. 예를 들어, 가장자리에 착륙하는 동전은 착륙 머리 또는 꼬리가 ~ 50 % 일 확률을 수용 할 정도로 작습니다. 95 %의 승리를 목표로 …

18 probability expected-value philosophical

1

Kruskal-Wallis 이후 사후 테스트 : Dunn의 테스트 또는 Bonferroni가 Mann-Whitney 테스트를 수정 했습니까?

비 가우시안 분산 변수가 있는데 5 개의 다른 그룹에서이 변수의 값 사이에 유의 한 차이가 있는지 확인해야합니다. 나는 Kruskal-Wallis 일원 분산 분석 (중요한 결과)을 수행 한 후 어느 그룹이 크게 다른지 확인해야했습니다. 그룹이 정렬되어 있기 때문에 (첫 번째 그룹의 변수 값은 두 번째 그룹의 변수 값보다 낮아야합니다. 세 번째 그룹의 …

18 hypothesis-testing post-hoc wilcoxon-mann-whitney kruskal-wallis dunn-test

1

크라우드 소싱 된 데이터의 샘플링 모델?

개발 도상국에서 사용될 예정인 공개 건강 조사 응용 프로그램을 작성 중입니다. 기본 아이디어는 설문 조사 인터뷰가 크라우드 소싱 되는 것입니다. 이들은 모바일 장치를 사용하여 수행 한 인터뷰의 양식 데이터를 제출하는 조직화되지 않은 자원 봉사자가 수행하며, 각 설문 조사에는 인터뷰 위치의 GPS 데이터가 수반됩니다. 정부 기관에서 수집 한 전통적인 설문 조사는 …

18 sampling

3

지수 랜덤 변수의 합은 감마를 따르며 매개 변수로 혼란

감마 분포에 따른 지수 랜덤 변수의 합을 배웠습니다. 그러나 매개 변수화를 읽는 곳마다 다릅니다. 예를 들어 Wiki는 관계를 설명하지만 매개 변수가 실제로 무엇을 의미하는지 말하지 않습니까? 모양, 스케일, 속도, 1 / 속도? 지수 분포 : ~xxxexp(λ)exp(λ)exp(\lambda) f(x|λ)=λe−λxf(x|λ)=λe−λxf(x|\lambda )=\lambda {{e}^{-\lambda x}} E[x]=1/λE[x]=1/λE[x]=1/ \lambda var(x)=1/λ2var(x)=1/λ2var(x)=1/{{\lambda}^2} 감마 분포 :Γ(shape=α,scale=β)Γ(shape=α,scale=β)\Gamma(\text{shape}=\alpha, \text{scale}=\beta) E[x]=αβvar[x]=αβ2f(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|\alpha ,\beta )=\frac{1}{{{\beta …

18 distributions probability gamma-distribution

4

게이지 차트가 나쁜 경우 왜 자동차에 게이지가 있습니까?

데이터 시각화 전문가는 일반적으로 게이지 차트를 승인 하지 않는 것 같습니다 (여기 : 백분율을 나타내는 바늘이있는 반원형 차트처럼 보이는 차트를 무엇이라고합니까? ). 주된 이유는 게이지 차트의 데이터 대 잉크 비율이 낮기 때문입니다. 이 개념들 (몇몇 Tufte 책들)에 노출 된 이후로, 나는 일반적으로 그것들에 동의했지만, 오늘날 게이지가 정보를 전달하는 데 비효율적이라면 …

18 data-visualization

2

자연어 처리가 기계 학습 도메인에 포함되지 않는 이유는 무엇입니까? [닫은]

현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 칠년 전에 …

18 machine-learning text-mining natural-language

2

Tukey의 절차와 유의 한 전체 분산을 얻을 수 있지만 쌍별 차이는없는 방법은 무엇입니까?

R AN ANOVA로 수행 한 결과 상당한 차이가있었습니다. 그러나 Tukey의 절차를 사용하여 어떤 쌍이 크게 다른지 확인할 때 나는 그중 하나를 얻지 못했습니다. 이것이 어떻게 가능합니까? 코드는 다음과 같습니다. fit5_snow<- lm(Response ~ Stimulus, data=audio_snow) anova(fit5_snow) > anova(fit5_snow) Analysis of Variance Table Response: Response Df Sum Sq Mean Sq F value …

18 anova post-hoc tukey-hsd

2

선형 판별 분석은 차원을 어떻게 줄입니까?

91 페이지의 "통계 학습의 요소"의 단어가 있습니다. p- 차원 입력 공간의 K 중심은 대부분의 K-1 차원 부분 공간에 걸쳐 있으며, p가 K보다 훨씬 크면 이것은 차원이 상당히 떨어질 것입니다. 두 가지 질문이 있습니다. p- 차원 입력 공간의 K 중심이 대부분의 K-1 차원 부분 공간에 걸쳐있는 이유는 무엇입니까? K 중심은 어떻게 …

18 machine-learning discriminant-analysis

2

Latent Dirichlet Allocation으로 홀드 아웃의 당혹 성을 계산하는 방법은 무엇입니까?

Latent Dirichlet Allocation (LDA)을 수행 할 때 홀드 아웃 샘플의 난이도를 계산하는 방법에 대해 혼란스러워합니다. 주제에 관한 논문이 그 위에 산들 바람을 느꼈다. 당황은 LDA의 성능을 측정하는 좋은 척도로 보입니다. 아이디어는 홀드 아웃 샘플을 유지하고 나머지 데이터에 대해 LDA를 학습 한 다음 홀드 아웃의 난이도를 계산하는 것입니다. 당황은 다음 공식으로 …

18 text-mining topic-models