통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

10
CSV (쉼표로 구분 된 값) 파일 편집 전략
데이터 분석 프로젝트를 수행 할 때 종종 데이터를 쉼표 또는 탭으로 구분 된 (CSV, TSV) 데이터 파일에 저장합니다. 데이터는 종종 전용 데이터베이스 관리 시스템에 속합니다. 내 응용 프로그램의 많은 경우이 작업을 과도하게 수행 할 수 있습니다. Excel (또는 다른 스프레드 시트 프로그램)에서 CSV 및 TSV 파일을 편집 할 수 있습니다. …

4
Tufte의 축을 달성하기 위해 R 플롯에서 경계선 제거
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 다음 그래프를 고려하십시오. x <- 1:100 y1 <- rnorm(100) y2 <- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) …

5
예측을 위해 lmer 사용
안녕하세요, 멀티 레벨 / 믹스 모델의 자연스러운 후보처럼 들리는 두 가지 문제가 있습니다. 더 간단하고 소개하려고 시도하는 것은 다음과 같습니다. 데이터는 여러 행의 행처럼 보입니다. x y innergroup outergroup 여기서 x는 y를 회귀시키려는 숫자 공변량입니다 (다른 숫자 변수). 각 y는 내부 그룹에 속하고 각 내부 그룹은 외부 그룹에 중첩됩니다 (즉, …


7
확률 론적 과정을 연구하는 것이 통계 학자로서 어떻게 도움이됩니까?
나는 다음 학기 내 대학에서 열리는 "STOCHASTIC PROCESSES TO INDUCTION TO STOCHASTIC PROCESSES"과정을 수강할지 결정하고 싶습니다. 나는 강사에게 그러한 과정을 공부하는 것이 통계 학자로서 어떻게 도움이 될지를 물었다. 그는 확률에서 왔기 때문에 통계를 거의 알지 못하고 내 질문에 대답하는 방법을 모른다고 말했다. 확률 론적 과정이 통계에서 중요하다는 교육을받지 않은 추측을 …

1
이러한 가능성 비율을 올바르게 계산 했습니까?
저는 R 에 대한 ez 패키지 의 저자 이며 분산 분석 결과에 가능성 비율 (LR)의 자동 계산을 포함하도록 업데이트를 진행하고 있습니다. 아이디어는 분산 분석이 달성하는 효과의 테스트와 유사한 각 효과에 대해 LR을 제공하는 것입니다. 예를 들어, 주 효과에 대한 LR은 null 모델과 주 효과를 포함하는 모델의 비교를 나타내고, 상호 작용에 …

3
능선 회귀를 사용할 때 계수 표준 오차를 어떻게 추정 할 수 있습니까?
다중 다중 선형 데이터에서 능형 회귀를 사용하고 있습니다. OLS를 사용하면 다중 공선 성으로 인해 계수에서 큰 표준 오류가 발생합니다. 능선 회귀가이 문제를 처리하는 방법이라는 것을 알고 있지만, 내가 본 능선 회귀의 모든 구현에서 계수에 대해 표준 오류가보고되지 않았습니다. 특정 계수의 표준 오차가 얼마나 많이 감소 하는지를보고 능선 회귀가 얼마나 도움이되는지 …

2
로지스틱 회귀와 t- 검정의 힘은 어떻게 비교됩니까?
로지스틱 회귀와 t- 검정의 검정력은 동일합니까? 그렇다면, 그들은 "데이터 밀도 동등성"이어야합니다. 즉, 동일한 수의 기본 관측치가 고정 된 알파 0.05가 주어지면 동일한 검정력을 얻습니다. 두 가지 경우를 고려하십시오. [parametric t-test] : 이항 관측에서 30 개의 드로우가 만들어지고 결과 값이 평균화됩니다. 이것은 그룹 A (이항 Pr이 .70의 발생)에 대해 30 번 …




2
MCMC는 언제 평범 해졌습니까?
MCMC가 어느 해에 평범 해 졌는지 (즉, 베이지안 추론을위한 인기있는 방법)에 대해 아는 사람이 있습니까? 시간이 지남에 따라 발행 된 MCMC (저널) 기사 수에 대한 링크가 특히 유용합니다.
18 bayesian  mcmc  history 

5
비율에 대한 신뢰 구간을 구성하기 위해 t- 분포를 사용하지 않는 이유는 무엇입니까?
알 수없는 모집단 표준 편차 (sd)의 평균에 대한 신뢰 구간 (CI)을 계산하기 위해 t- 분포를 사용하여 모집단 표준 편차를 추정합니다. 특히 여기서 입니다. 그러나 모집단의 표준 편차에 대한 점 추정치가 없으므로 근사 통해 추정합니다. 여기서CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} 반대로 …

4
공정한 d6을 사용하여 1에서
공정한 6면 주사위 (d6)를 굴려서 1에서 특정 까지 정수를 그리려고 합니다. 좋은 대답은 왜 그 방법이 균일 하고 독립적 인 정수를 생성하는지 설명 할 것 입니다.엔NN 예시적인 예로서, 의 경우에 어떻게 솔루션이 작동하는지 설명하는 것이 도움이 될 것 입니다.N = 150N=150N=150 또한 가능한 한 효율적으로 절차를 수행하고 싶습니다. 생성 된 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.