통계 및 빅 데이터

10

데이터 분석 프로젝트를 수행 할 때 종종 데이터를 쉼표 또는 탭으로 구분 된 (CSV, TSV) 데이터 파일에 저장합니다. 데이터는 종종 전용 데이터베이스 관리 시스템에 속합니다. 내 응용 프로그램의 많은 경우이 작업을 과도하게 수행 할 수 있습니다. Excel (또는 다른 스프레드 시트 프로그램)에서 CSV 및 TSV 파일을 편집 할 수 있습니다. …

18 project-management

4

Tufte의 축을 달성하기 위해 R 플롯에서 경계선 제거

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 다음 그래프를 고려하십시오. x <- 1:100 y1 <- rnorm(100) y2 <- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) …

18 r data-visualization

5

예측을 위해 lmer 사용

안녕하세요, 멀티 레벨 / 믹스 모델의 자연스러운 후보처럼 들리는 두 가지 문제가 있습니다. 더 간단하고 소개하려고 시도하는 것은 다음과 같습니다. 데이터는 여러 행의 행처럼 보입니다. x y innergroup outergroup 여기서 x는 y를 회귀시키려는 숫자 공변량입니다 (다른 숫자 변수). 각 y는 내부 그룹에 속하고 각 내부 그룹은 외부 그룹에 중첩됩니다 (즉, …

18 r mixed-model maximum-likelihood generalized-linear-model

2

3D 우연성 매트릭스를 시각화하는 방법?

나는 이와 같은 데이터를 가지고있다 : > table(A,B,C) , , C = FALSE B A FALSE TRUE FALSE 177 42 TRUE 6 8 , , C = TRUE B A FALSE TRUE FALSE 5 31 TRUE 4 10 계층 구조를 부과하지 않고 단일 그래프에서 어떻게 이것을 그릴 수 있습니까?

18 data-visualization contingency-tables

7

확률 론적 과정을 연구하는 것이 통계 학자로서 어떻게 도움이됩니까?

나는 다음 학기 내 대학에서 열리는 "STOCHASTIC PROCESSES TO INDUCTION TO STOCHASTIC PROCESSES"과정을 수강할지 결정하고 싶습니다. 나는 강사에게 그러한 과정을 공부하는 것이 통계 학자로서 어떻게 도움이 될지를 물었다. 그는 확률에서 왔기 때문에 통계를 거의 알지 못하고 내 질문에 대답하는 방법을 모른다고 말했다. 확률 론적 과정이 통계에서 중요하다는 교육을받지 않은 추측을 …

18 probability stochastic-processes

1

이러한 가능성 비율을 올바르게 계산 했습니까?

저는 R 에 대한 ez 패키지 의 저자 이며 분산 분석 결과에 가능성 비율 (LR)의 자동 계산을 포함하도록 업데이트를 진행하고 있습니다. 아이디어는 분산 분석이 달성하는 효과의 테스트와 유사한 각 효과에 대해 LR을 제공하는 것입니다. 예를 들어, 주 효과에 대한 LR은 null 모델과 주 효과를 포함하는 모델의 비교를 나타내고, 상호 작용에 …

18 r anova likelihood-ratio

3

능선 회귀를 사용할 때 계수 표준 오차를 어떻게 추정 할 수 있습니까?

다중 다중 선형 데이터에서 능형 회귀를 사용하고 있습니다. OLS를 사용하면 다중 공선 성으로 인해 계수에서 큰 표준 오류가 발생합니다. 능선 회귀가이 문제를 처리하는 방법이라는 것을 알고 있지만, 내가 본 능선 회귀의 모든 구현에서 계수에 대해 표준 오류가보고되지 않았습니다. 특정 계수의 표준 오차가 얼마나 많이 감소 하는지를보고 능선 회귀가 얼마나 도움이되는지 …

18 standard-error ridge-regression

2

로지스틱 회귀와 t- 검정의 힘은 어떻게 비교됩니까?

로지스틱 회귀와 t- 검정의 검정력은 동일합니까? 그렇다면, 그들은 "데이터 밀도 동등성"이어야합니다. 즉, 동일한 수의 기본 관측치가 고정 된 알파 0.05가 주어지면 동일한 검정력을 얻습니다. 두 가지 경우를 고려하십시오. [parametric t-test] : 이항 관측에서 30 개의 드로우가 만들어지고 결과 값이 평균화됩니다. 이것은 그룹 A (이항 Pr이 .70의 발생)에 대해 30 번 …

18 logistic t-test power power-analysis

4

히스토그램과 PDF의 차이점은 무엇입니까?

연속 데이터의 분포를 눈에 띄게보고 싶다면 히스토그램과 pdf 중 어떤 것을 사용해야합니까? 히스토그램과 pdf의 공식적인 차이가 아닌 차이점은 무엇입니까?

18 distributions pdf histogram

6

다른 종류의 엔트로피에 대한 좋은 소개

Sample Entropy 및 Shannon Entropy와 같은 다른 종류의 엔트로피와 그 장단점을 설명하는 서적 또는 온라인 리소스를 찾고 있습니다. 누군가 올바른 방향으로 나를 가리킬 수 있습니까?

18 references entropy

8

실행중인 중앙값을 계산하는 알고리즘?

작은 창 크기에서는 n log n정렬이 작동 할 수 있습니다. 이것을 달성하기위한 더 나은 알고리즘이 있습니까?

18 algorithms median

2

MCMC는 언제 평범 해졌습니까?

MCMC가 어느 해에 평범 해 졌는지 (즉, 베이지안 추론을위한 인기있는 방법)에 대해 아는 사람이 있습니까? 시간이 지남에 따라 발행 된 MCMC (저널) 기사 수에 대한 링크가 특히 유용합니다.

18 bayesian mcmc history

5

비율에 대한 신뢰 구간을 구성하기 위해 t- 분포를 사용하지 않는 이유는 무엇입니까?

알 수없는 모집단 표준 편차 (sd)의 평균에 대한 신뢰 구간 (CI)을 계산하기 위해 t- 분포를 사용하여 모집단 표준 편차를 추정합니다. 특히 여기서 입니다. 그러나 모집단의 표준 편차에 대한 점 추정치가 없으므로 근사 통해 추정합니다. 여기서CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} 반대로 …

18 normal-distribution confidence-interval sampling t-distribution

4

공정한 d6을 사용하여 1에서

공정한 6면 주사위 (d6)를 굴려서 1에서 특정 까지 정수를 그리려고 합니다. 좋은 대답은 왜 그 방법이 균일 하고 독립적 인 정수를 생성하는지 설명 할 것 입니다.엔NN 예시적인 예로서, 의 경우에 어떻게 솔루션이 작동하는지 설명하는 것이 도움이 될 것 입니다.N = 150N=150N=150 또한 가능한 한 효율적으로 절차를 수행하고 싶습니다. 생성 된 …

18 probability random-generation uniform dice

2

딥 러닝에 줄 검색 방법이 사용됩니까? 왜 안돼?

온라인 많은 자습서에서 그라디언트 디센트에 대해 이야기하고 거의 모든 단계가 고정 단계 크기 (학습 속도 )를 사용합니다. 역 검색 (예 : 역 추적 라인 검색 또는 정확한 라인 검색)을 사용하지 않는 이유는 무엇 입니까?αα\alpha

18 machine-learning neural-networks optimization deep-learning