통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


3
MANOVA와 반복 측정 ANOVA의 차이점은 무엇입니까?
일부 요인 (실험 조건)에 대한 반복 측정 ANOVA와 MANOVA의 차이점은 무엇입니까? 특히 내가 발견 한 한 웹 사이트는 MANOVA가 ANOVA가 반복적으로 측정하는 것과 동일한 구 형성을 가정하지 않는다고 제안했다. 그렇다면 왜 항상 MANOVA를 사용하지 않습니까? 여러 DV로 반복 측정 분석을 수행하려고하는데 적절한 방법은 무엇입니까?

9
로지스틱 회귀 기반 모델의 정확도 측정
테스트 데이터 세트에 적용 할 훈련 된 로지스틱 회귀 모델이 있습니다. 종속 변수는 이진 (부울)입니다. 테스트 데이터 세트의 각 샘플에 대해 로지스틱 회귀 모델을 적용하여 종속 변수가 참일 확률을 %로 생성합니다. 그런 다음 acutal 값이 true인지 false인지 기록합니다. 선형 회귀 모델에서와 같이 또는 조정 된 그림 을 계산하려고합니다 .R 2R2R2R^2R2R2R^2 …

2
합성 데이터 세트를 생성하기위한 표준 사례는 무엇입니까?
컨텍스트 : 매우 큰 데이터 세트로 작업 할 때 예측 변수와 반응 변수 간의 관계 또는 예측 변수 간의 관계를 "알고있는"합성 데이터 세트를 작성할 수 있는지 묻는 경우가 있습니다. 수년에 걸쳐, 나는 일회성 합성 데이터 세트 (특별한 방식으로 조리 된 것처럼 보임) 또는 연구원이 제안한 모델링 방법에 특히 유리한 구조화 …

7
랜덤 효과 요인에 대한 최소 권장 그룹 수는 얼마입니까?
반복 측정 데이터를 분석하기 위해 R( lme4) 의 혼합 모델을 사용하고 있습니다. 반응 변수 (대변의 섬유 함량)와 3 가지 고정 효과 (체질량 등)가 있습니다. 저의 연구에는 6 명의 참가자 만이 있으며 각 참가자마다 16 개의 반복 측정 값이 있습니다 (2 명은 12 회 반복). 피험자들은 다른 '치료'에서 다른 음식 조합을받은 …

4
눈금 선과 회색 배경은 차트로 표시되며 예외적으로 만 사용해야합니까?
대부분의 당국은 음모에서 어둡거나 눈에 띄는 눈금 선이 합리적인 정의에 의해 "차트 정크"이며 차트 본문의 메시지에서 시청자를 산만하게한다는 데 동의하는 것 같습니다. 그래서 나는 그 점에 대한 언급을 귀찮게하지 않을 것입니다. 마찬가지로 시청자에게 참조를 만들기 위해 창백한 격자 선 이 필요할 때가 있다는 데 모두 동의 할 수 있습니다. Tufte는 …

3
매우 작은 표본 크기 (예 : n = 6)로 정규성을 테스트하는 것이 의미가 있습니까?
표본 크기는 6입니다. 이러한 경우 Kolmogorov-Smirnov 검정을 사용하여 정규성을 검정하는 것이 합리적입니까? 나는 SPSS를 사용했다. 각 샘플을 얻는 데 시간이 걸리기 때문에 샘플 크기가 매우 작습니다. 의미가 없다면 테스트하기에 가장 적은 수의 샘플이 몇 개입니까? 참고 : 소스 코드와 관련된 실험을했습니다. 샘플은 소프트웨어 버전 (버전 A) 에서 코딩하는 데 소요되는 …

2
분포
나는 다른 날이 밀도를 가로 질러 달렸다. 누군가이 이름을 주었습니까? 에프( x ) = 로그( 1 + x− 2) / 2 πf(x)=log⁡(1+x−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi 밀도는 원점에서 무한하며 뚱뚱한 꼬리도 있습니다. 큰 값도 예상되었지만 많은 관측치가 작을 것으로 예상되는 상황에서 사전 분포로 사용되는 것을 보았습니다.

4
Yahoo Finance에서 R로 주가를 가져 옵니까?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. Yahoo 파이낸스의 "Last Trade"주가를 R로 가져오고 싶습니다. 의도는 (거의) 실시간 데이터로 작업하는 것입니다. 해결책이 있습니까? 유용한 의견에 대해 미리 감사드립니다.
26 r 

3
R이 장착 된 음 이항 회귀 분석에서 세타는 무엇입니까?
부정 이항 회귀에 관한 질문이 있습니다. 다음 명령이 있다고 가정합니다. require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (car는 R에서 사용할 수있는 데이터 세트이며이 모델이 의미가 있는지는 신경 쓰지 않습니다.) 내가 알고 싶은 것은 : 변수를 어떻게 해석 할 수 있습니까 theta(에 대한 호출의 맨 아래에 반환 summary). 이것은 네빈 분포의 모양 매개 …

6
1300 년에 태어난 특정 인물의 후손 일 가능성이 얼마나됩니까?
즉, 다음을 기준으로 p 란 무엇입니까? 이 문제를 인류학이나 사회 과학이 아닌 수학 문제로 만들고 문제를 단순화하기 위해 형제와 첫 번째 사촌이 결코 짝을 이루지 않고 항상 동일한 항목에서 선택된다는 점을 제외하고는 모집단 전체에서 동일한 확률로 메이트를 선택한다고 가정합니다. 세대. n1n1n_1 초기 인구 ggg 숫자 생성 ccc 부부 당 평균 …

7
대비 코드를 사용하여 R에서 Type-III SS ANOVA를 어떻게 수행합니까?
-3, -1, 1, 3 대비로 개체 간 분산 분석을 수행 할 수있는 R 코드를 제공하십시오. 그러한 분석에 적절한 SS (Sum of Squares) 유형에 관한 논쟁이 있음을 이해합니다. 그러나 SAS 및 SPSS (Type III)에 사용되는 기본 SS 유형은 필자의 지역 표준으로 간주됩니다. 따라서이 분석 결과가 해당 통계 프로그램에 의해 생성 된 …

4
RANSAC이 통계에서 가장 널리 사용되지 않는 이유는 무엇입니까?
컴퓨터 비전 분야에서 나온 저는 종종 RANSAC (Random Sample Consensus) 방법을 사용하여 많은 특이 치가있는 데이터에 모델을 적합 시켰습니다. 그러나 나는 통계 학자들이 사용하는 것을 본 적이 없으며, "통계적으로 건전한"방법으로 간주되지 않았다는 인상을 항상 받았다. 왜 이렇게이다? 본질적으로 무작위이므로 분석하기가 어렵지만 부트 스트랩 방법도 마찬가지입니다. 아니면 단순히 학문적 사일로가 서로 …

1
AIC와 BIC가 어떤 교차 검증 방법과 동등한 지 R에서 어떻게 경험적으로 증명할 수 있습니까?
이 사이트의 다른 곳에서 한 질문 에 따르면, AIC는 LOO (Leave-One-Out) 교차 검증과 동일하고 BIC는 K- 폴드 교차 검증과 동일합니다. LOO 및 K-fold에 관련된 기술이 명확하고 AIC 및 BIC 값과 동등한 것으로 입증되도록 R에서 이것을 경험적으로 입증하는 방법이 있습니까? 주석이 달린 코드는 이와 관련하여 도움이 될 것입니다. 또한 BIC를 시연 …
26 r  aic  cross-validation  bic 

7
행렬 열 사이의 선형 의존성 테스트
결정 요인이 0 인 보안 수익의 상관 관계 행렬이 있습니다. (이는 샘플 상관 행렬과 해당 공분산 행렬이 이론적으로 양의 명확한 값이어야하기 때문에 약간 놀라운 일입니다.) 내 가설은 적어도 하나의 보안이 다른 유가 증권에 선형 적으로 의존한다는 것입니다. R에 선형 의존성을 위해 각 열의 행렬을 순차적으로 테스트하는 함수가 있습니까? 예를 들어, …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.