통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
데이터가 정상적으로 배포되는 이유
실제 데이터가 정규 분포 될 것으로 예상되는 이유를 설명 할 수있는 이론은 무엇입니까? 내가 아는 두 가지가 있습니다. 중앙 한계 정리 (물론)는 평균과 분산 (동일하게 분포되지 않은 경우에도)을 갖는 여러 개의 독립적 인 랜덤 변수의 합이 정규 분포를 따르는 경향이 있음을 알려줍니다. 관절 밀도가 엑스2엑스2x^2 + 에만 의존하도록 X와 Y가 …

2
선형 혼합 모델에서 랜덤 효과 및 고정 효과 구조를 선택하는 방법은 무엇입니까?
과목 디자인 내에서 양방향으로 얻은 다음 데이터를 고려하십시오. df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 …

4
순간이란 무엇입니까? 그것들은 어떻게 파생됩니까?
우리는 일반적으로 모든 모수의 모수를 추정 할 때까지 "모멘트 모멘트를 표본에 대응시키는"모멘트 추정법을 소개합니다. 정규 분포의 경우이 분포를 완전히 설명하기 때문에 첫 번째 순간과 두 번째 순간 만 필요합니다. 이자형( X) = μ⟹∑엔나는 = 1엑스나는/ n= X¯이자형(엑스)=μ⟹∑나는=1엔엑스나는/엔=엑스¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} 이자형( X2) = μ2+ σ2⟹∑엔나는 = …

2
로그 변환 후 표준 오류 계산
정규 분포를 따르는 임의의 숫자 세트를 고려하십시오. x <- rnorm(n=1000, mean=10) 우리는 평균에 대한 평균과 표준 오차를 알고 싶습니다. 그래서 우리는 다음을 수행합니다. se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units 큰! 그러나 원래 분포가 정규 분포를 따른다는 것을 반드시 …

2
일반화 된 가산 모델-Simon Wood 외에 누가 그것들을 연구합니까?
점점 더 많은 GAM을 사용합니다. 다양한 구성 요소 (평활화 매개 변수 선택, 다양한 스플라인베이스, 부드러운 항의 p- 값)에 대한 참조를 제공 할 때, 그들은 영국의 바스 대학교 (University of Bath)의 사이먼 우드 (Simon Wood) 연구원 한 사람으로부터 온 것입니다. 그는 또한 mgcvR 작업 관리자로서 자신의 작업을 수행합니다. mgcv매우 복잡하지만 놀랍도록 …

2
“물류 회귀”라는 이름은 무엇을 의미합니까?
여기서 Logistic Regression의 구현을 확인하고 있습니다 . 그 기사를 읽은 후 중요한 부분은 S 자형 함수를 결정하는 가장 좋은 계수를 찾는 것 같습니다. 이 방법이 왜 "Logistic Regression"이라고 불리는 지 궁금합니다. 로그 함수와 관련이 있습니까? 어쩌면 그것을 이해하기 위해 역사적인 배경 정보가 필요할 수도 있습니다.


2
시계열 데이터에서 PCA를 해석하는 방법은 무엇입니까?
Freeman et al., 2014 ( 실험실 웹 사이트에서 무료 pdf 사용 가능) 라는 제목의 최근 저널 기사에서 PCA의 사용을 이해하려고합니다 . 시계열 데이터에서 PCA를 사용하고 PCA 가중치를 사용하여 뇌의지도를 만듭니다. 데이터는 시험 평균 영상 데이터로, 복셀 (또는 뇌의 영상 위치 )과 함께 매트릭스 ( 종이 에서는 라고 함 ) 시점 …

4
더하기 1 표준 편차가 최대 값을 초과 할 수 있습니까?
최소 0과 최대 94.33을 가진 표본의 경우 평균 74.10과 표준 편차 33.44가 있습니다. 교수님은 나에게 1 표준 편차에 최대치를 초과하는 방법을 묻습니다. 나는 그녀에게 이것에 대한 많은 예를 보여 주었지만 그녀는 이해하지 못한다. 그녀를 보여주기 위해 약간의 참조가 필요합니다. 통계 책에서 특히 이것에 대해 이야기하는 장이나 단락이 될 수 있습니다.

4
평균 = 중앙값은 단봉 분포가 대칭임을 의미합니까?
단봉 분포의 경우 평균 = 중앙값이면 분포가 대칭이라고 말하는 것으로 충분합니까? Wikipedia는 평균과 중앙값 사이의 관계 에서 다음 과 같이 말합니다 . "분포가 대칭이면 평균은 중앙값과 같고 분포는 왜도를 갖지 않습니다. 또한 분포가 단조로운 경우 평균 = 중앙값 = 모드입니다. 이것은 동전 던지기 또는 series 1,2,3,4, ... 그러나, 그 대화는 …

1
ggplot2에서 geom_point의 위치를 ​​어떻게 '닷지'할 수 있습니까?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에서 ggplot2를 사용하여 다음과 같은 플롯을 만듭니다. 오류 표시 줄이 서로 겹치므로 정말 지저분 해 보입니다. 다른 인덱스에 대해 오차 막대를 어떻게 분리 할 수 ​​있습니까? position = "dodge"를 …

2
바다에서 잃어버린 어부를 찾는 데 베이 즈 정리를 적용하는 방법
The Odds, Continually Updated 기사는 문자 그대로 Bayesian Statistics에 생명을 빚진 Long Island 어부의 이야기를 언급합니다. 짧은 버전은 다음과 같습니다. 한밤중에 보트에 두 명의 어부가 있습니다. 하나는 잠든 반면 다른 하나는 바다에 빠집니다. 보트는 첫 번째 사람이 마침내 일어나 해안 경비대에 알릴 때까지 밤새 계속 자동 조종 장치를 따라 트롤링을 …

1
PCA 전에 데이터를 정규화하지 않으면 분산 비율이 더 잘 설명됩니다.
데이터 세트를 정규화 한 다음 3 개의 구성 요소 PCA를 실행하여 작은 설명 분산 비율 ([0.50, 0.1, 0.05])을 얻었습니다. 정규화하지 않고 내 데이터 세트를 희게 한 다음 3 개의 구성 요소 PCA를 실행했을 때 분산 비율이 높게 설명되었습니다 ([0.86, 0.06,0.01]). 3 개의 구성 요소에 많은 양의 데이터를 유지하려고하는데 데이터를 정규화해서는 …
19 pca 

4
치료에 의해 영향을받는 공변량에 필요한 좋은 데이터 예
나는 많은 R 데이터 세트, DASL 및 다른 곳의 게시물을 살펴 보았고 실험 데이터의 공분산 분석을 보여주는 흥미로운 데이터 세트의 좋은 예를 많이 찾지 못했습니다. 통계 교과서에는 많은 데이터가 포함 된 "장난감"데이터 세트가 있습니다. 다음과 같은 예를 갖고 싶습니다. 흥미로운 이야기가 담긴 실제 데이터 적어도 하나의 처리 인자와 두 개의 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.