통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
“성경”에피소드에서 통계적으로 교훈을 얻습니까
이 질문은 다소 주관적이지만 FAQ 지침 에 따라 좋은 주관적인 질문으로 인정되기를 바랍니다 . 그것은 Olle Häggström이 1 년 전에 나에게 물었던 질문을 기반으로하며 그것에 대해 약간의 생각이 있지만 명확한 대답이 없으며 다른 사람들의 도움을 부탁드립니다. 배경: D. Witztum, E. Rips 및 Y. Rosenberg의 "창세기 책에있는 등가의 문자 순서"라는 제목의 …

2
종속 변수 곱의 편차
종속 변수 곱의 분산에 대한 공식은 무엇입니까? 독립 변수의 경우 공식은 간단합니다. var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 그러나 상관 변수의 공식은 무엇입니까? 그런데 통계 데이터를 기반으로 상관 관계를 어떻게 찾을 수 있습니까?

5
"평균 가치"와 "평균"의 차이점은 무엇입니까?
Wikipedia 는 다음과 같이 설명합니다. 데이터 세트의 경우 평균은 값의 합계를 값 수로 나눈 값입니다. 그러나이 정의는 내가 "평균"이라고 부르는 것과 일치합니다 (적어도 그것은 내가 배우는 것을 기억합니다). 그러나 Wikipedia는 다시 한 번 인용합니다. '중간'및 '모드'를 포함하여 일부 사람들이 평균과 혼동하는 샘플을 사용하는 다른 통계적 측정 방법이 있습니다. 혼란 스럽습니다. …

3
백만 PCA 버전 시각화
주요 구성 요소 분석의 결과를 요약 테이블보다 더 많은 통찰력을 제공하는 방식으로 시각화 할 수 있습니까? ~ 1e4와 같이 관측 수가 많을 때 가능합니까? 그리고 R [다른 환경에서도 환영]에서 할 수 있습니까?

3
p- 값에 대한 견해를 수용
때로는 보고서에 p- 값과 내가 제공 한 기타 추론 통계에 대한 면책 ​​조항이 포함되어 있습니다. 샘플이 무작위가 아니기 때문에 그러한 통계는 엄격하게 적용되지 않을 것이라고 말합니다. 내 특정 문구는 일반적으로 각주로 제공됩니다. "엄격히 말해서, 추론 통계는 무작위 표본 추출의 상황에서만 적용 할 수 있지만, 우리는 중요하지 않은 표본에 대해서도 편리한 …

3
t- 검정에 대한 신뢰 구간과 검정 통계 가설의 관계
신뢰 구간과 통계적 가설 테스트는 밀접한 관련이있는 것으로 잘 알려져 있습니다. 내 질문은 숫자 변수를 기반으로 두 그룹의 평균을 비교하는 데 중점을 둡니다. 이러한 가설이 t- 검정을 사용하여 테스트되었다고 가정 해 봅시다. 반면에 두 그룹 모두에 대한 신뢰 구간을 계산할 수 있습니다. 신뢰 구간의 겹침과 평균이 같은 귀무 가설의 기각 …

3
Goodman-Kruskal 감마와 Kendall tau 또는 Spearman rho 상관 관계는 어떻게 비교됩니까?
내 연구에서는 일부 데이터 집합에 대해 예측 순위와 실제 순위를 비교하고 있습니다. 최근까지 우리는 Kendall-Tau 만 사용했습니다. 비슷한 프로젝트를 진행하는 한 그룹은 우리가 대신 Goodman-Kruskal Gamma 를 사용하려한다고 제안 했고 그들은 그것을 선호했습니다. 다른 순위 상관 알고리즘의 차이점이 무엇인지 궁금했습니다. 내가 찾은 최선의 결과는 Spearman이 일반적인 선형 상관 관계 대신 …

1
혼합 효과 모델에 대한 다중 비교
혼합 효과 모델을 사용하여 일부 데이터를 분석하려고합니다. 내가 수집 한 데이터는 시간이 지남에 따라 다른 유전자형의 일부 젊은 동물의 무게를 나타냅니다. 나는 여기에 제안 된 접근법을 사용하고 있습니다 : https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 특히 솔루션 # 2를 사용하고 있습니다. 그래서 나는 같은 것을 가지고있다. require(nlme) model <- lme(weight ~ time * Genotype, random …

6
연구의 장기 재현성을 높이는 방법 (특히 R과 Sweave 사용)
상황 : 재현 가능한 연구에 대한 이전 질문에 대한 답으로 Jake는 JASA 아카이브를 작성할 때 발견 한 한 가지 문제점은 CRAN 패키지의 버전 및 기본값이 변경되었다는 것입니다. 따라서 해당 아카이브에는 사용한 패키지 버전도 포함됩니다. 사람들이 패키지를 변경하면 비 네트 기반 시스템이 작동하지 않을 수 있습니다 (패키지 내에 패키지 내에 추가 …

6
누군가는 왜도는 0이지만 대칭이 아닌 단봉 분포의 예를 제공 할 수 있습니까?
2010 년 5 월 위키 백과 사용자 인 Mcorazao 는 "이 값이 0이면 값이 평균의 양쪽에 비교적 고르게 분포되어 있지만 반드시 대칭 분포를 암시하지는 않는다" 는 문장을 왜곡 기사에 추가했습니다 . 그러나 위키 페이지에는이 규칙을 위반하는 실제 배포 예제가 없습니다. 인터넷 검색 "비대칭 분포가 0 인 비대칭 분포의 예"는 적어도 …

8
다차원 데이터를 시각화하기위한 오픈 소스 도구?
gnuplot 및 ggobi 외에도 사람들이 다차원 데이터를 시각화하는 데 사용하는 오픈 소스 도구는 무엇입니까? Gnuplot은 다소 기본적인 플로팅 패키지입니다. Ggobi는 다음과 같은 여러 가지 멋진 작업을 수행 할 수 있습니다. 차원을 따라 또는 개별 컬렉션간에 데이터 애니메이션 계수를 변화시키는 선형 조합 애니메이션 주요 구성 요소 및 기타 변환 계산 3 …

3
다른 예측 변수를 포함시킨 후 부호가 반전되는 회귀 계수
상상 해봐 4 개의 숫자 형 예측 변수 (IV1, ..., IV4)로 선형 회귀 분석을 실행합니다. IV1 만 예측 변수로 포함 된 경우 표준화 된 베타는 +.20 IV2에서 IV4까지 포함하면 IV1의 표준화 된 회귀 계수의 부호가 반전됩니다 -.25(즉, 음수가 됨). 이로 인해 몇 가지 질문이 발생합니다. 용어와 관련하여 이것을 "억제 효과"라고 …

2
로지스틱 회귀는 언제 닫힌 형태로 해결됩니까?
x ∈ { 0 , 1 }를 취하십시오 dx∈{0,1}dx∈{0,1}dx \in \{0,1\}^d 와 우리는 로지스틱 회귀 분석을 사용하여 지정된 x Y를 예측하는 작업을 모델링 가정합니다. 로지스틱 회귀 계수는 언제 닫힌 형태로 쓸 수 있습니까?y∈{0,1}y∈{0,1}y \in \{0,1\} 포화 모델을 사용하는 경우를 예로들 수 있습니다. 즉, . 여기서 는 의 전원 집합에서 집합을 …


2
컨볼 루션 뉴럴 네트워크에서 "피처 맵"(일명 "활성화 맵")의 정의는 무엇입니까?
소개 배경 컨볼 루션 신경망 내에서 일반적으로 다음과 같은 일반적인 구조 / 흐름이 있습니다. 입력 이미지 (즉, 2D 벡터 x) (제 1 컨볼 루션 레이어 (Conv1)는 여기서 시작합니다 ...) w12D 이미지를 따라 필터 세트 ( )를 구성합니다 (즉, z1 = w1*x + b1내적 곱셈 수행). 여기서 z13D b1는 바이어스입니다. 있도록 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.