통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
PCA 바이 플롯에서 화살표 배치
JavaScript에서 주성분 분석 (PCA)을위한 이중 플롯을 구현하려고합니다. 내 질문은 데이터 행렬의 단일 벡터 분해 (SVD)의 출력 에서 화살표의 좌표를 어떻게 결정 합니까?U,V,DU,V,DU,V,D 다음은 R이 생산 한 Biplot의 예입니다. biplot(prcomp(iris[,1:4])) Biplot 의 Wikipedia 기사에서 찾아 보았지만별로 유용하지는 않습니다. 또는 맞습니다. 확실하지 않습니다.
18 pca  svd  biplot 

2
스무딩-사용시기와 사용하지 않을시기
윌리엄 브릭스 (William Briggs)의 블로그 에는 데이터 스무딩의 함정을 분석하고 그 스무딩 된 데이터를 분석에 전달 하는 오래된 게시물이 있습니다 . 핵심 주장은 다음과 같습니다. 광기의 순간에 시계열 데이터를 매끄럽게하고 다른 분석의 입력으로 사용하면 자신을 속일 확률이 크게 높아집니다! 평활화는 다른 분석 방법에 실제로 나타나는 신호 인 가짜 신호를 유도하기 …

5
극단적 인 가치 이론을 사용해야하는 이유
저는 GEV 분포와 같은 극한의 가치 이론 을 사용 하여 가장 큰 풍속 과 같은 특정 사건 의 가치, 즉 풍속의 98.5 %가 더 낮은 값을 예측하는 토목 공학에서 왔습니다 . 내 질문은 왜 그런 극단적 인 가치 분배를 사용하는 것 입니까? 전체 분포를 사용 하고 98.5 % 확률 의 …

5
베이지안 사고의 철학에 관한 좋은 책은 무엇입니까?
베이지안 철학에 관한 좋은 책은 무엇입니까, 주관 론자들과 객관주의 자들을 대조하고, 베이지안 통계에서 지식의 상태로서의 확률에 대한 견해를 설명하는 등? 아마 야만인의 책? 처음에 나는 Berger (1986)가 효과가 있다고 생각했지만 그것이 내가 원하는 것이 아닙니다. 그러한 책을 검색한다고해서 내가 찾던 결과가 나오지는 않습니다.

3
k- 평균의 갭 통계가 왜 두 군집이 있는데도 하나의 군집을 제안합니까?
K- 평균을 사용하여 데이터를 클러스터링하고 "최적의"클러스터 번호를 제안하는 방법을 찾고있었습니다. 갭 통계는 좋은 클러스터 번호를 찾는 일반적인 방법 인 것 같습니다. 어떤 이유로 든 최적의 클러스터 번호로 1을 반환하지만 데이터를 볼 때 2 개의 클러스터가 있음이 분명합니다. 이것이 R에서 간격을 부르는 방법입니다. gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], …

2
비대칭 널 분포를 사용한 2- 테일 검정의 P- 값
내 상황은 다음과 같습니다. Monte-Carlo 연구 를 통해 추정 된 모수의 통계적 유의성에 대해 두 가지 다른 테스트의 을 비교하려고합니다 (널은 "효과 없음-모수는 0"이며 내재 된 대안은 " 매개 변수가 0이 아닙니다 "). 검정 A 는 표준 "균등도에 대한 독립적 인 2- 표본 t 검정" 이며, 널 미만의 분산은 동일합니다. …


1
다중 비교 문헌에서 "종속"및 "독립"테스트의 일반 언어 의미?
양쪽에서 가족 와이즈 에러율 (FWER)와 거짓 검색 속도 (FDR) 문헌 FWER 또는 FDR 제어 방법은 특정 의존적 또는 독립적 인 시험에 적합한 것으로 알려져있다. 예를 들어, 1979 년 논문 "간단한 순차 거부 다중 테스트 절차"에서 Holm은 스텝 업 시닥 방법과 스텝 업 Bonferroni 제어 방법을 대조하여 썼습니다. 테스트 통계가 독립적 …

5
시계열 변화 감지 (R 예)
일반적으로 모양이 동일한 시계열 데이터의 변화를 감지하고 싶습니다. 지금까지 내가 함께 작업 한 changepointR에 대한 패키지와 cpt.mean(), cpt.var()및 cpt.meanvar()기능. cpt.mean()PELT 방법을 사용하면 데이터가 일반적으로 한 수준으로 유지 될 때 잘 작동합니다. 그러나 나는 또한 하강 중에 변화를 감지하고 싶습니다. 내가 감지하고 싶은 변화의 한 예는 검은 곡선이 갑자기 떨어지는 구간인데 …

3
Fisher의 정확한 테스트에 대해 : 여성이 우유 우선 컵 수를 모르는 경우 어떤 테스트가 적절 했습니까?
RA Fisher 의 유명한 차 시음 차 실험에서, 아가씨는 우유-우선 / 차-우선 컵이 몇 개 있는지에 대해 알립니다 (8 컵 중 4 개씩). 이것은 Fisher의 정확한 테스트의 고정 된 한계 총 가정을 존중합니다. 나는 친구와 함께이 테스트를 상상하고 있었지만 생각이 나에게 충격을 받았다. 숙녀가 우유-우선 컵과 차-우선 컵의 차이를 실제로 …

6
10 분 이내에 십대들을위한 가설 테스트를 설명하는 방법?
1 년이 넘는 시간 동안 저는 1 시간 동안 "통계를위한 맛"수업을 제공하고 있습니다. 매번 다른 그룹의 아이들이 와서 수업을합니다. 이 수업의 주제는 우리가 코카콜라를 마시는 10 명의 아이들에게 코카콜라와 펩시를 가진 두 개의 (표시되지 않은) 컵을주는 실험을 운영한다는 것입니다. 아이들은 맛과 냄새에 따라 코카콜라 음료가 들어있는 컵을 감지해야합니다. 그런 다음 …

2
숨겨진 Markov 모델과 Markov 전환 모델 및 State-Space 모델…?
석사 논문의 경우, 나는 혈청 학적 상태에 의해 정의 된 다른 상태들 사이의 천이에 대한 통계적 모델을 개발하고 있습니다. 지금은 내 질문이 더 일반적이고 이론적 이므로이 맥락에 대해 너무 많은 세부 정보를 제공하지 않습니다. 어쨌든, 직관은 HMM (Hidden Markov Model)을 사용해야한다는 것입니다. 저의 모델을 구성하는 데 필요한 문헌 및 기타 …

1
볼록한 혼합물의 블라인드 소스 분리?
독립적 인 소스 X 1 , X 2 , 가 있다고 가정 합니다. . . , X n 및 m 볼록한 혼합물이 관찰 됨 : Y엔nn엑스1, X2, . . . , X엔엑스1,엑스2,...,엑스엔X_1, X_2, ..., X_n미디엄미디엄m와이1. . .와이미디엄= a11엑스1+ a12엑스2+ ⋯ + a1 N엑스엔= am 1엑스1+ am 2엑스2+ ⋯ + am …
18 pca  ica 

1
H0에서 부트 스트랩을 사용하여 두 가지 방법의 차이에 대한 테스트 수행 : 그룹 내 또는 풀링 된 샘플 내에서 교체
두 개의 독립적 그룹이있는 데이터가 있다고 가정하십시오. g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), …

2
부트 스트랩 샘플의 평균 대 샘플의 통계
이 샘플 의 샘플 과 부트 스트랩 샘플 이 안정적인 (예 : 평균)라고 가정합니다. 우리 모두 알고 있듯이,이 부트 스트랩 샘플 은 통계량 추정기의 샘플링 분포 를 추정 합니다 .χχ\chi 이제이 부트 스트랩 표본 의 평균이 원래 표본 의 통계량 보다 모집단 통계량 의 더 나은 추정치 입니까? 어떤 조건에서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.