통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
시각화를 위해 고차원 데이터를 줄이는 방법
2D 물리적 시뮬레이션을 진행 중이며 여러 시점에서 제 시간에 데이터를 수집하고 있습니다. 이 불연속 점은 세로선을 따라 있으며 축 방향으로 여러 줄이 있습니다. 이것은 데이터 셋을 효과적으로 4D로 만듭니다. 예를 들어 (X, Y) 좌표에 수집 지점이 있다고 가정합니다. (0,0), (1,0), (2,0) (0,1), (1,1), (2,1) (0,2), (1,2), (2,2) 그리고 각 지점에서 …

4
쌍별 경쟁 데이터를 기반으로 등급 및 순위를 시작하는 방법은 무엇입니까?
한 쌍의 방식으로 만 상호 작용 / 경쟁하는 그룹 (즉, 체스 의 ELO 등급 시스템 과 같은 시스템)에서 개인을 평가하고 순위를 매기는 방법에 대해 흥미가 있습니다 . 거기에 갈 방법이나 더 정확하고 진보 된 방법이 있습니까? 쉽게 구현할 수있는 R 패키지가 있습니까? 경기 / 게임 결과뿐만 아니라 보조 정보를 사용할 …



3
로그 정규 데이터 세트의 평균에 대한 신뢰 구간을 어떻게 계산합니까?
여러 곳에서 각 샘플의 로그를 취하여 데이터 세트를 정규 분포의 것으로 변환하고 변환 된 데이터의 신뢰 구간을 계산하고 역 연산을 사용하여 신뢰 구간을 다시 변환 할 수 있다고 들었습니다. (예 : 에 대해 하한과 상한의 거듭 제곱으로 10을 올립니다 .)로그10로그10\log_{10} 그러나이 방법은 그 자체로는 의미가 없습니다.10평균( 로그10( X) )≠ 평균( …

3
순간 생성 함수 증명으로 확률 분포를 고유하게 결정
Wackerly 등의 텍스트 는 이 정리 " 와 는 각각 랜덤 변수 X와 Y의 모멘트 생성 함수를 나타냅니다. 모멘트 생성 함수가 존재하고 "t의 모든 값에 대해 X와 Y는 동일한 확률 분포를 갖습니다." 텍스트의 범위를 넘어서는 증거가 없습니다. Scheaffer Young은 증거가없는 동일한 정리 를 가지고 있습니다. Casella의 사본이 없지만 Google 도서 …

2
베이지안 모델에서 교차 검증의 안정성
k-fold cross-validation (k = 5)을 사용하여 JAGS에 Bayesian HLM을 피팅하고 있습니다. 매개 변수 추정치가 모든 접힘에 걸쳐 안정적 인지 알고 싶습니다 . 가장 좋은 방법은 무엇입니까?ββ\beta 한 가지 아이디어는 의 사후 차이를 찾고 0이 차이의 95 % CI에 있는지 확인하는 것입니다. 즉, 의 95 % 간격에서 0입니다 (그리고 모든 접기 …

3
통계에서 함수의 중요성은 무엇입니까 ?
미적분학 클래스에서 함수 또는 "bell curve"가 발생하여 통계에 자주 적용된다고 들었습니다.이자형− x2e−x2e^{-x^2} 호기심에서 나는 묻고 싶다 : 함수 가 통계에서 정말로 중요한가? 그렇다면 의 장점은 무엇이며 어떤 응용 프로그램이 있습니까?이자형− x2e−x2e^{-x^2}이자형− x2e−x2e^{-x^2} 인터넷에서 기능에 대한 많은 정보를 찾을 수는 없었지만 조사를 한 결과 일반적인 종 곡선과 정규 분포 라는 링크가 …

3
ARIMA 모델 해석
ARIMA 모델에 대한 질문이 있습니다. 예측하고 싶은 시계열 YtYtY_t 가 있고 ARIMA(2,2)ARIMA(2,2)\text{ARIMA}(2,2) 모델이 예측 운동을 수행하는 좋은 방법 인 것 같습니다. ΔYt=α1ΔYt−1+α2ΔYt−2+νt+θ1νt−1+θ2νt−2ΔYt=α1ΔYt−1+α2ΔYt−2+νt+θ1νt−1+θ2νt−2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} 이제 지연된 는 오늘날 내 시리즈가 이전 이벤트의 영향을 받는다는 …

1
예측 모델링-혼합 모델링에 관심을 가져야합니까?
예측 모델링의 경우 무작위 효과 및 비 독립적 관측치 (반복 측정)와 같은 통계 개념에 관심을 가져야합니까? 예를 들어 ... 다양한 속성과 구매 플래그가있는 5 개의 DM 캠페인 (1 년 동안 발생) 데이터가 있습니다. 이상적으로는이 모든 데이터를 결합하여 캠페인 당시 고객 속성이 지정된 구매 모델을 구축하는 것이 이상적입니다. 구매 이벤트가 드물기 …

1
비교 횟수가 증가함에 따라 Benjamini-Hochberg 보정이 더 보수적입니까?
전체 비교 횟수와 비교하여 Benjamini-Hochberg의 다중 테스트 보정은 얼마나 보수적인가요? 예를 들어 두 그룹에 대해 18,000 개의 기능 목록이 있고 Wilcoxon 테스트를 수행하여 p- 값을 얻는 경우. 나는 Benjamini-Hochberg를 사용하여 p- 값을 조정하고 아무것도 옆에 나오지 않습니다. Bonferroni 보정은 비교 횟수가 증가함에 따라 상당히 보수적 일 수 있다는 것을 알고 …


1
부트 스트랩 배포의 표준 오류 사용
(필요한 경우 R 코드를 무시하십시오. 주된 질문은 언어 독립적이므로) 간단한 통계 (예 : 평균)의 변동성을보고 싶다면 다음과 같은 이론을 통해 할 수 있다는 것을 알고 있습니다. x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) 또는 부트 스트랩으로 다음과 같이하십시오. library(boot) # Estimate …


8
R을 사용한 혼합 유형 데이터 클러스터링
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.