통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
분류 성능을 평가하기위한 교차 검증 또는 부트 스트랩?
특정 데이터 세트에서 분류기의 성능을 평가하고이를 다른 분류기와 비교하는 가장 적합한 샘플링 방법은 무엇입니까? 교차 검증은 표준 관행 인 것처럼 보이지만 .632 부트 스트랩과 같은 방법이 더 나은 선택임을 읽었습니다. 후속 조치 : 성능 지표 선택이 답변에 영향을 미칩니 까 (정확성 대신 AUC를 사용하는 경우)? 나의 궁극적 인 목표는 한 …

2
생존 분석에서 왜 완전 파라 메트릭 모델 대신 세미 파라 메트릭 모델 (Cox 비례 위험)을 사용합니까?
이 질문은 교차 검증에서 답변 될 수 있기 때문에 Mathematics Stack Exchange에서 마이그레이션 되었습니다. 6 년 전에 이주했습니다 . 나는 콕스 비례 위험 모델을 연구 해 왔으며,이 질문은 대부분의 텍스트에서 빛을 발합니다. 콕스는 부분적 우도 법을 사용하여 위험 함수의 계수를 피팅하는 것을 제안했지만 최대 우도 법과 선형 모형을 사용하여 파라 …

5
혼합 모형에서 요인을 랜덤으로 처리하는 것의 장점은 무엇입니까?
몇 가지 이유로 모델 요소를 무작위로 레이블링하는 이점을 수용하는 데 문제가 있습니다. 나에게 거의 모든 경우에서 최적의 해결책은 모든 요소를 ​​고정 된 것으로 취급하는 것 같습니다. 첫째, 고정 대 무작위의 구별은 임의적입니다. 표준 설명은 특정 실험 단위 자체에 관심이 있다면 고정 효과를 사용해야하고, 실험 단위로 표현 된 모집단에 관심이 있다면 …

4
Shapiro–Wilk가 최고의 정규성 검정입니까? Anderson-Darling과 같은 다른 테스트보다 더 나은 이유는 무엇입니까?
샤피로-윌크 검정은 주어진 유의 수준 αα\alpha 에 대해 귀무 가설이 기각 될 경우 귀무 가설을 기각 할 확률이 다른 정규성보다 높기 때문에 Shapiro-Wilk 검정이 최상의 정규성 검정으로 간주된다는 문헌을 읽었습니다. 테스트. 가능한 경우 수학적 인수를 사용하여 다른 정규성 테스트 (Anderson–Darling 테스트)와 비교하여 어떻게 작동하는지 설명해 주시겠습니까?


3
베이지안은 분포를 어떻게 비교합니까?
그래서 나는 잦은 확률과 통계 분석의 기초 (그리고 그것이 얼마나 나쁜지를 사용할 수 있는지)를 알 수 있다고 생각합니다. 빈번한 세계에서는 분포가 실제적이고 객관적이며 변경되지 않은 것으로 가정하기 때문에 (적어도 주어진 상황에서는),이 분포와 해당 분포가 다르다는 질문을하는 것이 합리적입니다. 한 샘플이 다른 샘플과 같은 분포에서 추출 될 가능성이 얼마나되는지 알아보십시오. 베이지안 …

2
훈련 세트는 얼마나 필요합니까?
최소 임계 값 일반화 정확도를 얻기 위해 분류기 (이 경우 LDA)를 훈련시키는 데 필요한 훈련 샘플 수를 결정하는 데 사용되는 일반적인 방법이 있습니까? 뇌-컴퓨터 인터페이스에서 일반적으로 필요한 교정 시간을 최소화하고 싶어서 묻습니다.

2
회귀에 대한 비대칭 손실 함수를 설계하고 구현하는 방법은 무엇입니까?
문제 회귀 분석에서 일반적으로 샘플에 대한 평균 제곱 오차 (MSE)를 계산합니다 . 를 사용하여 예측 변수의 품질을 측정합니다.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 지금은 고객이 여러 가지 숫자 기능이 주어진 제품에 대해 기꺼이 지불 할 가격을 예측하는 것이 목표 인 회귀 문제를 해결하고 있습니다. 예상 가격이 너무 높으면 고객이 …

3
데이터베이스에서 1D 데이터의 다른 클러스터 결정
다른 노드 간 데이터 전송 데이터베이스 테이블이 있습니다. 이것은 거의 4 천만 건의 전송이 가능한 거대한 데이터베이스입니다. 속성 중 하나는 0 바이트에서 2 테라 바이트 사이의 바이트 수 (nbytes) 전송입니다. 주어진 k 클러스터에 일부 x1 전송이 k1 클러스터에 속하고 x2 변환기가 k2 등에 속하도록 nbyte를 클러스터링하고 싶습니다. 내가 사용한 용어에서 …

3
SVM과 같은 이산 분류기의 ROC 곡선 : 왜 여전히 "곡선"이라고 부르나요? "단지"아닌가요?
토론 : 이진 분류에 대한 roc 곡선을 생성하는 방법에 대해서는 혼란이 "이진 분류기"(2 개의 클래스를 분리하는 분류기 임)가 양의 "이산 분류기"( ANN 또는 Bayes 분류기와 같은 연속 출력이 아닌 SVM과 같은 개별 출력 0/1) 따라서 ROC가 "이진 연속 분류기"에 대해 표시되는 방법에 대한 논의가 이루어졌으며 그 결과는 출력이 정렬됩니다. 출력이 …

5
표본 분포가 비정규 일 때 독립 표본 t- 검정은 얼마나 강력합니까?
샘플 분포가 정규성을 벗어날 때 t- 검정 이 "합리적으로 강력" 하다는 것을 읽었습니다 . 물론 중요한 차이의 샘플링 분포입니다. 두 그룹에 대한 데이터가 있습니다. 그룹 중 하나가 종속 변수에 치우쳐 있습니다. 표본 크기는 두 그룹 모두에 대해 상당히 작습니다 (하나는 n = 33, 다른 하나는 45). 이러한 조건에서 내 t- …

1
경사 하강의 종료 조건을 정의하는 방법은 무엇입니까?
실제로 그라디언트 디센트의 종료 조건을 어떻게 정의 할 수 있는지 묻고 싶었습니다. 반복 횟수, 즉 100 회 반복에 대한 매개 변수 값을 고려하여 중지 할 수 있습니까? 아니면 내가 그런 기다려야한다는 점에서 다른 두 개의 매개 변수 값 '새'와 '오래된'의 순서가 말할 수에 아주 작은 ? 시간이 많이 걸릴 것입니다.10−610−610^{-6} …

2
GAM에 상호 작용 용어를 포함시키는 방법은 무엇입니까?
다음 코드는 두 시계열의 유사성을 평가합니다. set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ …

1
비닝 관측치의 표준 편차
범위 빈 내에 카운트로 저장된 샘플 관측치의 데이터 세트가 있습니다. 예 : min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 이제 이것으로부터 평균의 추정치를 찾는 것은 매우 간단합니다. 각 범위 빈의 평균 (또는 중앙값)을 관측 값으로 사용하고 개수를 가중치로 사용하고 가중 평균을 찾으십시오. x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwix나는\bar{x}^* = \frac{1}{\sum_{i=1}^N …

1
선형 회귀 예측 간격
내 데이터 포인트 중 최고의 선형 근사치 (최소 제곱 사용)가 선 이면 근사 오차를 어떻게 계산할 수 있습니까? 관측 값과 예측값 의 차이의 표준 편차를 계산하면 나중에 실수 (관측되지는 않음) 값 이 구간 정규 분포를 가정 할 때 확률이 ~ 68 % 인 ( )?e i = r e a …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.