통계 및 빅 데이터

3

나는 두 개의 시계열 (둘 다 매끄럽게)이 있는데 상관 관계를보고 상호 상관 관계를 맺고 싶습니다. Pearson 상관 계수를 사용하려고합니다. 이것이 적절합니까? 두 번째 질문은 내가 좋아하는 것뿐만 아니라 2 개의 시계열을 샘플링하도록 선택할 수 있다는 것입니다. 즉, 데이터 포인트 수를 선택할 수 있습니다. 이것이 출력되는 상관 계수에 영향을 줍니까? 이것을 …

47 time-series correlation pearson-r smoothing

3

나이브 베이 이해

에서 StatSoft, 주식 회사 (2013), 전자 통계 교과서 , "나이브 베이 즈 분류" : Naïve Bayes Classification의 개념을 설명하려면 위 그림에 표시된 예를 고려하십시오. 표시된대로 오브젝트는 녹색 또는 빨간색으로 분류 될 수 있습니다. 내 임무는 새로운 사례가 도착할 때 분류하는 것입니다. 즉, 현재 종료되는 객체를 기준으로 어떤 클래스 레이블이 속하는지 …

47 machine-learning naive-bayes

5

표본이 모집 단일 때의 통계적 추론

매년 특정 시험을 보는 응시자 수를보고해야한다고 상상해보십시오. 예를 들어, 대상 집단의 특이성으로 인해 더 넓은 집단에서 성공률의 관찰 된 비율을 추론하기는 다소 어려워 보입니다. 따라서이 데이터가 전체 인구를 나타내는 것으로 간주 할 수 있습니다. 테스트 결과 남성과 여성의 비율이 실제로 다른 것으로 나타 났습니까? 전체 모집단 (샘플이 아님)을 고려하기 때문에 …

47 hypothesis-testing population sampling

5

두 그룹에 대한 t- 검정과 분산 분석이 동일하다면 왜 가정이 같지 않습니까?

나는 이것을 머리 둘레에 완전히 감쌌다 고 확신하지만 그것을 알아낼 수는 없다. t- 검정은 Z 분포를 사용하여 두 정규 분포를 비교합니다. 이것이 DATA에 정규성이 있다고 가정 한 이유입니다. 분산 분석은 더미 변수를 사용한 선형 회귀 분석과 동일하며 OLS와 마찬가지로 제곱합을 사용합니다. 이것이 RESIDUALS의 정규성에 대한 가정이있는 이유입니다. 몇 년이 걸렸지 …

47 distributions regression normality-assumption t-test anova

10

한 번의 대량 읽기 데이터 세트의 중앙값을 추정하는 데 유용한 알고리즘은 무엇입니까?

저장하기에 너무 큰 데이터 세트의 중앙값을 추정하여 각 값을 한 번만 읽을 수 있도록 (해당 값을 명시 적으로 저장하지 않는 한) 좋은 알고리즘 (최소 계산, 최소 스토리지 요구 사항)을 찾고 있습니다. 추정 할 수있는 데이터에는 한계가 없습니다. 정확도가 알려진 한 근사치가 좋습니다. 어떤 포인터?

47 algorithms median large-data

2

Convolutional Neural Networks가 분류를 위해 Support Vector Machine을 사용하지 않는 이유는 무엇입니까?

최근 몇 년 동안 CNN (Convolutional Neural Networks)은 컴퓨터 비전의 객체 인식을위한 최첨단 기술이되었습니다. 일반적으로 CNN은 여러 개의 컨볼 루션 레이어로 구성되고 그 뒤에 완전히 연결된 두 레이어가 있습니다. 이것에 대한 직관은 컨볼 루션 레이어가 입력 데이터의 더 나은 표현을 배우고 완전히 연결된 레이어는 레이블 세트 로이 표현을 분류하는 법을 …

46 machine-learning neural-networks svm deep-learning conv-neural-network

6

잔차가 "예측 마이너스 실제"또는 "실제 마이너스 예측"입니까?

"잔여 물"은 "예측 마이너스 실제 값"또는 "실제 마이너스 예측 값"으로 다양하게 정의 된 것을 보았습니다. 설명을 위해 두 수식이 널리 사용됨을 나타내려면 다음 웹 검색을 비교하십시오. 잔차 "예측 마이너스 실제" 잔류 "실제 마이너스 예측" 실제로, 개별 잔차의 부호는 일반적으로 중요하지 않기 때문에 (예를 들어, 제곱되거나 절대 값이 취해지는 경우) 거의 …

46 residuals terminology error

2

빈번한 가설 검정이 충분히 큰 표본으로 귀무 가설을 기각하는 방향으로 편향되는 이유는 무엇입니까?

이 구절을 우연히 발견했을 때 완전히 관련이없는 문제에 대해 Bayes 요소에 대한 이 기사 를 읽었습니다. 베이지안 형태는 모델 선택 편향을 피하고 귀무 가설을지지하는 증거를 평가하며 모델 불확실성을 포함하며 중첩되지 않은 모델을 비교할 수 있기 때문에 베이 즈 요인을 사용한 가설 검정은 잦은 가설 검정보다 강력합니다. 동일한 종속 변수가 있음). …

46 hypothesis-testing frequentist

2

베이지 안에서 잔차를 볼 수없는 이유는 무엇입니까?

"토론 : 생태 학자들이 베이지안이되어야합니까?"기사에서 브라이언 데니스 (Brian Dennis)는 베이 즈 통계를 사람들에게 경고하는 것으로 보이는 경우 놀랍도록 균형 잡힌 긍정적 인 견해를 제시합니다. 그러나 한 단락에서 인용이나 정당화없이 다음과 같이 말합니다. 베이지안에서는 잔차를 볼 수 없습니다. 모델이 얼마나 극단적인지에 따라 결과를 판단하는 가능성 원칙을 위반합니다. 베이지안에는 나쁜 모델이없고 단지 …

46 bayesian residuals frequentist likelihood-principle

7

“통계적으로 유의미한”이유가 충분하지 않은 이유는 무엇입니까?

데이터 분석을 마치고 가설과 일치하는 "통계적으로 유의미한 결과"를 얻었습니다. 그러나 통계학의 한 학생은 이것이 조기 결론이라고 말했습니다. 왜? 보고서에 포함해야 할 다른 것이 있습니까?

46 hypothesis-testing statistical-significance spss p-value

2

공분산 행렬의 역수는 데이터에 대해 무엇을 말합니까? (직관적으로)

나는 의 본질이 궁금하다 Σ−1Σ−1\Sigma^{-1}. " Σ−1Σ−1\Sigma^{-1} 은 데이터에 대해 무엇을 말합니까?"에 대해 직관적으로 말할 수있는 사람이 있습니까? 편집하다: 답장을 보내 주셔서 감사합니다 훌륭한 코스를 수강 한 후 몇 가지 요점을 추가하고 싶습니다. 정보의 측정 값, 즉 는 방향 x를 따른 정보량입니다 .xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx 이중성은 : 부터 명확한 긍정적 인, 그래서이다 …

46 bayesian maximum-likelihood covariance matrix

3

로그 변환 응답이있는 선형 모델과 로그 링크가있는 일반화 된 선형 모델

에서 본 논문 제목 "일반화 선형 모델 APPLIED TO 의료 데이터 중 선택"저자는 쓰기 : 일반화 된 선형 모형에서 평균은 반응 자체를 변환하는 대신 링크 함수에 의해 변환됩니다. 두 가지 변환 방법은 결과가 매우 다를 수 있습니다. 예를 들어, 로그 변환 된 반응의 평균은 평균 반응의 로그와 같지 않습니다 . …

46 generalized-linear-model model-selection lognormal

3

조건부 가우스 분포의 직관은 무엇입니까?

라고 가정하자 X ∼ N2( μ , Σ )X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}). 이어서 조건부 분포 엑스1X1X_1 주어진 엑스2= x2X2=x2X_2 = x_2 변수 통상, 평균 분산 : 이자형[ P( X1| 엑스2= x2) ] = μ1+ σ12σ22( x2− μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) 및 분산 : V a r …

46 normal-distribution multivariate-analysis intuition

3

임의 포리스트의 최적 트리 수는 예측 변수 수에 따라 달라 집니까?

예측 변수 수가 많은 경우 임의의 포리스트에 많은 수의 나무가 필요한 이유를 누군가가 설명 할 수 있습니까? 최적의 나무 수를 어떻게 결정할 수 있습니까?

46 machine-learning random-forest

7

두 서수 변수 사이의 관계에 대한 그래프

두 서수 변수 사이의 관계를 나타내는 적절한 그래프는 무엇입니까? 내가 생각할 수있는 몇 가지 옵션 : 임의의 지터가 추가 된 산점도는 서로 숨기는 지점을 중지합니다. 분명히 표준 그래픽-Minitab에서는이를 "개별 값 그림"이라고합니다. 내 의견으로는 데이터가 간격 스케일에서 온 것처럼 서수 레벨 사이의 일종의 선형 보간을 시각적으로 장려하므로 오도 될 수 있습니다. …

46 data-visualization categorical-data ordinal-data scatterplot