통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
로지스틱 회귀 분석에서 생략 된 변수 바이어스와 일반 최소 제곱 회귀 분석에서 생략 된 변수 바이어스
로지스틱 및 선형 회귀 분석에서 생략 된 변수 바이어스에 대한 질문이 있습니다. 선형 회귀 모델에서 일부 변수를 생략했다고 가정 해보십시오. 생략 된 변수는 모델에 포함 된 변수와 관련이없는 것으로 가정하십시오. 생략 된 변수는 내 모델의 계수를 바이어스하지 않습니다. 그러나 로지스틱 회귀 분석에서 나는 이것이 사실이 아니라는 것을 알게되었습니다. 생략 된 …

2
가중 주성분 분석
몇 가지 검색을 한 후에, 나는 관측 분동 / 측정 오차를 주요 성분 분석에 포함시키는 것에 대해 거의 발견하지 못했습니다. 내가 찾은 것은 가중치를 포함하기 위해 반복적 인 접근 방식에 의존하는 경향이 있습니다 (예 : here ). 내 질문은 왜이 접근법이 필요한가? 가중 공분산 행렬의 고유 벡터를 사용할 수없는 이유는 …

3
0이 아닌 상관 관계는 의존성을 의미합니까?
우리는 제로 상관 관계가 독립성을 의미하지 않는다는 사실을 알고 있습니다. 0이 아닌 상관 관계가 의존성을 의미하는지 여부에 관심이 있습니다. 즉 , 임의의 변수 X 및 Y에 대해 일반적으로 f X , Y ( x , y ) ≠ f X ( x ) f Y ( y ) ?Corr(X,Y)≠0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0XXXYYYfX,Y(x,y)≠fX(x)fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne …

3
표본이 클 때 평균을 추정하기 위해 T- 분포를 사용하는 이유는 무엇입니까?
기본 통계 과정에서는 표본 크기 n 이 클 때 (일반적으로 30 또는 50 이상) 모집단 모수의 평균을 추정하기 위해 정규 분포를 사용하는 것이 좋습니다 . 스튜던트의 T- 분포는 표본의 표준 편차에 대한 불확실성을 설명하기 위해 더 작은 표본 크기에 사용됩니다. 표본 크기가 클 경우 표본 표준 편차는 모집단 표준 편차에 …

3
구간 내 분포에 따라 난수 생성
구간 내 정규 분포에 따라 난수를 생성해야합니다 . (저는 R에서 일하고 있습니다.)(a,b)(a,b)(a,b) 함수 rnorm(n,mean,sd)가 정규 분포에 따라 임의의 숫자를 생성 한다는 것을 알고 있지만 그 범위 내에서 간격 제한을 설정하는 방법은 무엇입니까? 사용할 수있는 특정 R 기능이 있습니까?

3
인과 혼동 된 실제 상관 예제
나는 인과 관계가 상관 관계의 증거로부터 부적절하게 추론 된 구체적이고 실제적인 사례를 찾고있다. 특히 다음 기준을 충족하는 예제에 관심이 있습니다. 인과 관계가 존재한다는 사실 은 공공 정책, 담론, 개별 결정 등에 현저한 영향을 미칠 정도로 충분히 널리 받아 들여졌다 . 그 연관성은 단지 상관적 증거에 근거해서 만 추론되었다 (아마도 일관성이 …

3
pdf와 pmf 및 cdf에 동일한 정보가 포함되어 있습니까?
pdf와 pmf 및 cdf에 동일한 정보가 포함되어 있습니까? 나를 위해 pdf는 특정 지점 (기본적으로 확률 아래의 영역)에 전체 확률을 제공합니다. pmf는 특정 지점의 확률을 제공합니다. cdf는 특정 지점에서 확률을 제공합니다. 나에게 pdf와 cdf는 같은 정보를 가지고 있지만 pmf는 분포에 대한 점 x을 가질 확률을 제공하지 않기 때문에 그렇지 않습니다 .


1
확률 함수에 대한 근본 발견
잡음을 통해서만 관찰 할 수 있는 함수 가 있다고 가정 f(x)f(x)f(x)합니다. 우리는 f(x)f(x)f(x) 직접 계산할 수 없으며 만 계산 합니다. f(x)+ηf(x)+ηf(x) + \eta여기서 ηη\eta 는 임의의 노이즈입니다. (실제로 나는 Monte Carlo 방법을 사용하여 를 계산 합니다.)f(x)f(x)f(x) 근을 찾는 데 사용할 수있는 방법 , 즉 되도록 계산하는 방법은 무엇입니까 ?x f …

2
통계 테스트에서 p- 값 0을 반환 할 수 있습니까?
나는 0에 가까운 값 (일부 통계 소프트웨어에 의해 0으로 반올림)을 의미하는 것이 아니라 문자 그대로 0을 의미합니다. 그렇다면 귀무 가설이 참이라고 가정하여 얻은 데이터를 가져올 확률도 0입니까? 이런 종류의 결과를 반환 할 수있는 통계 테스트의 예는 무엇입니까? "널 가설의 확률"이라는 구를 제거하기 위해 두 번째 문장을 편집했습니다.

3
"통계량 통계"는 값이거나 임의 변수입니까?
저는 지금 첫 통계 과정을 수강하는 학생입니다. "테스트 통계"라는 용어로 혼동됩니다. 다음 (나는 일부 교과서에서 이것을 보았습니다)에서 는 특정 샘플에서 계산 된 특정 값 인 것 같습니다. tttt=x¯¯¯−μ0s/n−−√t=x¯−μ0s/n t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} 그러나 다음 (다른 교과서에서 이것을 보았습니다)에서 는 임의 변수 인 것 같습니다. TTTT=X¯¯¯¯−μ0S/n−−√T=X¯−μ0S/n T=\frac{\overline{X} - \mu_0}{S / …

2
순서 형 로지스틱 회귀 분석
이 서수 로지스틱 회귀 분석을 R에서 실행했습니다. mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 이 모델의 요약을 얻었습니다. summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 …

1
R- 제곱 값이 모형을 비교하는 데 적합합니까?
자동차 분류 광고 사이트에서 제공되는 가격과 기능을 사용하여 자동차 가격을 예측하기위한 최상의 모델을 식별하려고합니다. 이를 위해 scikit-learn 라이브러리의 몇 가지 모델과 pybrain 및 neurolab의 신경망 모델을 사용했습니다. 지금까지 사용한 접근법은 일부 모델 (기계 학습 알고리즘)을 통해 고정 된 양의 데이터를 실행 하고 scikit-learn 메트릭 모듈로 계산 된 R2R2R^2 값을 비교하는 …

9
랜드 인덱스 계산
클러스터 알고리즘의 랜드 인덱스를 계산하는 방법을 알아 내려고 노력하고 있지만 참과 거짓 부정을 계산하는 방법에 갇혀 있습니다. 현재 저는 정보 검색에 대한 소개 (Manning, Raghavan & Schütze, 2009) 책의 예를 사용하고 있습니다. 359 페이지에서 Rand 지수를 계산하는 방법에 대해 설명합니다. 이 예에서는 3 개의 클러스터를 사용하며 클러스터에는 다음 객체가 포함되어 …
17 clustering 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.