빅 데이터로 가설 검정을 어떻게 수행합니까? 혼란을 강조하기 위해 다음 MATLAB 스크립트를 작성했습니다. 그것은 두 개의 임의의 계열을 생성하고 한 변수의 다른 선형 회귀 분석을 실행하는 것입니다. 서로 다른 임의의 값을 사용하여이 회귀 분석을 여러 번 수행하고 평균을보고합니다. 샘플 크기를 늘리면 평균 p- 값이 매우 작아지는 경향이 있습니다.
충분히 큰 표본이 주어지면 표본 크기에 따라 검정력이 증가하기 때문에 가설 검정을 기각하기 위해 임의의 데이터라도 p- 값이 충분히 작아집니다. 나는 주변 사람들에게 물었고, 일부 사람들은 '빅 데이터'로 효과 크기를 보는 것이 더 중요하다고 말했다. 테스트가 중요하고 관심을 가질만큼 큰 효과가 있는지 여부. 이는 표본 크기가 크면 p- 값이 여기 에 설명 된 것처럼 매우 작은 차이를 포착하기 때문입니다 .
그러나 효과 크기는 데이터의 스케일링에 의해 결정될 수 있습니다. 아래에서 설명 변수를 충분히 큰 표본 크기가 주어진 작은 크기로 조정하면 종속 변수에 큰 영향을 미칩니다.
궁금한 점이 있습니다. 이러한 문제가 발생하면 어떻게 빅 데이터로부터 통찰력을 얻습니까?
%make average
%decide from how many values to make average
obs_inside_average = 100;
%make average counter
average_count = 1;
for average_i = 1:obs_inside_average,
%do regression loop
%number of observations
n = 1000;
%first independent variable (constant term)
x(1:10,1) = 1;
%create dependent variable and the one regressor
for i = 1:10,
y(i,1) = 100 + 100*rand();
x(i,2) = 0.1*rand();
end
%calculate coefficients
beta = (x'*x)\x'*y;
%calculate residuals
u = y - x*beta;
%calcuatate sum of squares residuals
s_2 = (n-2)\u'*u;
%calculate t-statistics
design = s_2*inv(x'*x);
%calculate standard errors
stn_err = [sqrt(design(1,1));sqrt(design(2,2))];
%calculate t-statistics
t_stat(1,1) = sqrt(design(1,1))\(beta(1,1) - 0);
t_stat(2,1) = sqrt(design(2,2))\(beta(2,1) - 0);
%calculate p-statistics
p_val(1,1) = 2*(1 - tcdf(abs(t_stat(1,1)), n-2));
p_val(2,1) = 2*(1 - tcdf(abs(t_stat(2,1)), n-2));
%save first beta to data column 1
data(average_i,1) = beta(1,1);
%save second beta to data column 2
data(average_i,2) = beta(2,1);
%save first s.e. to data column 3
data(average_i,3) = stn_err(1,1);
%save second s.e. to data column 4
data(average_i,4) = stn_err(2,1);
%save first t-stat to data column 5
data(average_i,5) = t_stat(1,1);
%save second t-stat to data column 6
data(average_i,6) = t_stat(2,1);
%save first p-val to data column 7
data(average_i,7) = p_val(1,1);
%save second p-val to data column 8
data(average_i,8) = p_val(2,1);
end
%calculate first and second beta average
b1_average = mean(data(:,1));
b2_average = mean(data(:,2));
beta = [b1_average;b2_average];
%calculate first and second s.e. average
se1_average = mean(data(:,3));
se2_average = mean(data(:,4));
stn_err = [se1_average;se2_average];
%calculate first and second t-stat average
t1_average = mean(data(:,5));
t2_average = mean(data(:,6));
t_stat = [t1_average;t2_average];
%calculate first and second p-val average
p1_average = mean(data(:,7));
p2_average = mean(data(:,8));
p_val = [p1_average;p2_average];
beta
stn_err
t_stat
p_val