선형 회귀 데이터에 여러 개의 혼합 선형 관계가 포함되어 있으면 어떻게됩니까?

34

수선화가 다양한 토양 조건에 어떻게 반응하는지 연구하고 있다고 가정 해 봅시다. 토양의 pH와 수선화의 성숙한 높이에 대한 데이터를 수집했습니다. 선형 관계를 기대하고 있으므로 선형 회귀 분석을 실행합니다.

그러나 연구를 시작했을 때 인구가 실제로 두 종류의 수선화를 포함하고 있다는 사실을 알지 못했습니다. 각 수종은 토양 pH에 매우 다르게 반응합니다. 따라서 그래프에는 두 개의 서로 다른 선형 관계가 있습니다.

물론 눈으로 볼 수도 있고 수동으로 분리 할 수도 있습니다. 그러나 더 엄격한 접근법이 있는지 궁금합니다.

질문 :

데이터 세트가 한 줄 또는 N 줄로 더 잘 맞는지를 결정하기위한 통계 테스트가 있습니까?
N 선에 맞게 선형 회귀를 어떻게 실행합니까? 다시 말해, 혼합 된 데이터를 어떻게 분리 할 수 있습니까?

몇 가지 조합 방법을 생각할 수 있지만 계산 비용이 많이 드는 것 같습니다.

설명 :

데이터 수집 당시에는 두 종류의 존재가 알려지지 않았습니다. 각 수선화의 다양성은 관찰되지 않았으며, 기록되지 않았으며, 기록되지 않았다.
이 정보를 복구 할 수 없습니다. 수선화는 데이터 수집 시점부터 사망했습니다.

이 문제는 클러스터링 알고리즘을 적용하는 것과 비슷한 것으로, 시작하기 전에 클러스터 수를 거의 알아야한다는 인상이 있습니다. 모든 데이터 세트를 사용하면 줄 수를 늘리면 총 rms 오류가 줄어 듭니다. 극단적으로 데이터 세트를 임의의 쌍으로 나누고 단순히 각 쌍을 통해 선을 그릴 수 있습니다. (예를 들어, 1000 개의 데이터 점이있는 경우 500 개의 임의 쌍으로 나누고 각 쌍을 통해 선을 그릴 수 있습니다.) 맞춤은 정확하고 rms 오류는 정확히 0입니다. 그러나 그것은 우리가 원하는 것이 아닙니다. 우리는 "올바른"줄 수를 원합니다.

regression linear-model dataset

— 슬로우 매직
소스

1

관련 stats.stackexchange.com/questions/245902/…

— rep_ho

3

어떤 다포 딜이 어떤 품종인지 아십니까? 그렇다면 해당 정보를 모델에 포함시킬 수 있습니다

— rep_ho

1

@Demetri Pananos의 답변에서와 같이 통계적 상호 작용의 고전적인 사례 인 것 같습니다.

— rolando2

2

나는 그들이 꽃에 어떤 종류의 꽃이 있는지에 대한 정보가 없다는 느낌을받습니다. 나는 그들이 그것을 가지고 있다면 이것은 단지 상호 작용 모델을 구축하거나 심지어 각각의 다양성에 대해 개별적인 회귀를 실행하는 경우 일 것이라는 데 동의한다. 그러나 그들이 그 정보를 가지고 있지 않다면 모든 희망이 사라지는 것은 아닙니다. 별도의 선뿐만 아니라 각 관측치가 각 그룹에 속하는 확률을 예측하는 모형을 작성할 수 있습니다.

— Dason

1

@ DemetriPananos 나는 희망적으로 이해되는 대답을 제공했습니다. 그들이하고 싶은 것에 따라 그것은 훨씬 더 많은 일입니다. 어떤 종류의 테스트를 수행하려면 우도 비 테스트 또는 임의의 무작위 배정 테스트 또는 무언가를 수행해야합니다. 그러나 그들은 우리에게 너무 많은 정보를주지 않았으며 목표가 단지 라인에 맞추고 레이블이 없다면 mixtools 패키지를 사용하는 것이 그렇게 나쁘지 않습니다.

— Dason

31

다른 품종에 대한 레이블이 있다고 가정하면 Demetri의 대답은 훌륭한 답변이라고 생각합니다. 내가 아닌 것 같은 당신의 질문을 읽을 때. EM 알고리즘을 기반으로 한 접근 방식을 사용하여 Demetri가 제안한 모델을 기본적으로 맞출 수 있지만 다양성의 레이블을 모른 채 알 수는 없습니다. 운 좋게도 R의 mixtools 패키지는이 기능을 제공합니다. 데이터가 상당히 분리되어 있고 꽤 많은 것처럼 보이므로 상당히 성공해야합니다.

library(mixtools)

# Generate some fake data that looks kind of like yours
n1 <- 150
ph1 = runif(n1, 5.1, 7.8)
y1 <- 41.55 + 5.185*ph1 + rnorm(n1, 0, .25)

n2 <- 150
ph2 <- runif(n2, 5.3, 8)
y2 <- 65.14 + 1.48148*ph2 + rnorm(n2, 0, 0.25)

# There are definitely better ways to do all of this but oh well
dat <- data.frame(ph = c(ph1, ph2), 
                  y = c(y1, y2), 
                  group = rep(c(1,2), times = c(n1, n2)))

# Looks about right
plot(dat$ph, dat$y)

# Fit the regression. One line for each component. This defaults
# to assuming there are two underlying groups/components in the data
out <- regmixEM(y = dat$y, x = dat$ph, addintercept = T)

결과를 조사 할 수 있습니다

> summary(out)
summary of regmixEM object:
          comp 1    comp 2
lambda  0.497393  0.502607
sigma   0.248649  0.231388
beta1  64.655578 41.514342
beta2   1.557906  5.190076
loglik at estimate:  -182.4186

따라서 두 회귀 분석에 적합하며 관측치의 49.7 %가 성분 1의 회귀에, 50.2 %가 성분 2의 회귀에 빠졌다고 추정했습니다.

시뮬레이션에 사용한 'true'값은 다음 줄을 제공해야합니다.

y = 41.55 + 5.185 * ph 및 y = 65.14 + 1.48148 * ph

(내가 만든 데이터가 귀하의 데이터와 비슷하게 보이도록 플롯에서 '손으로'추정했습니다) 및 EM 알고리즘이 제공 한 선은 다음과 같습니다.

y = 41.514 + 5.19 * ph 및 y = 64.655 + 1.55 * ph

실제 값에 가깝습니다.

데이터와 함께 적합 선을 그릴 수 있습니다

plot(dat$ph, dat$y, xlab = "Soil Ph", ylab = "Flower Height (cm)")
abline(out$beta[,1], col = "blue") # plot the first fitted line
abline(out$beta[,2], col = "red") # plot the second fitted line

— 데이 슨
소스

21

편집 : 원래 OP는 어떤 종의 관측치가 어느 것인지 알고 있다고 생각했습니다. OP의 편집을 통해 원래의 접근 방식이 실현 가능하지 않다는 것이 분명해졌습니다. 나는 후손을 위해 그것을 떠날 것이지만 다른 대답은 훨씬 낫습니다. 위로로, 나는 Stan에서 믹스 모델을 코딩했습니다. 나는이 경우에 베이지안 접근법이 특히 좋다고 말하지는 않지만 내가 기여할 수있는 깔끔한 것입니다.

스탠 코드

data{

  //Number of data points
  int N; 

  real y[N];
  real x[N];
}
parameters{
  //mixing parameter
  real<lower=0, upper =1>  theta;

  //Regression intercepts
  real beta_0[2];

  //Regression slopes.
  ordered[2] beta_1;

  //Regression noise
  real<lower=0> sigma[2];
}
model{

  //priors
  theta ~ beta(5,5);
  beta_0 ~ normal(0,1);
  beta_1 ~ normal(0,1);
  sigma ~ cauchy(0,2.5);

  //mixture likelihood
  for (n in 1:N){
    target+=log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));
  }
}
generated quantities {
  //posterior predictive distribution
  //will allow us to see what points belong are assigned
  //to which mixture 
  matrix[N,2] p;
  matrix[N,2] ps;
  for (n in 1:N){
    p[n,1] = log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    p[n,2]= log_mix(1-theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    ps[n,]= p[n,]/sum(p[n,]);
  }
}

R에서 스탠 모델 실행

library(tidyverse)
library(rstan)


#Simulate the data
N = 100
x = rnorm(N, 0, 3)
group = factor(sample(c('a','b'),size = N, replace = T))

y = model.matrix(~x*group)%*% c(0,1,0,2) 
y = as.numeric(y) + rnorm(N)

d = data_frame(x = x, y = y)

d %>% 
  ggplot(aes(x,y))+
  geom_point()

#Fit the model
N = length(x)
x = as.numeric(x)
y = y

fit = stan('mixmodel.stan', 
           data = list(N= N, x = x, y = y),
           chains = 8,
           iter = 4000)

결과

점선은 사실이며, 실선은 추정됩니다.

원래 답변

다양한 수선화에서 어떤 샘플이 나오는지 알면 다양성과 토양 PH 간의 상호 작용을 추정 할 수 있습니다.

모델은 다음과 같습니다

y = β_{0} + β_{1} variety + β_{2} PH + β_{3} variety \cdot PH

$y = \beta_0 + \beta_1 \text{variety} + \beta_2\text{PH} + \beta_3\text{variety}\cdot\text{PH}$

다음은 R의 예입니다. 다음과 같은 데이터를 생성했습니다.

분명히 두 개의 다른 선이 있으며 두 선에 해당합니다. 다음은 선형 회귀를 사용하여 선을 추정하는 방법입니다.

library(tidyverse)

#Simulate the data
N = 1000
ph = runif(N,5,8)
species = rbinom(N,1,0.5)

y = model.matrix(~ph*species)%*% c(20,1,20,-3) + rnorm(N, 0, 0.5)
y = as.numeric(y)

d = data_frame(ph = ph, species = species, y = y)

#Estimate the model
model = lm(y~species*ph, data = d)
summary(model)

결과는

> summary(model)

Call:
lm(formula = y ~ species * ph, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.61884 -0.31976 -0.00226  0.33521  1.46428 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.85850    0.17484  113.58   <2e-16 ***
species     20.31363    0.24626   82.49   <2e-16 ***
ph           1.01599    0.02671   38.04   <2e-16 ***
species:ph  -3.03174    0.03756  -80.72   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4997 on 996 degrees of freedom
Multiple R-squared:  0.8844,    Adjusted R-squared:  0.8841 
F-statistic:  2541 on 3 and 996 DF,  p-value: < 2.2e-16

0으로 분류 된 종의 경우 선은 대략

y = 19 + 1 \cdot PH

$y = 19 + 1\cdot \text{PH}$

1로 표시된 종의 경우 선은 대략

y = 40 - 2 \cdot PH

$y = 40 - 2 \cdot \text{PH}$

— 데메 트리 파 나노
소스

OP가 다양한 수선화를 미리 알고 있다면 왜 데이터를 두 부분으로 나누고 각 품종에 대해 두 개의 개별 회귀를 실행할 수 없습니까?

— Akavall

OP가 수선화 품종 간 차이에 관심이없는 경우 (예 : 품종 1이 토양 PH에 따라 품종 2보다 커짐) 정밀도를 둘러싼 인수를 제외하고 모든 데이터를 함께 회귀 할 이유가 없습니다.

— 데메 트리 파 나노

@Akavail-데이터를 분할 할 수는 있지만 이렇게 실행하면 품종 간의 차이에 대한 가설을 테스트하려는 경우 모든 종류의 비교를 쉽게 수행 할 수 있습니다. 동일한 분산 가정이 유효한 경우 결합하여 실행하면 추정치가 약간 향상됩니다.

— Dason

1

EM 접근법을 살펴보기 전에 베이지안 접근법을 고려했습니다. 그러나 내가 게으른 일을하는 베이지안 방식을 좋아하는 한 EM 접근 방식을 취하는 것이 훨씬 쉽습니다. 그것으로 나는 베이지안 분석을 선호하며 후속 질문에 대한 답변을 훨씬 쉽게 만들 수 있다고 생각합니다. 초기 모델을 코딩하는 데 시간이 더 걸릴 수는 있지만 일단 사용하면 질문에 대한 답변이 훨씬 쉽습니다. 후방 분포.

— Dason

2

통계적 접근법은 위의 두 가지 답변과 매우 유사하지만 사전 지식이 부족한 경우 잠재 클래스 수를 선택하는 방법에 대해 조금 더 다루고 있습니다. 잠재적 인 클래스의 수를 선택할 때 정보 기준 또는 parsimony를 지침으로 사용할 수 있습니다.

다음은 2-4 개의 잠재 클래스 / 컴포넌트가있는 일련의 유한 혼합 모델 (FMM)을 사용하는 Stata 예제입니다. 첫 번째 테이블은 잠재 클래스 멤버쉽에 대한 계수입니다. 이들은 해석하기가 다소 어렵지만 나중에로 확률로 변환 할 수 있습니다 estat lcprob. 각 클래스마다 인터셉트 및 ph 슬로프 매개 변수와 잠재 클래스 한계 확률 및 두 개의 샘플 내 IC가 있습니다. 이 계수 추정치는 선형 회귀 모델의 계수로 해석됩니다. 여기에서 가장 작은 샘플 BIC는 두 가지 구성 요소 모델을 가장 적합한 것으로 선택합니다. AIC는 이상하게도 3 가지 구성 요소 모델을 선택합니다. 당신은 또한 사용할 수 있습니다 아웃의 샘플 IC를 선택하거나 교차 검증을 사용합니다.

$.0143313 \cdot 300 \approx 4$

FMM 접근법은 클래스가 덜 스탁 한 경우 실제로 실제로 잘 작동하지는 않습니다. 잠재적 인 데이터가 충분하지 않거나 가능성 함수에 여러 개의 극대값이있는 경우 잠재적 인 클래스가 너무 많으면 계산 문제가 발생할 수 있습니다.

. clear

. /* Fake Data */
. set seed 10011979

. set obs 300
number of observations (_N) was 0, now 300

. gen     ph = runiform(5.1, 7.8) in 1/150
(150 missing values generated)

. replace ph = runiform(5.3, 8)   in 151/300
(150 real changes made)

. gen y      = 41.55 + 5.185*ph   + rnormal(0, .25)  in 1/150
(150 missing values generated)

. replace y  = 65.14 + 1.48148*ph + rnormal(0, 0.25) in 151/300
(150 real changes made)

. 
. /* 2 Component FMM */
. fmm 2, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -194.5215

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |   .0034359   .1220066     0.03   0.978    -.2356927    .2425645
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173137   .0251922   205.35   0.000     5.123761    5.222513
       _cons |     41.654   .1622011   256.80   0.000      41.3361    41.97191
-------------+----------------------------------------------------------------
     var(e.y)|   .0619599   .0076322                      .0486698     .078879
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.486062    .026488    56.10   0.000     1.434147    1.537978
       _cons |   65.10664   .1789922   363.74   0.000     64.75582    65.45746
-------------+----------------------------------------------------------------
     var(e.y)|   .0630583   .0075271                      .0499042    .0796797
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |    .499141   .0305016      .4396545    .5586519
          2  |    .500859   .0305016      .4413481    .5603455
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -194.5215       7     403.043   428.9695
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 3 Component FMM */
. fmm 3, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -187.4824

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.0312504    .123099    -0.25   0.800    -.2725199    .2100192
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -3.553227   .5246159    -6.77   0.000    -4.581456   -2.524999
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173077   .0252246   205.08   0.000     5.123637    5.222516
       _cons |   41.65412     .16241   256.48   0.000      41.3358    41.97243
-------------+----------------------------------------------------------------
     var(e.y)|   .0621157   .0076595                      .0487797    .0790975
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.476049   .0257958    57.22   0.000      1.42549    1.526608
       _cons |   65.18698   .1745018   373.56   0.000     64.84496    65.52899
-------------+----------------------------------------------------------------
     var(e.y)|   .0578413   .0070774                      .0455078    .0735173
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.776746   .0020074   885.09   0.000     1.772811     1.78068
       _cons |   62.76633   .0134072  4681.54   0.000     62.74005    62.79261
-------------+----------------------------------------------------------------
     var(e.y)|   9.36e-06   6.85e-06                      2.23e-06    .0000392
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .5005343   .0304855      .4410591    .5599944
          2  |   .4851343   .0306119      .4256343    .5450587
          3  |   .0143313   .0073775      .0051968     .038894
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -187.4824      11    396.9648   437.7064
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 4 Component FMM */
. fmm 4, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood = -188.06042

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.6450345   .5853396    -1.10   0.270    -1.792279      .50221
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -.8026907   .6794755    -1.18   0.237    -2.134438    .5290568
-------------+----------------------------------------------------------------
4.Class      |
       _cons |  -3.484714   .5548643    -6.28   0.000    -4.572229     -2.3972
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173031   .0251474   205.71   0.000     5.123743    5.222319
       _cons |   41.65574    .161938   257.23   0.000     41.33835    41.97313
-------------+----------------------------------------------------------------
     var(e.y)|   .0617238   .0076596                      .0483975    .0787195
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.503764   .0371216    40.51   0.000     1.431007    1.576521
       _cons |   65.13498   .2666049   244.31   0.000     64.61244    65.65751
-------------+----------------------------------------------------------------
     var(e.y)|   .0387473   .0188853                      .0149062    .1007195
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.441334   .0443892    32.47   0.000     1.354333    1.528335
       _cons |   65.26791   .2765801   235.98   0.000     64.72582       65.81
-------------+----------------------------------------------------------------
     var(e.y)|   .0307352    .010982                      .0152578    .0619127
------------------------------------------------------------------------------

Class          : 4
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.665207   .0079194   210.27   0.000     1.649685    1.680728
       _cons |   63.42577   .0510052  1243.52   0.000      63.3258    63.52573
-------------+----------------------------------------------------------------
     var(e.y)|    .000096   .0000769                        .00002    .0004611
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .4991443   .0304808      .4396979     .558615
          2  |   .2618733   .1506066      .0715338    .6203076
          3  |   .2236773    .150279      .0501835    .6110804
          4  |    .015305    .008329       .005234    .0438994
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -188.0604      15    406.1208   461.6776
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

— 디미트리 V. 마스터 로프
소스

이 흥미로운 답변에 감사드립니다. 연구 할 새로운 개념을 내게 주셨습니다.

— SlowMagic

0

Dason이 이미 모델링 부분을 다루었으므로 통계적 중요성 문제에 중점을 둘 것입니다.

나는 이것에 대한 공식적인 테스트에 익숙하지 않기 때문에 (나는 확실하게 존재한다) 나는 약간의 아이디어를 버릴 것이다 (그리고 나중에 R 코드와 기술적 세부 사항을 추가 할 것이다).

첫째, 수업을 유추하는 것이 편리합니다. 두 개의 선이 데이터에 적합하다고 가정하면 각 점을 가장 가까운 선의 클래스에 지정하여 두 개의 클래스를 대략적으로 재구성 할 수 있습니다. 교차점 근처의 포인트의 경우 문제가 발생하지만 지금은 문제를 무시하십시오 (이 문제를 해결할 수있는 방법이있을 수 있지만 지금은 크게 변경되지 않기를 바랍니다).

$x_{l}$ $x_{r}$ $x_{l} \leq x_{r}$ $x_{l}$ $x_{r}$

그런 다음이 작업을 수행하는 두 가지 자연스러운 방법이 있습니다.

덜 재미있는 방법은 Demetri의 답변에서와 같이 선형 회귀를 통해 원래의 데이터 세트를 유추 클래스 레이블과 결합하여 실행하는 것입니다.

보다 흥미로운 방법은 수정 된 버전의 분산 분석을 사용하는 것입니다. 요점은 두 선을 나타내는 인공 데이터 집합을 만들고 (그 사이에 비슷한 스프레드가있는) 분산 분석을 적용하는 것입니다. 기술적으로는 왼쪽에 대해 한 번, 오른쪽에 대해 한 번만 수행해야합니다 (즉, 두 개의 인공 데이터 집합이 있음).

y_{1}^{(i)} = β_{1, 1} x_{1}^{(i)} + β_{1, 0} + e_{1}^{(i)}

$y^{(i)}_{1} = \beta_{1,1} x_{1}^{(i)} + \beta_{1,0} + e_{1}^{(i)}$

β_{1, 1} x_{1}^{(i)} + β_{1, 0}

$\beta_{1,1} x_{1}^{(i)} + \beta_{1,0}$

β_{1, 1} x^{a v g} + β_{1, 0}

$\beta_{1,1} x^{\mathrm{avg}} + \beta_{1, 0}$

x_{l}^{a v g}

$x^{\mathrm{avg}}_{l}$

x

$x$

y_{1}^{(i)}

$y_{1}^{(i)}$

{\tilde{y}}_{1}^{(i)} = β_{1, 1} x^{a v g} + β_{1, 0} + e_{1}^{(i)},

$\tilde{y}_{1}^{(i)} = \beta_{1,1} x^{\mathrm{avg}} + \beta_{1, 0} + e_{1}^{(i)},$

{\tilde{y}}_{1}^{(i)}

$\tilde{y}_{1}^{(i)}$

{\tilde{y}}_{2}^{(i)}

$\tilde{y}_{2}^{(i)}$

$N$

— 제이콥 마이바흐
소스

-2

같은 차트에 둘 다 포함시키는 것이 오류 일 수 있습니까? 품종이 완전히 다르게 행동한다는 것을 감안할 때 데이터를 겹치는 데 가치가 있습니까? 비슷한 환경이 다른 수선화에 미치는 영향이 아니라 수선화 종에 대한 영향을 찾고있는 것 같습니다. 종 "B"에서 종 "A"를 결정하는 데 도움이되는 데이터를 잃어버린 경우 행동 "A"와 행동 "B"를 그룹화하고 이야기에 두 종의 발견을 포함시킬 수 있습니다. 또는 실제로 하나의 차트를 원할 경우 동일한 축에 두 개의 데이터 세트를 사용하십시오. 나는 주어진 다른 응답에서 볼 수있는 전문 지식 근처에 아무 것도 없기 때문에 덜 숙련 된 방법을 찾아야합니다. 방정식을 쉽게 개발할 수있는 워크 시트 환경에서 데이터 분석을 실행합니다. 그때, 그룹화가 명확 해지면 별도의 두 데이터 테이블을 만든 다음 차트 / 그래프로 변환합니다. 나는 많은 양의 데이터를 다루며 서로 다른 상관 관계에 대한 나의 가정이 잘못되었다는 것을 종종 발견한다. 그것이 우리가 발견하는 데 도움이되는 데이터입니다. 일단 내 가정이 틀렸다는 것을 알게되면, 발견 된 행동을 기반으로 데이터를 표시하고 그 행동과 결과적인 통계 분석을 이야기의 일부로 논의합니다.

— KBKIA
소스

1

귀하의 답변이 질문에 대한 명확성 또는 통찰력을 제공하지 않기 때문에 귀하가 다운 투트되었다고 생각합니다. 답변을보다 유용하게 구성하고 각 지점에서 어떤 하위 질문을 해결해야하는지 명확하게해야합니다. 다양한 정보를 복구 할 수 없음을 명확하게 밝히기 위해 답변간에 응답이 업데이트되기 전에 질문이 업데이트되었습니다.

— ReneBt

2

Cross Validated에 오신 것을 환영합니다! 첫 번째 답변이 잘 수신되지 않아서 답장하지 마십시오. 더 간단한 솔루션은 매우 유용 할 수 있습니다. 많이 추가하십시오.

— Scortchi-Monica Monica 복원