교수의 회귀 모델 숨기기 (회귀 전함) [닫기]


11

저는 교수가 우리에게 진정한 회귀 모델을 만들고, 데이터 샘플을 시뮬레이션하고, 수업에서 배운 몇 가지 기술을 사용하여 실제 회귀 모델을 찾으려고하는 숙제를 과제 중입니다. 마찬가지로 우리는 그가받은 데이터 세트와 동일한 작업을 수행해야합니다.

그는 과거의 모든 시도에서 그를 시도하고 속이려고 아주 정확한 모델을 만들 수 있다고 말했다. 미친 모델을 만드는 몇몇 학생들이 있었지만, 그는 단지 더 간단한 모델을 만들 수 있었을 것입니다.

그가 찾을 까다로운 모델을 개발하려면 어떻게해야합니까? 4 차 2 차 항, 3 차 관측치 및 대규모 분산을 수행하여 매우 저렴하고 싶지 않습니까? 작은 모델이있는 겉보기에 무해한 데이터 세트를 어떻게 만들 수 있습니까?

그는 단순히 따라야 할 3 가지 규칙이 있습니다.

  1. 데이터 세트에는 "Y", "X1", ..., "X20"으로 레이블이 지정된 하나의 "Y"변수와 20 개의 "X"변수가 있어야합니다.

  2. 반응 변수 는 을 만족하는 선형 회귀 모델에서 여기서 및 입니다.Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. 를 생성하는 데 사용 된 모든 변수는 데이터 세트에 포함됩니다.XY

20 개의 X 변수가 모두 실제 모델에 있어야하는 것은 아닙니다.

나는 같은 것을 사용하는 생각 파마 - 프랑스어 3 요소 모델 과 그를 주식 데이터 (SPX 및 AAPL)로 시작하고 조금 더를 obsfucate하기 위해 연속 복리 수익률에 해당 변수를 변환 할 필요. 그러나 그것은 첫 번째 관찰에서 결 측값을 남기고 시계열입니다 (우리는 아직 수업에서 논의하지 않았습니다).

이것이 이와 같은 것을 게시하기에 적절한 장소인지 확실하지 않습니다. 좋은 토론을 할 수있을 것 같은 느낌이 들었습니다.

편집 : 특히 "사전 구축 된"모델을 요구하지 않습니다. 누군가가 이것에 대해 갈 수있게하는 통계의 주제 / 도구에 대해 더 궁금합니다.


4
그가 당신을 선형 모델로 제한한다면 힘들 것입니다 ...
Frank H.

4
실제 계수가 95 % 신뢰 구간 내에 있으면 교수가 이기면 다중 공선 성이 CI를 크게 팽창시키기 때문에 다중 공선 성이 도움이되지 않습니다. 반면에 새로운 예측 변수 (실제 DGP를 사용하여 생성 된 "실제"데이터)의 예측 데이터와 실제 데이터의 차이에 대해 평가를 수행하면 다중 공선 성이 훨씬 더 나은 접근 방식이됩니다. 결론 : 대상 기능이 무엇인지 확인하고 접근 방식을 조정하십시오. (이것은 인생에서 더 일반적으로 적용됩니다 ...)
Stephan Kolassa

4
@dylanjm 승리 조건 을 정확하게 정의 할 수 있습니까?
Matthew Gunn

11
그러한 운동의 요점은 당신이 스스로 무언가를 생각함으로써 배우는 것입니다 . 만약 당신이 그를 상대로 전문가들을 구덩이로 돌리면 회귀와 관련하여 당신이받은 다른 정보들을 통합하여 실제로 뇌를 뻗을 수있는 기회가 크게 줄어 듭니다 (교수에게 불공평). 또한, 다른 사람이 부분적으로 수행했을 때 그에게 일을 제시하는 평판이 좋은 기관에서는 학업 적 위법 행위와 사기 행위 사이에 어딘가에 놓일 수 있습니다 (예 : 마크의 가치가있는 경우). 정확히 어떻게 물어 보는지주의하십시오.
Glen_b-복지 주 모니카

4
이 질문의 인기에도 불구하고, 나는 게임 규칙 (성공을 평가하기 위해 어떤 기준이 사용 될지, 얼마나 많은 샘플을 공급해야 하는가 등)에 대한 설명을 반복해서 요청한 후에도이 시점에서 그 질문을 끝내야 할 필요가 있다고 느낀다. 정보는 여전히 질문에 나타나지 않았습니다. Google의 목표는 "토론 생성"보다 좁고 집중적 입니다.이 사이트에서 해결할 수있는 질문에 대해서는 도움말 센터 를 참조하십시오 .
whuber

답변:


6

단순히 설명 된 부분보다 오차를 크게 만드십시오. 예 : . 여기서 , 및 입니다. 물론, 당신은 당신이 옳았 고 그가 틀렸다는 것을 교수에게 증명할 수 있도록 씨앗이 무엇인지 기억해야합니다.yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

이 잡음 / 신호 비율로 위상을 식별하는 것이 좋습니다.


이것은 CI 승리 기준에 맞지 않는 것 같습니다. 확실히 1을 다룰 거대한 CI를 얻게 될 것입니다. 물론 수치 적 불안정성도 있습니다.
Stephan Kolassa

불안정성은 문제가되지 않습니다. 내가하는 일은 신호를 잡음에 묻는 것입니다. 이것은 순수한 백색 잡음으로 나옵니다.
Aksakal

4
이것은 OP에 의해 바람직하지 않은 저렴한 모델로 간주되었다
Sextus Empiricus

5

그의 목표가 를 만드는 진정한 데이터 생성 프로세스복구하는 것이라면 교수를 속이는 것은 매우 사소한 일입니다. 예를 들어, 방해 및 다음 구조식을 고려하십시오. YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

만 포함하는 의 실제 DGP에 유의하십시오 . 조건 2는 거의 만족합니다. 은 를 작성하는 유일한 변수 이므로 및 제공하므로 조건 3도 만족 됩니다 .YX1X1YX1X2

그러나 교수 의 진정한 DGP를 복구하기 위해 만 또는 및 만 포함해야하는지 알 수있는 방법은 없습니다 (이 예제를 사용하면 변수 수를 변경). 아마도 그는 모든 변수에 대한 회귀 분석을 제공 할 것입니다. 변수는 모두 중요한 예측 변수로 표시되기 때문입니다. 원하는 경우이 변수를 20 개의 변수로 확장 할 수 있습니다. 여기에서이 답변여기 에서 Simpson의 역설 기계를 확인 하십시오.X1X2X1X2 Y

모든 조건 기대합니다 , 또는 올바르게 지정 조건부 기대,하지만 의 진정한 DGP 반영 . 따라서 교수가 필연적으로 과제를 실패한 후, 그의 목표는 단순히 조건부 기대를 회복하거나 등을 가장 잘 예측하는 것이라고 주장 할 수 있습니다. 자신이 말한 것이 아니라고 주장 할 수 있습니다. :E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

Y가해야하는 변수 에서 오는 선형 회귀 모델 만족 (...) 한 변수 Y를 만드는 데 사용 (...) 당신의 실제 모델 (...)

또한 인과 관계, 진정한 DGP의 의미 및 일반적으로 식별 가능성에 대한 수업에서 좋은 토론을 이끌어 낼 수 있습니다 .


당신은 게시물에서 # 2를 준수하는 모델을 제안하고 있습니다
Aksakal

3

소득 대 연령과 같은 다중 공선 성 및 이분산성을 가진 변수를 사용하십시오. 선형성 조각은 실제로 더 어려워 지지만 고통 스러울 수 있습니다. 또한, 이상치들은 선구자에게 문제를 증가시킬 것입니다.


나는 이분산성이 문제의 범위를 벗어난 것이라고 생각하지만, 다중 공선 성은 진정한 스펙을 찾기 어렵게 만드는 가장 좋은 방법 중 하나라는 데 동의합니다.
JDL

2

상호 작용 용어가 허용됩니까? 그렇다면 모든 하위 차수 계수를 0으로 설정하고 N 차 차수 작용 (예 : 과 같은 항)에서 전체 모형을 작성하십시오 . 20 개의 회귀 분석기에서 가능한 상호 작용의 수는 천문학적으로 많으며 포함 된 것을 찾기가 매우 어려울 것입니다.X5X8X12X13


0

선형 모델을 선택하십시오. 그에게 대부분의 표본이 약 x = 0 인 데이터 세트를 제공하십시오. 그에게 x = 1,000,000 정도의 샘플을 몇 개 줘.

여기서 좋은 점은 x = 1,000,000의 샘플이 특이 치가 아니라는 것입니다. 이들은 동일한 소스에서 생성됩니다. 그러나 스케일이 너무 다르기 때문에 1M 정도의 오차는 0 정도의 오차와 맞지 않습니다.

예를 생각해 봅시다. 우리의 모델은

Yi=β0+β1Xi1+ϵi

우리는 x = 0 근처에 n 샘플의 데이터 세트를 가지고 있습니다. "충분히"값으로 2 점을 더 선택합니다. 이 두 점에 약간의 오차가 있다고 가정합니다.

"충분히 충분한"값은이 두 점에서 직접 전달되지 않는 추정 오류가 나머지 데이터 세트의 오류보다 훨씬 큰 값입니다.

따라서 선형 회귀는이 두 점을 통과하고 나머지 데이터 집합을 놓치고 밑줄 모형과 다른 계수를 선택합니다.

다음 예를 참조하십시오. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

이것은 WolfarmAlpha 시리즈 형식입니다. 각 쌍에서 첫 번째 항목은 x이고 두 번째 항목은 Excel에서 = A2 + NORMINV (RAND (), 0,2000) 수식을 사용하여 생성되었습니다.

따라서 이고 평균 분포는 0이고 표준 편차는 2000 인 정규 분포 랜덤 노이즈를 추가합니다. 이것은 거의 0에 백만에 가까운 작은 잡음입니다.β0=1,β1=1

Wolfram Alpha를 사용하면 다음 선형 회귀 을 얻을 수 있습니다. , 의 밑줄 분포와는 상당히 다릅니다.y = xy=178433.x426805y=x


이것이 정확히 어떻게 작동하고 이것이 어떤 영향을 미치나요?
Richard Hardy

노이즈와 정밀도가 다른 스케일에서 다르게 작동하기 때문에 작동합니다. 높은 숫자에서 극단을 취하고 단일 지점을 고려하면 라인이 직접 통과하거나 많은 비용을 겪어야합니다. 일부 노이즈는 올바른 값을 놓치기에 충분합니다. 0 주위에, 다시 한번 극단적으로 – 무지로, 당신은 소음이 남게됩니다.
DaL

계수가 잘못된 변수에 작은 값을 사용하면 비용을 지불하게됩니다.
DaL

예, 그러나 교수가 이것을 생성 한 모델을 발견하기 어려운 이유는 무엇입니까? 주어진 회귀 변수가 너무 많을 때 특히 쉬운 작업처럼 보입니다.
Richard Hardy

두 그룹 모두에 적합한 모델은 없기 때문입니다.
DaL
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.