플롯과 선형 대수를 사용하지 않고 간단한 선형 회귀를 수행 할 수 있습니까?


47

나는 완전히 장님이고 프로그래밍 배경에서 왔습니다.

내가하려는 것은 기계 학습을 배우는 것입니다.이를 위해서는 먼저 선형 회귀에 대해 알아야합니다. 이 주제에 대해 내가 찾은 인터넷의 모든 설명은 먼저 데이터를 표시합니다. 그래프와 플롯에 의존하지 않는 선형 회귀에 대한 실용적인 설명을 찾고 있습니다.

간단한 선형 회귀의 목표에 대한 나의 이해는 다음과 같습니다.

간단한 선형 회귀 분석은 일단 공식을 X구하면 가장 가까운 추정값을 제공 하는 공식을 찾으려고합니다 Y.

따라서 내가 이해하는 것처럼 예측 변수 (예 : 평방 피트 단위의 주택 면적)와 독립 변수 (가격)를 비교해야합니다. 내 예에서는 아마도 해당 지역에서 주택 가격을 계산하기 위해 최상의 공식을 얻는 시각적이지 않은 방법을 만들 수 있습니다. 예를 들어, 이웃에있는 1000 채의 면적과 가격을 얻고 그 지역으로 가격을 나눌 수 있습니까? 결과는 (적어도 내가 사는 곳인이란에서는) 매우 무시할만한 변화를 가져올 것입니다. 따라서 아마도 다음과 같은 것을 얻을 것입니다 :

Price = 2333 Rials * Area of the house

물론 데이터 세트의 1000 개 주택을 모두 통과하고 위의 수식에 면적을 놓고 실제 가격과 추정치를 비교하고 결과를 제곱해야합니다 (변동이 서로 상쇄되지 않도록 추측합니다) 그런 다음 숫자를 얻은 다음 2333오류를 줄이기 위해를 계속 사용하십시오 .

물론 이것은 오류를 계산하고 최상의 옵션에 도달하는 데 시간이 걸리는 무차별 강제 옵션이지만, 내가 말하는 것을 알 수 있습니까? 그래프, 선, 플롯의 점 또는 기존 데이터에 선을 맞추는 가장 좋은 방법에 대해서는 아무 말도하지 않았습니다.

그렇다면 왜 산점도와 선형 대수학이 필요한가요? 비 시각적 인 방법이 없습니까?

첫째, 나는 나의 가정에 맞습니까? 그렇지 않다면 정정되고 싶습니다. 그래도 내가 아닌지에 관계없이 선형 대수를 가지고 놀지 않고도 수식을 만들 수 있습니까?

설명이있는 예를 얻을 수 있다면 정말로 감사하겠습니다. 그래서 텍스트와 함께 이해를 테스트 할 수 있습니다.


2
그러나 비전을 대신 할 수있는 공간적 상상력이 있습니까? 그렇다면 산포도를 어떤 방식으로 상상할 수 있다고 가정합니다. 회귀의 본질은 언어 적과 같은 명 제적 사고에 의해서만 포착 될 수 있을지 의심 스럽다.
ttnphns

3
수학 배경은 무엇입니까? 단순 선형 회귀 (Simple Linear Regression ) 라는 위키 백과 페이지 는 대부분 텍스트이며 첫 번째 단락에서 상당히 명확한 설명이라고 생각합니다. 이 기사는 원하는 세부 수준과 어떻게 비교됩니까?
shadowtalker

3
나는 계속 생각하고, 내가 올 수 있는지 보지만, 박쥐에서 바로, 회귀는 해가없는 방정식을 푸는 것으로 생각합니다. 회귀 자 (집 면적)가 모든 데이터 포인트를 잘못 예측합니다. 오류를 가능한 한 견딜 수있게 만드는 방정식을 찾고 있습니다.
Antoni Parellada

8
훌륭한 질문, 우리는 장애인들에게 우리의 개념을 설명하는 것에 대해 더 생각할 필요가 있습니다
Aksakal

4
줄거리를 사용할 필요가 없습니다. 실제로 다중 선형 회귀 (많은 예측 변수를 사용한 회귀)의 경우 차원 공간을 그릴 수 없습니다 . 그러나 선형 대수는 여전히 작동합니다. 선형 회귀와 관련된 모든 선형 대수 수식을 간단한 스칼라 수에 대한 연산으로 줄일 수 있습니다. 당신이 당신의 정신을 소중히 여기면 손으로 그렇게하고 싶지 않을 것입니다. p+1
추측

답변:


17

βEββ

βEβββ

β

편집 : 이 유형의 파생물이있는 메모에 대한 링크가 있습니다. 수학은 약간 복잡해 지지만 핵심은 미적분 문제 일뿐입니다.


세상에 드디어! 이것을 계산하는 비선형 대수 방법. 당신이 당신의 대답에서 말하는 개념은 내 머리 위에 있지만, 나는이 사고 방식을 더 잘 이해하기 위해 파생 상품을 확실히 살펴볼 것입니다.
파햄 Doustdar

1
E(β)βE

4
β

2
적어도 제곱 회귀 분석은 해답 인 방정식을 풀 수 있기 때문에 그래디언트 괜찮을 필요는 없지만 기계 학습이 무엇인지 이해하는 좋은 방법입니다. 오류 측정 방법을 선택하고 오류 방정식을 최소화하는 방법을 찾는 것으로 요약됩니다. 결과는 데이터를 통해 학습 된 "최상의"추정 방정식입니다. 머신 러닝으로가는 길에 도움이 되길 바랍니다.
Chris Rackauckas

10

이해가 가까이 있지만, 일부 확장이 필요합니다 : 단순 선형 회귀 한 번 당신이주는 공식 찾으려고 X의 가장 가까운 평가를 제공 할 것, 그것에을 Y 사이에 선형 관계를 기반으로 X 하고 Y .

주택 가격의 예는 약간 확장되었을 때 왜 산포도 등으로 끝나는지를 보여줍니다. 첫째, 단순히 지역별로 가격을 나누는 것이 고향의 토지 가격과 같은 다른 경우에는 효과가 없습니다. 건축 규정에 따르면 집을 지을 수있는 토지를 소유하는 것이 단순히 가치가 높습니다. 따라서지가는 단순히 지역에 비례하지 않습니다. 소포 면적이 증가 할 때 마다 소포 가치 가 동일하게 증가 할 수 있지만 0 영역의 (신화적인) 소포로 내려 가면 토지의 소포를 소유 한 값을 나타내는 관련 겉보기 가격이 여전히 존재합니다 그것은 건축을 위해 승인되었습니다.

그것은 여전히 영역과 가치 사이 의 선형 관계이지만 , 단지 소포 소유의 가치를 나타내는 관계에 절편 이 있습니다. 그럼에도 불구하고 이것을 선형 관계로 만드는 것은 면적, 기울기 또는 회귀 계수의 단위 변화 당 값 의 변화 가 면적 또는 값의 크기에 관계없이 항상 동일 하다는 것 입니다.

따라서 소포 면적을 가치와 관련시키는 절편과 경사를 모두 알고 있고 그 선형 관계의 값을 최근 판매로 표시된 실제 값과 비교한다고 가정하십시오. 예측 값과 실제 값이 거의 일치하지 않는 경우가 있습니다. 이러한 불일치는 모형의 오류를 나타내며 예측 된 관계 주위에 값이 분산되어 있습니다. 면적과 값 사이의 예측 된 직선 관계를 중심으로 클러스터 된 점의 산점도를 얻을 수 있습니다.

대부분의 실제 예에서는 절편과 기울기를 아직 알지 못하므로 데이터에서이를 추정해야합니다. 그것이 선형 회귀가 시도하는 것입니다.

최대 가능성 추정 의 관점에서 선형 회귀 및 관련 모델링에 대해 생각하는 것이 좋습니다. 이 모델은 데이터를 가장 확률 적으로 만드는 모델의 특정 매개 변수 값을 검색합니다. 그것은 당신이 당신의 질문에서 제안하는 "브 루트-포스"접근법과 비슷하지만, 당신이 최적화하려는 것에 대한 측정 방법이 약간 다릅니다. 현대적인 컴퓨팅 방법과 검색 패턴의 지능적인 디자인으로 매우 빠르게 수행 할 수 있습니다.

최대 가능성 추정은 그래픽 플롯이 필요하지 않은 방식으로 개념화 될 수 있으며 이미 생각하고있는 방식과 유사합니다. 선형 회귀 분석의 경우 표준 최소 제곱 회귀 분석과 최대 가능성 모두 동일한 가로 채기 및 기울기 추정치를 제공합니다.

최대한의 가능성으로 생각하면 엄격하게 선형 관계가없는 다른 상황으로 더 잘 확장 할 수 있다는 추가 이점이 있습니다. 좋은 예는 예측 변수에 기초하여 이벤트가 발생할 확률을 추정하려는 로지스틱 회귀 입니다. 그것은 최대 우도에 의해 달성 될 수 있지만, 표준 선형 회귀와는 달리 로지스틱 회귀에서 절편과 기울기를 생성하는 간단한 방정식은 없습니다.


1
x2

@ fcop 당신이 맞습니다. 나는 값과 영역 사이의 비례를 정한 OP가 제공 한 예에서 시작했습니다. 나는 거듭 제곱이나 로그와 같은 변환이 사용될 때 회귀에서 실제 독립 변수로 원래 예측 변수 의 변환 된 값 을 생각하는 경향이 있습니다. 묵시적 오류 모델에는 차이가 있지만 실제로는 실제로 용어의 차이로 끝납니다.
EdM

나는 당신의 요점을 봅니다, 어쨌든, 그것은 좋은 대답이었습니다. (+1)

6

우선, 내 칭찬. 모든 사람이 통계로 어려움을 겪기가 어렵습니다 (내가 의사이므로 나에게 얼마나 힘든지 짐작할 수 있습니다) ...

선형 회귀에 대한 시각적 설명은 아니지만 선형 회귀 에 대한 촉각 적 설명과 매우 유사한 것을 제안 할 수 있습니다 .

문에서 방으로 들어가고 있다고 상상해보십시오. 방의 모양은 정사각형이며 문은 왼쪽 아래에 있습니다. 다음 방으로 가려고합니다. 그 방의 문은 오른쪽 위 구석에있을 것입니다. 다음 문이 어디에 있는지 정확히 알 수는 없지만 방 안에 흩어져있는 사람들이 있는데 어느 쪽을 가야하는지 말할 수 있다고 상상해보십시오. 그들은 어느 쪽도 볼 수 없지만, 그들에게 무엇이 있는지 알려줄 수 있습니다. 이 사람들이 안내하는 다음 문에 도달하기 위해 취할 마지막 길은 회귀선과 유사합니다.


1
(+1) 나는 당신의 예를 매우 좋아하며 순수한 우연의 일치로 우리는이 문제에 대해 매우 유사한 그림을 사용했다는 것이 재미 있습니다!
Tim

"방의 모양은 다소 정사각형입니다."-시각 장애인을위한 정사각형은 무엇입니까? 이 문장으로 당신은 우리가 처음 시작했던 곳으로 우리를 데려 왔습니다.
Aksakal

4
동의하지 않습니다. 한 방향으로 10 피트를 걷은 다음 90도 회전 (예 : 팔걸이)하고 10 피트를 다시 걷게하십시오. 제대로 볼 수 없다면 그것은 정사각형입니다.
Joe_74

@ GiuseppeBiondi-Zoccai, 온도에서 챔버의 압력 모델을 구축하는 경우 왜 사각형과 선 및 기타 공간 개념을 불러 와야합니까? 그것은 당신이 장님하지 않으면 확실히 편리하지만, 이러한 공간 비유 손에 문제에 대한 테이블에 아무것도 가져 오지 않는 시각 장애인을 위해, 그들은 단지 박람회 복잡
Aksakal

2
다시 한 번, 나는 정중하게 동의하지 않습니다 ... 저는 항상 시각 장애인들이 촉각 적 공간 기술을 개발했다고 가정했습니다. 어쨌든, 잘 작동하는 예는 많을수록 더 가치가 있습니다.
Joe_74

3

YX

Y=β0+β1X+ε

β0yx

명확하게하기 위해 Gelman과 Park처럼이 예제를 더 단순화 해 봅시다. 그들이 제안한 단순화는 를 나누는 것입니다X"작은", "중간"및 "큰"주택의 세 가지 그룹으로 가변적입니다. 즉, 이러한 결정을 최적으로 내리는 방법을 설명하지만 덜 중요합니다. 다음으로 "작은 집"의 평균 크기와 "큰"집의 평균 크기를 계산하십시오. "작은"집과 "큰"집의 평균 가격도 계산하십시오. 이제 공간에 흩어져있는 크고 작은 주택의 데이터 포인트 구름 중심 인 두 지점으로 데이터를 줄이고 "중간"주택에 대한 모든 데이터 포인트를 제거하십시오. 2 차원 공간에 2 개의 점이 남았습니다. 회귀선은 점을 연결하는 선입니다. 한 점에서 다른 점으로의 방향으로 생각할 수 있습니다. β1

공간 주위에 더 많은 점이있을 때도 마찬가지입니다. 회귀선은 모든 점까지의 제곱 거리를 최소화하여 자신의 길을 찾습니다. 따라서 선은 공간에 흩어져있는 점 구름의 중심을 정확히 통과합니다. 두 점을 연결하는 대신 이러한 중심점을 무제한으로 연결하는 것으로 생각할 수 있습니다.


Gelman, A. & Park, DK (2012). 상위 분기 또는 3 분기와 하위 분기 또는 3 분기에서 예측 변수를 분할합니다. 미국 통계 학자, 62 (4), 1-8.


3

짧은 대답은 그렇습니다. 비행기 또는 창 던지기의 전체면 또는 표면을 구성하는 모든 점의 중간을 통과하는 선은 무엇입니까? 그려 봐; 머리 나 사진에 당신은 그 선으로부터의 총 편차 (최소한 점들)에 기여할 모든 점 (그것의 표시 여부에 관계없이)이있는 독방 선을 찾고 있습니다. 눈으로, 상식적으로 상식으로하면 수학적으로 계산 된 결과를 근사하게합니다. 이를 위해 눈을 괴롭 히고 상식이되지 않을 수있는 공식이 있습니다. 공학과 과학의 유사한 공식화 된 문제에서, 산란은 여전히 ​​눈으로 예비 감정을 불러 일으키지 만, 이러한 분야에서는 선이 선일 가능성이있는 "테스트"확률을 내야합니다. 거기에서 내리막 길로갑니다. 하나, 당신은 기계에게 (a) 거대한 앞마당과 (b) 그 안에 흩어져있는 가축의 크기와 한계를 정하기 위해 기계를 가르치려고하는 것 같습니다. 기계에 부동산과 거주자의 그림 (그래픽, 대수)에 얼마의 양을 주면, 원하는 것을 알아낼 수 있어야합니다 (중간 선이 얼룩을 두 개로 깔끔하게 나눠서 계산 된 산란을 한 줄로 나눕니다). 괜찮은 통계 교과서 (교사 또는 교수에게 둘 이상의 이름을 지정하도록 요청)는 처음에는 선형 회귀의 모든 요점과 가장 간단한 경우 (간단하지 않은 경우에 이르기까지)를 수행하는 방법을 모두 설명해야합니다. 나중에 여러 프레즐이 나옵니다. 기계에 부동산과 거주자의 그림 (그래픽, 대수)에 얼마의 양을 주면, 원하는 것을 알아낼 수 있어야합니다 (중간 선이 얼룩을 두 개로 깔끔하게 나눠서 계산 된 산란을 한 줄로 나눕니다). 괜찮은 통계 교과서 (교사 또는 교수에게 둘 이상의 이름을 지정하도록 요청)는 처음에는 선형 회귀의 모든 요점과 가장 간단한 경우 (간단하지 않은 경우에 이르기까지)를 수행하는 방법을 모두 설명해야합니다. 나중에 여러 프레즐이 나옵니다. 기계에 부동산과 거주자의 그림 (그래픽, 대수)에 얼마의 양을 주면, 원하는 것을 알아낼 수 있어야합니다 (중간 선이 얼룩을 두 개로 깔끔하게 나눠서 계산 된 산란을 한 줄로 나눕니다). 괜찮은 통계 교과서 (교사 또는 교수에게 둘 이상의 이름을 지정하도록 요청)는 처음에는 선형 회귀의 모든 요점과 가장 간단한 경우 (간단하지 않은 경우에 이르기까지)를 수행하는 방법을 모두 설명해야합니다. 나중에 여러 프레즐이 나옵니다. 괜찮은 통계 교과서 (교사 또는 교수에게 둘 이상의 이름을 지정하도록 요청)는 처음에는 선형 회귀의 모든 요점과 가장 간단한 경우 (간단하지 않은 경우에 이르기까지)를 수행하는 방법을 모두 설명해야합니다. 나중에 여러 프레즐이 나오게됩니다. 괜찮은 통계 교과서 (교사 또는 교수에게 둘 이상의 이름을 지정하도록 요청)는 처음에는 선형 회귀의 모든 요점과 가장 간단한 경우 (간단하지 않은 경우에 이르기까지)를 수행하는 방법을 모두 설명해야합니다. 나중에 여러 프레즐이 나옵니다.


다시 : 내 게시물에 대한 Silverfish의 의견 (해당 의견에 의견을 추가하는 것 외에는 간단한 방법이없는 것 같습니다), 예, OP는 장님이며 기계 학습을 배우고 줄거리 또는 그래프없이 실용성을 요청했지만 그는 "시각화"와 "시각"을 구별 할 수 있고, 머리에 시각적으로 그리고 사실적인 그림을 가지고 있으며, 주변 세계의 물체 (집 등)의 모든 물리적 형태에 대한 기본 아이디어를 가지고 있으므로 여전히 " 수학적으로나 다른 방식으로 머리에 그리면 2D와 3D를 종이에 잘 어울릴 수 있습니다. 오늘날 다양한 책과 기타 텍스트는 실제 점자 및 컴퓨터의 전자 음성 (예 : 포럼, 사전 등)으로 제공됩니다. 맹인을위한 많은 학교는 상당히 완전한 교과 과정을 가지고 있습니다. 비행기 나 창 던지기보다는 소파 나 지팡이가 더 적절할 필요는 없으며 통계 텍스트를 사용할 수 있습니다. 그는 기계가 회귀를 플롯하고 그래프로 작성하거나 계산하는 법을 배우지 않고 기계가 회귀를 파악하기 위해 동등한 기계를 배우는 방법에 대해 덜 걱정합니다. 피하십시오. 눈에 띄지 않는 학생뿐만 아니라 시각 장애가있는 학생들에게 필수적인 추력은 여전히 ​​시각적이지 않을 수있는 것 (유클리드와 피타고라스 이전부터 그려진 선이 아닌 선형 개념)을 시각화하는 방법과 특별한 종류의 선형성의 기본 목적 (회귀, 기본 점이 최소 편차에 가장 적합 함) 수학과 통계의 초기부터). 라인 프린터의 회귀에 대한 포트란 출력은 정신적으로 동화 될 때까지 거의 "시각적"이지만, 회귀의 기본 포인트조차도 상상력이 있습니다 (목적이 만들어 질 때까지 존재하지 않는 선).


2
어쩌면 나는이 대답을 오해하고 있지만 "머리로 또는 그림으로 그립니다."라는 질문의 요점을 다소 놓치는 것 같습니다. 원래의 질문은 완전히 맹인 인 사람에 의해 제기되었으므로 회귀에 접근하는 시각적 방법.
실버 피쉬

@Silverfish Response (댓글이 너무 깁니다) 위의 답변으로 편집되었습니다

감사. 나는 downvote가 약간 가혹하다고 생각했지만 (나가 아니었다)이 답변에서 선택한 언어 중 일부는 불행했다 (예를 들어 "눈으로"하는 것에 대한 몇 가지 언급이있다). 그럼에도 불구하고, 나는 왜 당신이 시각적 인식과 "마음의 눈"을 통해 시각화 될 수있는 것을 구별하고 싶어하는지 이해할 수 있습니다.
실버 피쉬

2
나는 내 마음 속에있는 것을 시각화 할 수 있습니다. 동일한 시각화 방법을 사용하지 않는다는 것입니다. 그것은 사용하지의 문제가 아니다 drawvisualize. 개념을 사용하여 시각화를 유도하는 것의 문제 일뿐입니다. 나는 이것이 수학의 많은 곳에서 일어나는 것을 발견했다. 어려운 주제를 설명하기 위해 일반적으로 모양과 이미지가 사용됩니다. 계산은 학습자가 실제 생활에서 알 수있는 개념과 관련이 없습니다.
파햄 Doustdar

3

플롯이 단일 회귀 분석으로 예측 된 간단한 회귀를 도입하기 위해 보편적으로 사용되는 이유는 이해를 돕기 때문입니다.

그러나 나는 무슨 일이 일어나고 있는지 이해하는 데 도움이 될 수있는 맛을 줄 수 있다고 생각합니다. 이 부분에서 나는 주로 그들이 이해 한 것을 전달하려고 노력하는데, 이것은 회귀에 관해 읽을 때 일반적으로 겪게 될 다른 측면들에 도움이 될 수 있습니다. 따라서이 답변은 주로 게시물의 특정 측면을 처리합니다.

평범한 사무실 책상과 같은 큰 직사각형 테이블 앞에 앉아 있고, 하나는 팔 전체 길이 (약 1.8 미터), 너비의 절반 정도가 될 것입니다.

한 쪽 긴면의 중간 위치에서 테이블 앞에 앉습니다. 이 테이블에서 (매우 매끄러운 헤드가있는) 많은 손톱이 상단 표면에 찔려서 조금씩 찌르도록합니다 (그곳을 느낄 정도로 충분하고 끈을 묶거나 고무 밴드를 부착하기에 충분합니다) ).

이 손톱은 한쪽 끝 (예 : 왼쪽 끝)을 향해 일반적으로 책상의 가장자리에 더 가깝고 다른 쪽 끝을 향해 갈 때 손톱 머리와 같은 방식으로 책상 가장자리에서 다양한 거리에 있습니다. 가장자리에서 멀리 떨어져있는 경향이 있습니다.

또한 가장자리를 따라 어떤 위치에서 손톱이 가장자리에서 얼마나 멀리 떨어져 있는지를 이해하는 것이 유용 할 것이라고 상상해보십시오.

책상의 가장자리를 따라 어떤 장소를 선택하고 손을 거기에 놓은 다음 테이블을 가로 질러 곧장 앞으로 손을 부드럽게 몸쪽으로 드래그 한 다음 다시 멀리 떨어 뜨려 손톱 머리 위로 손을 앞뒤로 움직입니다. 이 손톱에서 수십 개의 충돌이 발생합니다. 손의 좁은 너비 (손이 책상에서 왼쪽 끝에서 일정한 거리를두고 가장자리에서 직접 이동함에 따라), 약 10cm 너비의 단면 또는 스트립 .

아이디어는 작은 부분에서 책상 가장자리에서 못까지의 평균 거리를 계산하는 것입니다. 직관적으로 그것은 우리가 맞은 범프의 중간 일뿐입니다. 책상의 너비 부분에서 손톱까지의 각 거리를 측정하면 그 평균을 쉽게 계산할 수 있습니다.

예를 들어, 머리가 책상의 가장자리를 따라 미끄러지고 샤프트가 책상의 반대쪽을 향하지만 책상 바로 위를 향하는 T- 스퀘어 를 사용할 수 있습니다. 또는 오른쪽-주어진 손톱을 지나갈 때 T-square의 샤프트를 따라 거리를 얻을 수 있습니다.

따라서 우리의 가장자리를 따라 진행되는 과정에서 우리는 손 너비 스트립에서 모든 손톱을 찾아 우리를 향해 멀어지고 평균 거리를 찾는 운동을 반복합니다. 아마도 우리는 책상을 가장자리를 따라 손 너비 스트립으로 나눕니다 (따라서 모든 손톱은 정확히 하나의 스트립으로 만납니다).

이제 21 개의 스트립이 있는데, 첫 번째는 왼쪽 가장자리에 있고 마지막은 오른쪽 가장자리에 있습니다. 우리가 스트립을 가로 질러 진행함에 따라 수단은 책상 가장자리에서 멀어집니다.

이 평균은 x (왼쪽 끝에서 가장자리를 따라 떨어진 거리), 즉 E (y | x)에 대한 y (거리)에 대한 간단한 비모수 회귀 추정량을 형성합니다. 특히, 이것은 비제 한 비모수 회귀 추정기이며, 회귀도라고도합니다.

만약 그 스트립 평균이 규칙적으로 증가했다면, 즉 평균이 스트립을 가로 질러 움직일 때와 거의 같은 스트립 당 양만큼 증가했다면, y의 기대 값이 선형이라고 가정함으로써 회귀 함수를 더 잘 추정 할 수 있습니다 x의 함수-즉 x에 주어진 y의 예상 값은 상수에 x의 배수를 더한 것입니다. 여기서 상수는 x가 0 일 때 손톱이있는 위치를 나타냅니다 (종종 가장 왼쪽 가장자리에 배치 할 수도 있지만 반드시 그럴 필요는 없음). x의 특정 배수는 평균의 평균 속도가 얼마나 빠른가 오른쪽으로 1 센티미터 씩 움직일 때

그러나 그러한 선형 함수를 찾는 방법은 무엇입니까?

우리가 각 손톱 머리 위에 하나의 고무 밴드를 고리로 묶어 책상 위에, 손톱 위에 놓인 길고 얇은 막대기에 각각 붙인다 고 상상해보십시오. 각 스트립의 "중간"근처에 에 대한.

우리는 밴드가 우리를 향한 방향으로 만 (왼쪽 또는 오른쪽이 아닌) 방향으로 만 뻗는 방식으로 밴드를 부착합니다-왼쪽으로 자신의 왼쪽으로 잡아 당겨 스틱과 직각으로 스트레칭 방향을 만듭니다. 그러나 여기서는 스트레치 방향이 책상 가장자리를 향하거나 멀어지는 방향으로 만 유지되도록 방지합니다. 이제 우리는 밴드가 각 손톱쪽으로 잡아 당기면서 스틱을 고정시킵니다. 더 먼 손톱 (더 뻗은 고무 밴드가있는)은 스틱에 가까운 손톱보다 그에 상응하여 세게 당깁니다.

이어서, 스틱을 당기는 모든 밴드의 결합 된 결과는 (적어도, 적어도) 신장 된 고무 밴드의 제곱 길이의 합을 최소화하기 위해 스틱을 잡아 당기는 것이고; 주어진 x 위치에서 테이블의 가장자리에서 스틱까지의 거리는 테이블을 가로 질러 해당 방향으로 x가 주어진 y의 예상 값에 대한 추정치입니다.

이것은 본질적으로 선형 회귀 추정치입니다.

이제 손톱 대신 큰 나무에 매달린 많은 과일 (작은 사과와 같은)이 있고 땅 위의 위치에 따라 과일의 평균 거리를 찾으려고합니다. 이 경우 우리가 앞으로 나아갈수록지면 위의 높이가 점점 커지고 오른쪽으로 움직일 때 약간 더 커지므로 규칙적인 방식으로 다시 앞으로 올라갈 때마다 각 단계마다 평균 높이가 거의 같은 양으로 바뀌고 각 단계는 right는 또한 대략 일정한 양만큼 평균을 변화시킬 것입니다 (그러나이 stepping-right 평균 변화량은 step-forward 변화량과 다릅니다).

우리가 앞으로 나아가거나 오른쪽으로 갈 때 평균 높이가 어떻게 변하는 지 알아 내기 위해 과일에서 얇은 평평한 시트 (아마도 딱딱한 플라스틱의 얇은 시트)까지의 수직 거리의 제곱의 합계를 최소화하면, 두 개의 예측 변수가있는 선형 회귀-다중 회귀

이것들은 음모가 이해하는 데 도움이 될 수있는 유일한 두 가지 경우입니다 (방금 설명한 내용을 빨리 보여줄 수는 있지만 동일한 아이디어를 개념화 할 수있는 근거가 있음을 희망합니다). 가장 간단한 두 가지 경우를 넘어서서, 우리는 수학 만 남았습니다.

이제 주택 가격을 예로 들어 보자. 책상의 가장자리를 따라 거리를두고 모든 집의 면적을 나타낼 수 있습니다-가장 큰 집 크기는 오른쪽 가장자리 근처의 위치로 나타내며, 다른 모든 집 크기는 특정 센티미터 수를 나타내는 왼쪽의 일부 위치입니다. 평방 미터의 수. 이제 거리는 판매 가격을 나타냅니다. 가장 비싼 집을 책상의 가장 먼 가장자리 (항상 의자에서 가장 먼 가장자리) 근처에서 특정 거리로 지정하면, 이동 한 모든 센티미터가 몇 개의 Rial을 나타냅니다.

현재 우리는 책상의 왼쪽 모서리가 0의 주택 면적에 해당하고 가까운 모서리가 0의 주택 가격에 해당하도록 표현을 선택했다고 가정합니다. 그런 다음 각 주택에 못을 박습니다.

우리는 아마도 가장자리의 왼쪽 끝 근처에 손톱이 없을 것입니다 (그들은 주로 오른쪽을 향하고 멀리 우리를 향할 수도 있습니다). 이것은 반드시 스케일의 좋은 선택은 아니지만 절편이없는 모델의 선택으로 인해 그것을 논의하는 더 좋은 방법.

이제 모델에서 책상 근처 가장자리의 왼쪽 모서리에있는 막대 모양의 끈을 통과하도록 스틱을 강제 적용합니다. 따라서 장착 된 모델의 면적이 0 인 경우 자연스럽게 보일 수 있습니다. 모든 판매에 영향을 미치는 상당히 일정한 가격 요소. 그런 다음 절편을 0과 다르게하는 것이 합리적입니다.

어쨌든, 루프를 추가하면 이전과 동일한 고무 밴드 운동이 선의 최소 제곱 추정치를 찾습니다.


와우,이 긴 공간 답변에 감사드립니다. 많이 설명했습니다. 감사.
파햄 Doustdar

2

호텔에서 흔히 볼 수있는 토스터를 만난 적이 있습니까? 한쪽 끝에 컨베이어 벨트에 빵을 넣고 다른쪽에 토스트로 나옵니다. 불행히도,이 저렴한 호텔의 토스터에서 히터는 모두 입구에서 토스터까지 임의의 높이와 거리로 움직였습니다. 히터를 움직이거나 벨트의 경로를 구부릴 수는 없지만 (직선 비트가 들어오는 곳) 벨트의 높이와 기울기를 변경할 수 있습니다.

모든 히터의 위치가 주어지면 선형 회귀는 벨트를 배치하여 전체적으로 가장 많은 열을 얻도록 올바른 높이와 각도를 알려줍니다. 선형 회귀는 토스트와 히터 사이의 평균 거리를 최소화하기 때문입니다.

나의 첫 휴가는 손으로 선형 회귀를하는 것이 었습니다. 당신이하고 싶지 않다고 말한 사람은 옳습니다 !!!


2

선형 회귀에 대한 내가 가장 좋아하는 설명은 기하학적이지만 시각적이지 않습니다. 데이터 세트를 2 차원 공간의 점 구름으로 나누지 않고 고차원 공간에서 단일 점으로 취급합니다.

ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ

DM(ρ,β)D

DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.
다시 말해, 데이터 포인트와 모델 포인트 사이의 거리는 모델의 총 제곱 오차입니다! 모델의 총 제곱 오차를 최소화하는 것은 데이터 공간에서 모델과 데이터 간의 거리를 최소화하는 것과 같습니다.

ρβDM(ρ,β)


1

@Chris Rackauckas와 @EDM의 답변이 제자리에 있습니다. 평범한 최소 제곱 추정에 대한 플로팅이나 시각적 설명이 필요없는 간단한 선형 회귀 분석에 접근하는 방법에는 여러 가지가 있으며, OLS를 실행할 때 실제로 발생하는 상황에 대한 매우 확실한 설명을 제공합니다.

스 캐터 플로트를 구식 파라 메트릭 모델, 고급 기계 학습 자료 또는 베이지안 알고리즘 등 모든 종류의 새로운 모델링 절차를 배우기위한 지시 도구로 사용하면 그래프를 통해 특정 항목을 배우는 데 걸리는 시간을 줄일 수 있습니다 알고리즘은 않습니다.

그래프는 또한 새로운 데이터 세트 작업을 처음 시작할 때 탐색 적 데이터 분석에 매우 중요합니다. 나는 많은 양의 데이터를 수집하고 이론을 연구하고 내 모델을 신중하게 계획 한 다음 실행하여 본질적으로 예측력이없는 결과 만 도출하는 상황에 처했습니다. 이변 량 관계를 플로팅하면 몇 가지 추측을 할 수 있습니다. 예를 들어, 주택 가격이 면적과 선형으로 관련 될 수 있지만 관계가 선형이 아닐 수도 있습니다. 산점도를 사용하면 회귀 분석에서 고차 항이 필요한지, 선형 회귀 분석과 다른 방법을 사용하려는 경우 또는 일종의 비모수 적 방법을 사용하려는 경우 결정하는 데 도움이됩니다.


1

Anscombe Quartet 용 Google.

수치 적으로 검사 할 때 큰 차이를 보이지 않는 4 세트의 데이터를 보여줍니다.

그러나 시각적 산점도를 만들 때 차이가 극적으로 나타납니다.

항상 데이터, 회귀 또는 회귀를 나타내지 않아야하는 이유를 명확하게 보여줍니다.


0

예측 값과 실제 값의 차이를 최소화하는 솔루션을 원합니다.

y=bx+a

yy

오류 분포가 정규 분포라고 가정하면이 최소화 문제에 대한 분석 솔루션이 있음을 알 수 있습니다. 차이의 제곱의 합은 가장 잘 맞도록 최소화하는 가장 좋은 값입니다. 그러나 일반적인 경우에는 정규성이 필요하지 않습니다.

더 이상은 없습니다.

y=bx+a

요즘에는 이해의 도움으로 남아 있지만 선형 회귀를 실제로 이해해야 할 필요는 없습니다.

편집 : 오류 가정의 정상 성을 정확하지만 덜 간결한 목록으로 대체했습니다. 정규성은 분석 솔루션을 필요로했으며 많은 실제 사례에서 가정 할 수 있으며,이 경우 제곱합은 선형 추정기뿐만 아니라 가능성도 극대화합니다.

오차 분포의 정규성에 대한 가정이 더 있다면, 제곱합은 선형 및 비선형 추정기에서 최적이며 가능성을 최대화합니다.


1
설명 된 항목에는 정규 분포 가정이 필요하지 않습니다
Aksakal

Pls이 설명을 확인하십시오 stats.stackexchange.com/a/1516/98469
Diego

링크는 답변과 관련이 없습니다. 작은 표본 특성 또는 MLE로 확장 한 경우 정규 분포 가정을 가져올 수 있지만 답에 OLS 설명이 있으므로 정규 분포가 필요하지 않습니다. 실제로 t 제곱합을 최소화하기 위해 분포 또는 통계가 전혀 필요하지 않습니다. 순수한 대수입니다.
Aksakal

요점은 왜 우리가 다른 메트릭이 아닌 제곱합을 최소화하는지에 관한 것입니다. 제곱합을 최소화하는 방법이 아닙니다.
Diego

제곱합을 최소화하는 것은 정규 분포와 아무 관련이 없습니다. 그것은 단지 손실 기능입니다. 다른 손실 분포는이 손실 기능과 함께 사용할 수 있습니다. 작은 표본 등에서 모수 값에 대해 추론하려는 경우와 같은 특정 경우에는 분포가 필요합니다.이 경우에도 다른 분포를 사용할 수 있지만 왜 정규 분포에 있는지 잘 모르겠습니다.
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.