왜 로지스틱 회귀가 기계 학습 알고리즘이라고 불리는가?


19

기계 학습 알고리즘에서 올바르게 이해하면 모델은 경험에서 배워야합니다. 즉, 모델이 새로운 사례에 대해 잘못된 예측을 제공하면 새로운 관측치에 적응해야하고 시간이 지나면 모델이 점점 더 좋아집니다. . 로지스틱 회귀에는 이러한 특성이 있음을 알 수 없습니다. 그렇다면 왜 여전히 기계 학습 알고리즘으로 간주됩니까? "학습"이라는 용어에서 로지스틱 회귀 분석과 일반 회귀 분석의 차이점은 무엇입니까?

임의의 숲에 대해 같은 질문이 있습니다!

그리고 "machine learning"의 정의는 무엇입니까?


4
문법 명확성에 대한 귀하의 질문을 편집했지만 전반적인 의미가 확실하지 않습니다 ... 로지스틱 회귀는 분류 알고리즘이므로 ML에 속합니다. 기계 학습은 알고리즘이 적응 적이어야 함을 의미하지는 않습니다 (새로운 관측에서 학습하는 알고리즘이 있음에도 불구하고). 적응은 일반적으로 공동 확률을 모델링하는 생성 기계 학습 알고리즘에 의해 달성되는 구현 선택입니다.
Zhubarb 2016 년

12
"기계 학습"은 다소 느슨하게 정의 된 개념입니다. 실제로 모델 피팅과 관련된 모든 통계 절차는 머신 러닝으로 생각할 수 있습니다. (모델 피팅이 어느 정도 컴퓨터에 의해 수행 될 수 있다고 가정합니다!). 이것이 통계가 무엇인지에 대해 물을
뒤섞는


1
@ P.Windridge : "모델 피팅과 관련된 모든 통계적 절차가 기계 학습을 생각할 수 있다면"기계 학습과 통계를 구별해야하는 이유를 보지 못합니다
Metariat

4
@XuanQuangDO 머신 러닝과 통계를 구별해서는 안됩니다.
Sycorax는 Reinstate Monica가

답변:


21

기계 학습은 잘 정의 된 용어가 아닙니다.

실제로, 당신이 구글 "기계 학습 정의"라면 처음 두 가지가 상당히 다릅니다.

에서 WhatIs.com ,

머신 러닝은 컴퓨터에 명시 적으로 프로그래밍하지 않고도 학습 할 수있는 인공 지능 (AI) 유형입니다. 머신 러닝은 새로운 데이터에 노출 될 때 스스로 성장하고 변화하도록 가르 칠 수있는 컴퓨터 프로그램 개발에 중점을 둡니다.

에서 위키 백과 ,

머신 러닝은 데이터를 통해 학습하고 예측할 수있는 알고리즘의 구성 및 연구를 탐구합니다.

로지스틱 회귀는 의심 할 여지없이 Wikipedia 정의에 적합하며 WhatIs 정의에 맞는지 여부를 논쟁 할 수 있습니다.

저는 Wikipedia처럼 기계 학습을 개인적으로 정의하고 통계의 하위 집합으로 간주합니다.


1
나는 통계의 일부라는 것을 제외하고는 당신이 말한 대부분의 내용에 동의합니다. 겹치는 부분이 크지 만 강화 학습과 같은 학습 유형이 있으며 실제로 통계의 하위 집합으로 간주 할 수는 없습니다.
George

2
이들은 좋은 소스가 아닙니다.
닐 G

@George 맞습니다.하지만 머신 러닝, 감독 또는 비 감독, 매개 변수 또는 비모수에 관계없이 모든 데이터 수집, 분석 및 모델링 방법론에 레이블을 적용해야하는 경우 모든 통계에 해당합니다. ML은 통계의 전문 분야입니다.
RobertF 2016 년

@RobertF 동의하지 않습니다. 기계 학습은 기계가 어떻게 학습 할 수 있는지 연구하는 분야입니다. ML에 사용 된 대부분의 방법은 통계적 방법으로 간주 될 수 있지만 해당 필드는 기본적으로 통계의 하위 필드가 아닙니다. 예를 들어, Markov 의사 결정 프로세스는 통계적 방법으로 간주되지 않습니다.
George

1
@George Discrete time Markov 모형은 확률 모형입니다. 통계 절차의 교과서 정의 인 확률 모델 (예 : Markov 결정 프로세스)의 알 수없는 매개 변수를 추정하면 ML이라고 할 수 있고 통계가 아닌 주요 활동 클래스는 체스를하는 로봇을 만드는 것과 같은 특정 응용 프로그램이라고 생각합니다. 기본 알고리즘에는 의심 할 여지없이 확률과 통계가 포함되지만 응용 프로그램은 실제로 "통계"가 아닙니다. 유전체학 연구가 통계를 많이 사용하는 것과 비슷하지만 결정적으로 다른 분야입니다.
ahfoss

20

머신 러닝은 뜨겁고 돈이있는 곳입니다. 사람들은 현재 가장 뜨거운 것을 팔려고하는 것을 "팔아"라고 부릅니다. 그것은 소프트웨어를 판매 할 수 있습니다. 그것은 승진을 시도하는 현재 직원, 예비 직원, 컨설턴트 등으로 스스로를 판매 할 수 있습니다. 이는 직원을 고용하고 물건을 사거나 투자자에게 투자하도록 설득하기 위해 빅빅 회사로부터 예산을 승인 받으려는 관리자가 될 수 있습니다. 기계 학습을 개선 된 섹스팅 앱을 만드는 열쇠로하는 새로운 신생 기업. 소프트웨어는 머신 러닝을 수행하고 사람들은 머신 러닝 전문가입니다. 왜냐하면 그것이 지금은 뜨겁기 때문에 적어도 지금은 팔기 때문입니다.

나는 30 년 전에 모든 종류의 선형 및 비선형 통계 모델에 적합했습니다. 그때는 머신 러닝이라고 불리지 않았습니다. 이제는 대부분입니다.

모든 사람과 그들의 아저씨가 이제 데이터 "과학자"인 것처럼. 뜨겁고, 아마도 섹시 할 것입니다. 그래서 사람들이 스스로 부르는 것입니다. 그리고 그것은 누군가의 직책을 고용하기 위해 예산을 승인 받아야하는 채용 관리자입니다. 따라서 수학, 확률, 통계, 최적화 또는 수치 / 부동 소수점 계산에 대한 첫 번째 사실을 모르는 사람은 모호한 정확성과 구현의 견고성의 R 또는 Python 패키지를 사용하며 기계 학습 알고리즘으로 분류됩니다. 그들이 이해하지 못하는 데이터에 적용하고 자신의 경험을 바탕으로 데이터 과학자라고 부릅니다.

이것은 플립 팬트처럼 들릴지 모르지만 상황의 본질이라고 생각합니다.

편집 : 다음은 2019 년 9 월 26 일에 트윗되었습니다.

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "우리가 돈을 모을 때 그것은 AI이고, 기계 학습을 할 때, 그리고 일을 할 때 그것은 로지스틱 회귀입니다."

(누가 이것을 생각해 냈는지 모르겠지만 보석입니다.)


16
나는이 의견들 중 일부를 공유하고 나머지에 동정한다는 것을 숨기지 않을 것입니다. 그러나 이들이 SE 사이트에 대한 답변으로 적합하려면 어떤 종류의 지원이 필요합니다. 분명히 그것은 연역적 추리를 거치지 않을 것입니다 : 그것은 사실을 제시하고 권위있는 출처를 인용함으로써 얻어 져야합니다. 그렇게 할 수 있다면 멋질 것입니다!
whuber

10
오늘이 사이트에서 읽은 가장 재미있는 게시물을 쉽게 접할 수 있으며 많은 내용에 동의합니다. 그러나 @whuber에 동의해야합니다. 현재 형식으로 질문에 실제로 대답하지는 않습니다.
Nick Cox

6
작은 설명으로. 저는 소프트웨어 개발과 악성 "데이터 과학"모두에서 일하고 있습니다. 나는 많은 사람들을 인터뷰합니다. 업무 수행 능력이없는 소프트웨어 개발 위치 및 데이터 과학 위치에 대해 인터뷰하는 사람들의 비율은 거의 같습니다. 그렇다면 데이터 과학 타이틀의 특별한 점은 무엇입니까? 사람들은 모든 기술 분야에서 자신의 기술을 부 풀릴 것입니다. 프로그래밍 스택 교환에는 동일한 불만이 많이 있다고 확신합니다.
Matthew Drury

7
이것은 대답보다 화끈한 느낌입니다. 물론, 이름이 바뀌고, 브랜딩이 중요하며 머신 러닝이 뜨겁습니다 (따라서 자신이하고있는 일을 모르는 많은 자기 선포 실무자가 있습니다). 그러나, 연구와 산업 모두에서 확립되고 관련성이 높은 분야를 억제하기위한 논거로서 이것을 사용하는 것은 저에게 저렴한 것 같습니다.
Marc Claesen 2016 년

7
@ MarkL.Stone 귀하의 상황을 이해하며 여기에 많은 유능한 인서트 용어 가 있음을 전적으로 동의합니다 . 그러나 제 생각에는 그러한 사람들이 일자리를 찾고 유지한다는 사실은 관리의 잘못입니다. 관리자가 분석가의 결과에 만족하지 않고 개별 기술 / 결과에 관계없이 모든 분석가를 동일하게 취급하는 경우 나쁜 분석가와 마찬가지로 관리도 무능합니다. 현금 냄새가 나는 직업은 cks을 가지고 있습니다. 예를 들어 약을 복용하십시오. 데이터 과학자 / 머신 러닝 담당자에 대한 일반화는 모든 분석가를 불신하는 것만 큼 나쁩니다.
Marc Claesen

18

다른 사람들이 이미 언급했듯이 통계, 머신 러닝, 인공 지능 등 사이에는 명확한 구분이 없으므로 소금 한 알로 정의를 취하십시오. 로지스틱 회귀 분석은 기계 학습보다는 통계로 표시되는 경우가 많으며 신경망은 일반적으로 기계 학습으로 분류됩니다 (신경망은 종종 로지스틱 회귀 모델의 모음 일 뿐임).

제 생각에 기계 학습은 일반적으로 어떤 모양이나 형태로 모델을 구성하여 데이터에서 배울 수있는 방법을 연구합니다. SVM, 신경망, 랜덤 포레스트 및 기타 여러 기술과 같은 로지스틱 회귀 분석 은 모델을 구성 할 때 데이터에서 학습 합니다.

기계 학습 알고리즘에서 올바르게 이해하면 모델은 경험을 통해 배워야합니다

이것이 실제로 기계 학습이 정의되는 방식이 아닙니다. 모든 머신 러닝 방법이 새로운 데이터에 동적으로 적응하는 모델을 생성하는 것은 아닙니다 (이 서브 필드를 온라인 학습 이라고 합니다 ).

"학습"이라는 용어에서 로지스틱 회귀 분석과 일반 회귀 분석의 차이점은 무엇입니까?

많은 회귀 방법도 기계 학습 (예 : SVM)으로 분류됩니다.


2
비지도 학습은 여전히 ​​(머신) 학습이라고 불리므로 무언가를 "머신 학습"으로 분류하기 위해 피드백 루프가 필요하지는 않습니다.
vsz

이 질문에 대한 주제는 아니지만 AI와 ML의 분리에 대해서도 언급합니다. 나는 항상 AI에 대한이 정의를 좋아했습니다 : en.wikipedia.org/wiki/…
Davis Yoshida

10

로지스틱 회귀 분석은 1958 년 통계 학자 DR 콕스 (Doc Cox)에 의해 발명되었으므로 기계 학습 분야에 앞서 있습니다. 로지스틱 회귀는 분류 방법 이 아닙니다 . 감사합니다. 직접 확률 모델입니다.

알고리즘에 두 단계 (초기 추측, 예측 "오류"를 "수정")가 있어야한다고 생각하면 다음을 고려하십시오. 즉, (로짓에서) 가산 공간에서. 로지스틱 회귀 분석은 많은 머신 러닝 방법의 직접적인 경쟁자이며 예측자가 주로 부가 적으로 행동 할 때 (또는 주제 지식이 상호 작용을 정확하게 미리 지정하는 경우) 많은 방법을 능가합니다. 일부는 로지스틱 회귀를 일종의 기계 학습이라고 부르지 만 대부분은 그렇지 않습니다. 일부 기계 학습 방법 (신경망은 예) 통계 모델을 호출 할 수 있습니다.


1
Funnily Amazon의 머신 러닝 서비스는 분류 작업에 대해 하나의 알고리즘 (afaik)- 로지스틱 회귀 -를 사용 합니다 : p aws.amazon.com/machine-learning/faqs
stmax

온라인 학습 문제 에서와 같이 데이터를 점진적으로 표시 할 수 있습니다 . 이 경우 로지스틱 회귀 분석은 "처음에 제대로 얻지 못합니다". 나는 점차 배웁니다. 표준 손실이 있으며 업데이트는 그라디언트 디센트의 표준 응용 프로그램입니다. 로지스틱 회귀는 내가 본 모든 기계 학습 교과서에 있습니다.
Neil G

1
β

@FrankHarrell : 맞습니다. 그리고 그것은 로지스틱 회귀 문제의 해결책에 대한 최대 가능성 추정이 진행되는 방법입니다.
Neil G

로지스틱 회귀는 앞선 수 있습니다 용어 "기계 학습"을,하지만 앞선하지 않는 필드 : SNARC는 1951 년에 개발하고이었다 학습 기계 . 또한 로지스틱 회귀 분석은 확률 만 모형화하고, 그 자체로는 분류 기가 아니라는 주장은 머리카락을 쪼개고 있습니다. 이 논리에 의해 신경망은 분류 기가 아닙니다 (출력 레이어가 이진 뉴런으로 구성되어 있지 않으면 역 전파가 불가능할 것입니다).
Igor F.

8

나는 대부분의 답변에 동의하지 않고 머신 러닝을 주장해야합니다.매우 정확한 범위와 통계와 명확하게 구분됩니다. ML은 오랜 역사를 가진 컴퓨터 과학의 하위 분야로 최근 몇 년 동안 도메인 외부에서 응용 프로그램을 발견했습니다. ML의 패 터럴 필드 및 애플리케이션 도메인은 인공 지능 (로봇, 패턴 인식 소프트웨어 등) 내에 있으므로 "빅 데이터"또는 "데이터 과학"과 같은 "핫 용어"가 아닙니다. 반면 통계 ( "상태"라는 단어에서 유래)는 기계가 아니라 인간을위한 도구로 사회 경제학 내에서 개발되었습니다. ML은 통계와 별개로 발전했지만 통계 원칙에 크게 의존하기 시작한 어딘가에서 통계의 하위 필드는 아닙니다. ML과 통계는 필드가 겹치지 않고 상호 보완 적입니다.

긴 대답 :

이름에서 알 수 있듯이 ML 방법은 소프트웨어 / 기계에 대해 만들어졌으며 통계 방법은 사람에 대해 만들어졌습니다. ML과 통계는 모두 데이터에 대한 예측을 다루지 만 ML 방법은 비모수 자동 접근 방식을 따르지만 통계 방법은 설명 요소가 추가 된 많은 수동 모델 작성 작업이 필요합니다. ML 알고리즘이 AI 연구에서 로봇 공학 소프트웨어 (예 : 음성 및 얼굴 인식을 위해)에 통합되도록 자동화 된 예측 결정의 수단으로 개발되었다고 생각하면 완벽하게 이해할 수 있습니다. "기계"가 예측을 할 때, 그 뒤에있는 이유는 신경 쓰지 않습니다. 컴퓨터는 전자 메일을 스팸 또는 비 스팸으로 분류하는 모델 배후의 동인 / 예측자를 알 필요가 없으며 최상의 정확도를 유지하는 것만 중요합니다.블랙 박스 는 모델이 없기 때문이 아니라 모델이 알고리즘 적으로 구성되어 사람이나 기계가 볼 수 없도록되어 있기 때문입니다.

ML에서 "훈련"의 개념은 계산 능력에 의존하는 반면, 파라미터 추정을위한 OLS 유형의 방법을 사용한 통계 모델 구축은 인간 전문가의 지식에 의존합니다. 다중 회귀 시나리오에서 모델을 선택하고 필요한 모든 통계적 가정을 확인하기 위해 전문가의 판단을 사용하는 것은 통계 학자에게 달려 있습니다. 통계학 자의 목표는 패턴을 찾아 예측에 사용하는 것이 아니라 ML보다 훨씬 더 깊이있는 데이터와 문제를 이해하는 것입니다.

물론 많은 분야의 경우와 마찬가지로 ML과 통계가 겹치는 경우도 있습니다. 로지스틱 회귀는 이러한 경우 중 하나입니다. 원래는 통계적 방법으로 간단한 Perceptron (가장 근본적인 ML 기술 중 하나)과 매우 유사하므로 ML 방법으로 볼 수 있습니다.


1
비모수 통계와 비모수 통계 모델 및 모델 구축에 대해 들어 보지 못했을 것입니다.
Mark L. Stone

1
예, 저는 매일 비모수 통계를 사용합니다. ML이 통계에 대한 비모수 적 답변이라고 말하지 않았으며 비모수 적 인 ML 메소드가 부작용으로 나온다는 것을 알았습니다. 비모수 통계는 모수 통계가 실패 할 때 통계의 대안 옵션이지만 여전히 전문가의 의식적인 선택의 결과입니다. 내 의견을 전달하는 데 충분히 명확하지 않을 수 있으며 사과드립니다.
Digio

3
비모수 적 모델, 통계를 항상 수행하는 통계학자가 많이 있습니다. 반 파라미터 방식으로도 사용할 수 있지만 통계학자가 사용하고 통계학자가 사용하고 상당히 비모수 적이라는 발명자가 경험 한 가능성에 대해 들어 보셨습니까? 그래서 나는 당신의 의견에 동의하지 않지만 당신을 공감하지 않았습니다.
Mark L. Stone

1
의견이 맞지 않는 것은 괜찮지 만 여전히 반론이 무엇인지 이해하지 못합니다. 비모수 통계에는 머신 러닝이 필요하지 않다는 것을 암시합니까? 아니면 머신 러닝이 실제로 비모수 통계의 또 다른 이름이라고 주장하고 있습니까 (내가 거부 한 것)?
Digio

3
여기에 동의하지 않는 것이 많이 있습니다. 다 변수 회귀 모델은 최신 통계 도구와 함께 사용하면 ML과 함께 유연하고 경쟁력이 있습니다.
Frank Harrell

3

머신 러닝은 매우 느슨하게 정의되어 있으며 로지스틱 회귀 모델뿐만 아니라 회귀 모델도 데이터에서 "학습"한다고 생각하는 것이 맞습니다. 이것이 머신 러닝이 실제로 통계인지 또는 통계가 실제로 머신 러닝인지 또는이 중 어느 것이 중요한지 확실하지 않습니다.

케이

즉, 일부 알고리즘은 예측 오류로부터 학습합니다. 특히 에이전트가 일부 작업을 수행하고 결과를 관찰 한 다음 결과를 사용하여 향후 작업을 계획하는 강화 학습 에서 일반적입니다 . 예를 들어, 로봇 진공은 모든 위치를 균등하게 청소하는 세계 모델로 시작한 다음 더러운 장소 (더러움을 발견하여 "보상 된")를 더 진공 청소기로 청소하고 더 ​​적은 장소를 청소하는 법을 배울 수 있습니다.

새로운 교육 데이터로 온라인 또는 증분 알고리즘을 반복적으로 업데이트 할 수 있습니다. 이것은 반드시 모델의 예측 정확도에 의존하지는 않지만, 예를 들어 새로운 데이터에 현재 모델이 주어지지 않을 경우 가중치가 더 적극적으로 업데이트되는 알고리즘을 상상할 수 있습니다. 로지스틱 회귀에 대한 온라인 버전이 있습니다 (예 : McMahan and Streeeter (2012)) .


3

나는 마침내 그것을 알아 냈습니다. 통계 모델 피팅과 기계 학습의 차이점을 알았습니다.

  • 모형 (회귀)에 적합하면 통계 모형 적합입니다
  • 모형을 배우면 (회귀) 이것이 기계 학습입니다

따라서 로지스틱 회귀를 배우면 기계 학습 알고리즘입니다.

논평 : 오래된 괴짜가 된 것을 용서해주십시오. 그러나 사람들이 모델을 배우거나 회귀를 배우는 것에 대해 이야기하는 것을들을 때마다, 저는 Jethro가 "교육을 배웠습니다"라고 생각하게합니다.

실의 끝


??? 물류 모델도 배울 수 있습니다. 무슨 소리 죠?
SmallChess

1
@Student T는 물류 모델에 적합하면 통계 모델에 적합합니다. 물류 모델을 배우면 기계 학습입니다. 즉, 실제로 다른 분야에서 사용되는 용어의 문제입니다. 다른 분야 (통계 및 기계 학습)에 의해 동일한 것을 다른 것으로 부를 수 있습니다.
Mark L. Stone

0

로지스틱 회귀 (및 일반적으로 GLM)는 기계 학습에 속하지 않습니다 ! 오히려 이러한 방법은 파라 메트릭 모델링에 속합니다 .

파라 메트릭알고리즘 (ML) 모델 모두 데이터를 사용하지만 다른 방식으로 사용합니다. 알고리즘 모델은 예측 변수가 예측 변수에 어떻게 매핑되는지 데이터에서 학습하지만 관측치를 생성 한 프로세스 (실제로는 다른 가정)에 대해서는 가정하지 않습니다. 그들은 입력 변수와 출력 변수 사이의 기본 관계가 복잡하고 알려지지 않았기 때문에 공식적인 방정식을 부과하기보다는 진행 상황을 이해하기 위해 데이터 기반 접근 방식을 채택합니다.

반면에, 파라 메트릭 모델은 연구 된 프로세스에 대한 지식을 바탕으로 선험적 으로 처방 되고 , 데이터를 사용하여 매개 변수를 추정하고, 실제로 거의 유지되지 않는 많은 비현실적인 가정을 만듭니다 (예 : 독립성, 등분 산 및 오류의 정규 분포).

또한 로지스틱 회귀와 같은 파라 메트릭 모델은 전역 모델입니다. 트리를 기본 모델로 사용하는 ML 방법 (예 : RF 또는 부스트 트리)과 달리 데이터에서 로컬 패턴을 캡처 할 수 없습니다. 이 백서 5 페이지를 참조하십시오. 수정 전략으로 로컬 (예 : 비모수 적) GLM을 사용할 수 있습니다 (예 :로 케이트 R 패키지 참조).

기본 현상에 대한 지식이 거의없는 경우 데이터 기반 접근 방식을 채택하고 알고리즘 모델링을 사용하는 것이 좋습니다. 예를 들어 입력 변수와 출력 변수 사이의 상호 작용이 선형이 아닌 경우 로지스틱 회귀를 사용하면 모델이 명확하게 부적절하고 많은 신호가 캡처되지 않습니다. 그러나 공정이 잘 이해되면 파라 메트릭 모델은 모든 것을 요약하는 공식 방정식을 제공 할 수 있다는 장점이 있으며 이론적 인 관점에서 강력합니다.

자세한 내용 은 Leo Breiman 의이 훌륭한 논문 을 읽으십시오 .


4
로지스틱 회귀를 이해하는 데 시간을 내십시오. 분배 가정을 전혀 만들지 않습니다. ML이 만든 것과 동일한 종류의 독립성 가정을합니다. ML에는 로지스틱 회귀보다 훨씬 큰 표본 크기가 필요합니다. 예를 들어, 랜덤 포레스트 및 SVM은 후보 피처 당 200 개의 이벤트가 안정적이어야하는 반면 로지스틱 회귀에는 일반적으로 후보 변수 당 200 개의 이벤트가 필요합니다.
Frank Harrell

2
당신은 로지스틱 회귀 분석을 이해하는 데 시간이 걸릴한다! 링크가 로짓 함수 인 일반 선형 모형입니다. 파라 메트릭입니다. 관측치가 IID라고 가정합니다. 또한 비선형 관계를 캡처하여 행운을 빕니다. 또한, 문장의 두 번째 부분은 무엇을 의미합니까? 나에게 기능은 변수 (?)입니다.
Antoine

5
이 주제에 관한 좋은 책들이 많이 있으며 진행하기 전에 참고할 것을 권장합니다. 로지스틱 회귀 분석은 동일한 분포를 가정하지 않으며 사실상 전혀 분포를 가정하지 않습니다. ML에서 상관 관계 구조를 고려하는 방법을 보여줄 수 없다면 두 방법 모두 독립성을 가정합니다. 로지스틱 회귀 분석에서 선형성 가정을 완화하기 위해 1982 년 이후 회귀 스플라인이 사용되었습니다. 이 논의의 경우, 스플라인으로 확장되지 않는 한 feature = variable입니다.
Frank Harrell

5
Breiman은 일을 잘 이해했습니다. 그는 1982 년 이후 로지스틱 회귀 분석에서 벌어진 최대 우도 추정, 회귀 스플라인 및 데이터 축소 방법과의 조합을 다루지 않았습니다. 로지스틱 회귀 분석에 대한 유일한 심각한 제한은 다른 방법과 마찬가지로 상호 작용을 검색하고 미리 지정되지 않은 경우 올바른 상호 작용을 찾는 데 좋지 않다는 것입니다. 이를 수행 할 수 있다고 주장하는 대부분의 방법은 복제 가능한 결과를 초래하지 않습니다. 또한 Breiman은 가짜 모델로 최적화 할 수있는 부적절한 정확도 점수를 사용했습니다.
Frank Harrell

3
@Antoine : "물류 회귀가 ML과 근본적으로 다른 이유". ML의 일부 방법 (대부분 SVM)은 로지스틱 회귀와 매우 관련이 있습니다. 여러 상호 작용을 제외하고 Frank는 비선형 성 및 벌칙에 대한 로지스틱 등록을 통해 SVM 및 기타 ML 방법과 매우 유사한 결과를 제공합니다. 일부 논문에서는 로지스틱 회귀 분석을 부정적으로 프레임 화하기 위해 stat101 로지스틱 모델과 ML 방법을 기반으로 성능 개선을 인용하는 방법에 대해 계속 놀랐습니다.
Thomas Speidel

-1

다른 답변은 머신 러닝이 무엇인지 식별하는 데 좋은 역할을한다고 생각합니다 (표시 된 바와 같이 퍼지 일 수 있음). Logistic Regression (그리고 그보다 일반적인 다항식 버전)은 인공 신경망에서 분류를 수행하는 수단으로 매우 일반적으로 사용된다는 것을 덧붙일 것입니다. 신경망 사람에 대한 로지스틱 회귀 분석은 이러한 맥락에서 즉시 생각할 수 있습니다. 머신 러닝에서 많은 타자들과 연결되는 것은 머신 러닝 기술이되는 좋은 방법이며, 어느 정도까지는 다양한 회귀 기술에서 일어난 일이라고 생각합니다. 그 자체로.


로지스틱 회귀는 분류자가 아니라 직접 확률 추정 방법입니다.
Frank Harrell

하렐 박사의 요점에 대한 자세한 내용은 여기 내 게시물을 참조하십시오. stats.stackexchange.com/questions/127042/…
Sycorax는 Monica Reinstate Monica가

@FrankHarrell 또한 분류 확률을 사용할 수 있으므로 실제로 분류 기준입니다.
SmallChess

@ StudentT4 더 잘못 될 수 없습니다. 직접 확률 추정 기인 경우 물류 모델의 최종 결과를 사용하는 방법은 전적으로 사용자에게 달려 있습니다. 당신의 논리에 의해 표본 평균은 분류기입니다.
Frank Harrell

-1

"반복적 인"절차는 머신 러닝의 경우로 간주 될 수 있습니다. 회귀는 기계 학습으로 간주 될 수 있습니다. 손으로 할 수도 있지만 가능하다면 시간이 오래 걸릴 것입니다. 이제 우리는 이러한 프로그램, 기계를 가지고 있습니다. 솔루션에 가까워 지거나 최적의 솔루션에 가장 적합합니다. 따라서 "기계 학습". 물론 신경망과 같은 것들이 기계 학습과 관련하여 대부분의 관심을 끌기 때문에 우리는 일반적으로 기계 학습을 이러한 섹시한 절차에 연결합니다. 또한 "감독 된"과 "비 감독 된"머신 러닝의 차이점은 여기서 관련이 있습니다.


-2

대부분의 사람들이하는 매우 일반적인 실수이며 여기에서도 볼 수 있습니다 (거의 모든 사람이 수행함). 로지스틱 회귀 및 선형 회귀 모델은 모두 기계 학습 기술뿐만 아니라 파라 메트릭 모델입니다. 모델 모수 (세타)를 추정하는 데 사용하는 방법에 따라 다릅니다. 선형 회귀 및 로지스틱 등록에서 모형 모수를 찾는 두 가지 방법이 있습니다.

  1. 그라디언트 하강 기법 : 여기서는 임의의 값을 매개 변수에 할당하고 비용 함수 (오류)를 찾는 것으로 시작합니다. 각 반복에서 매개 변수를 업데이트하고 비용 함수를 최소화합니다. 특정 반복 횟수 후에 비용 함수가 원하는 값으로 감소하고 해당 매개 변수 값이 최종 값입니다. 이것이 머신 러닝 기술이해야 할 일입니다. 따라서 Gradient Descent 기술을 사용하는 경우 로지스틱 회귀는 기계 학습 기술로 호출 할 수 있습니다.

  2. 최소 제곱 법 (Least Square Method) 을 사용함으로써 : 여기에 정규 방정식으로 알려진 매개 변수 (이 공식의 도출을 이해하기 위해 일부 행렬 대수가 필요함)를 찾기위한 직접 공식이 있습니다. 최소 제곱 법

여기서 b는 매개 변수 X가 디자인 매트릭스임을 나타냅니다. 두 방법 모두 고유 한 장점과 한계가 있습니다. 자세한 내용을 알아 보려면 코스 러 머신 러닝 과정을 계속 진행하십시오.

이 게시물이 도움이되기를 바랍니다 .. :-)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.