누가 의사 결정 트리를 발명 했습니까?


24

의사 결정 트리 데이터 구조와 알고리즘을 누가 발명했는지 추적하려고합니다.

의사 결정 트리 학습관한 Wikipedia 항목 에는 "ID3과 CART가 거의 동시에 (1970 년에서 1980 년 사이) 독립적으로 발명되었다"는 주장이 있습니다. ID3은 나중에 다음과 같이 제시되었습니다.

  • Quinlan, JR 1986. 의사 결정 나무의 유도. 마하 배우다. 1, 1 (1986 년 3 월), 81-106

주장이 사실인지 잘 모르겠습니다.

Google 도서를 사용하여 1959 권의 통계 결정 시리즈 와 1958 년 작업 논문 모음에 대한 참조를 찾았습니다 . 상황이 명확하지 않으며 알고리즘을 제시하지 않는 것 같습니다. 그러나 데이터 구조를 정의하지 않고 잘 알려진 것처럼 처리합니다.

Google Scholar를 사용하여 인용이 1853 년으로 거슬러 올라간 것을 발견했지만이 날짜의 실제 인용이 아닌 파싱 오류입니다.


9
CART에 대한 큰 언급은 Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)확실하지만 초기는 아닙니다. 위스콘신 대학교의 Wei-Yin Loh는 의사 결정 트리의 역사에 대해 썼습니다. 다음은 역사에 관한 논문슬라이드 입니다.
G5W

2
훌륭한 참조! 그는 첫 회귀 분석 트리는 1963 년 JN Morgan과 JA Sonquist (1963)에서 출판되었다고 말한다. 설문 조사 데이터의 분석 및 제안. 미국 통계 협회 저널, 58 : 415–434. 이 논문은 pdfs.semanticscholar.org/9577/…에 있으며 17 페이지에 나무가 있습니다. 여전히 데이터 구조가 1958 년보다 훨씬 더 빠른 것으로 보인다.
DaL

@ G5W, 답변으로 바꾸지 않겠습니까?
gung-복직 모니카

7
이 질문은 나에게 주제로 분명히 보인다. 나는 열린 채로 투표하고 있습니다.
gung-복직 모니카

큰 리드. 나는 그를 인터넷 검색하려고했지만 누가 올바른 사람인지 확실하지 않습니다. 당신은 참조를 제공 할 수 있습니까?
DaL

답변:


18

좋은 질문. @ G5W는 Wei-Yin Loh의 논문을 참조 할 때 올바른 길을 가고 있습니다. Loh의 논문 은 의사 결정 트리 의 통계적 선행사에 대해 논의하고 정확하게 판별 분석에 대한 Fisher의 논문 (1936) 논문으로 거슬러 올라갑니다. 본질적으로 여러 그룹을 종속 변수로 분류하는 회귀 분석을 통해 AID, THAID, CHAID 및 카트 모델.

짧은 대답은 1959 년까지 "결정 트리"접근 방식을 개발 한 첫 번째 기사와 윌리엄 벨슨 (William Belson) 연구원 이 생물학적 분류 원칙에 대한 일치 및 예측 이라는 제목의 논문 ( JRSS)에서 발견 한 것입니다. .., 시리즈 C, 응용 통계, 8 권, 제 2 호, 6 월, 1959, PP 65 ~ 75), 그의 추상적 인 중 하나로서 자신의 접근 방식을 설명 일치하는 인구 샘플과 그렇게 기준을 개발 :

이 기사에서 Belson 박사는 모집단 표본을 일치시키는 기술을 설명합니다. 이는 경험적으로 개발 된 예측 변수의 조합에 따라 사용 가능한 최상의 예측 또는 일치하는 합성을 제공합니다. 기본 원리는 다중 상관 방법에 내재 된 원리와는 상당히 다릅니다.

"긴"대답은 다른, 심지어 이전의 생각의 흐름이 여기에 관련이있는 것 같습니다. 예를 들어, 보험 계리사 사망률 표에 사용 된 간단한 연령 성별 코호트 집단은 몇 세기 전의 결정에 대해 생각할 수있는 틀을 제공합니다. 또한 바빌로니아 사람들을 대상으로 한 노력은 2 차 방정식을 사용했는데, 변수에 비선형 적이었다 (파라미터가 아닌 http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations). html )는 물류 성장의 매개 변수 모델을 추정하지 않는 한 관련성이 있습니다.의견이 있으시면 더 큰 동기 부여를 읽으십시오.) 또한, 철학자들은 계층 적으로 배열 된 질적 정보, 예를 들어 카테고리 에 대한 아리스토텔레스의 책의 존재에 대해 오랫동안 인식하고 이론화 해 왔습니다 . 계층 구조 의 개념과 가정 이 핵심입니다. David Hilbert의 무한한 Hilbert 개발에서 3D 유클리드 공간의 경계를 뛰어 넘는 다른 관련 발견이 훨씬 나중에 발견되었습니다.우주, 조합론, 4 차원 민코프 스키 공간, 거리 및 시간과 관련된 물리학 발견, 아인슈타인의 특수 상대성 이론 이론의 통계적 역학, 마르코프 체인 모델, 전이 및 공정 모델과 관련된 확률 이론의 혁신. 여기서 중요한 것은 이론과 그 적용 사이에 상당한 지연이있을 수 있다는 것입니다.이 경우 경험적 평가, 예측, 분류 및 모델링과 관련된 정 성적 정보 및 개발에 대한 이론 사이의 지연이 있습니다.

최선의 추측은 이러한 개발이 연속 (예를 들어, 명목 또는보다 단순한 범주 정보) 이외의 스케일 유형을 활용하는 모델을 개발할 때 데이터 모델 수를 계산할 때 주로 20 세기에 통계학 자의 정교함이 증가한 이력과 연관 될 수 있다는 것입니다. (포아송), 교차 분류 우발성 표, 분포가없는 비모수 통계, 다차원 스케일링 (예 : JG Carroll 등), 두 그룹 로지스틱 회귀 및 대응 분석 (대부분 네덜란드와 프랑스에서)과 같은 질적 종속 변수가있는 모형 70 년대와 80 년대).

두 그룹 로지스틱 회귀 분석과 두 그룹 판별 분석을 논의하고 비교하는 광범위한 문헌이 있으며, 완전히 명목상의 특징에 대해 동등한 솔루션을 제공하는 것으로 밝혀 졌습니다 (예 : Dillon and Goldstein 's Multivariate Analysis , 1984).

로지스틱 회귀 히스토리에 대한 JS Cramer의 기사 (로지스틱 회귀 히스토리 , http://papers.tinbergen.nl/02119.pdf )는 단 변량, 로지스틱 함수 또는 고전적인 S 자 곡선 의 개발에서 비롯된 것으로 설명합니다. :

물류 용어의 생존과 장치의 광범위한 적용은 소수의 학자들의 개인적인 역사와 개인적인 행동에 의해 결정적으로 결정되었습니다 ...

로지스틱 곡선의 결정 론적 모델은 Benjamin Gompertz ( https://en.wikipedia.org/wiki/Benjamin_Gompertz )가 최초의 진정한 비선형 로지스틱 모델을 개발하는 논문을 출판 했을 때인 1825 년에 시작되었습니다. 바빌로니아 인)-곰 퍼츠 모형과 곡선.

의사 결정 트리의 발명으로 이어지는이 체인의 또 다른 중요한 연결은 컬럼비아 사회 학자 Paul Lazarsfeld의 잠재 구조 모델에 대한 연구라고 제안합니다. 그의 작품은, 30 년대에 시작된 초기 OSS (요 Naisbett의 책에 설명 된대로 나중에 CIA는 독일어 신문의 자신의 콘텐츠를 분석 차 세계 대전 동안 계속 메가 트렌드 ) 마지막으로 1950 년 안데르센에 게시 이런 식으로 설명 ( 잠재 구조 분석 : 설문 조사 , Erling B. Andersen, Scandinavian Journal of Statistics , Vol.9, No. 1, 1982, pp. 1-12) :

잠복 구조 분석의 고전 이론의 기초는 1950 년 Paul Lazarsfeld에 의해 제 2 차 세계 대전 동안 미국 군인의 민족 중심주의에 대한 연구에서 개발되었습니다. Lazarsfeld는 주로 잠재 구조 모델의 개념 기반을 개발하는 데 관심이있었습니다 ... Lazarsfeld가 개발 한 통계적 방법은 오히려 원시적이었습니다 ... Columbia University의 Lazarsfeld 동료가 효율적인 추정 방법과 테스트 절차를 도출하기위한 초기 시도가 이루어졌습니다. , TW 앤더슨 사람 종이 (에 Psychometrika 월 1954 년 19 권, 1 호, PP 1-10 잠상 구조 분석 파라미터들의 추정에), 잠재 클래스 모델의 매개 변수에 대한 효율적인 추정 방법을 개발했습니다 ... 잠재 클래스 모델의 프레임 워크를 소개하기 위해 기본 개념을 간략하게 설명하고 Goodman이 훨씬 나중에 개발 한 표기법 시스템을 사용해야합니다 (1974a) ... 데이터는 다중 비상 대표 형식으로 제공됩니다 ...

우발성 테이블 기반 모델 (모델의 모든 변수는 명목상 스케일링 됨)과 최신 잠재 클래스 모델 (더보기) 사이의 AID에서 CHAID (나중에 CART) 로의 진행과 관련 될 수 있으므로 여기서 유용한 가치가 있습니다. 정확하게, 규모와 분포의 "혼합물"을 기반으로 한 유한 혼합물 모델 (예 : Kamakura and Russell, 1989, 시장 세분화 및 탄력성 구조를위한 확률 론적 선택 모델)) 모델 잔차를 만드는 방법. 더 오래된 우발성 테이블 모델의 경우, 완전히 교차 분류 된 테이블에 내재 된 셀 수는 "복제"의 기초를 형성하므로 클래스로 분할하는 데 사용되는 모델 잔차의 이질성입니다. 한편, 가장 최근의 혼합 모형은 잔차의 이질성을 분할하기위한 기초로서 단일 대상에 대한 반복 측정에 의존한다. 이 답변은 아닙니다잠재 클래스 모델과 의사 결정 트리 간의 직접적인 연결을 제안합니다. AID 및 CHAID와의 관련성은 모델을 평가하는 데 사용 된 통계에 요약 할 수 있으며 AID는 연속 F 분포를 사용하고 CHAID는 범주 정보에 적합한 카이-제곱 분포를 사용합니다. 우연히 LCM은 우연히 표를 분석하고 모델링하는 것보다 퍼즐 트리 또는 이야기의 중요한 부분을 결정 트리의 개발과 이미 언급 한 다른 많은 혁신으로 구성합니다.

CHAID는 CHAID에이 위키 조각에 설명 된대로 첫째 남아프리카 고든 카스에 의해 1980 년 박사 학위 논문에서 제안 된 이후 개발했다 ( https://en.wikipedia.org/wiki/CHAID ). 물론, CART는 몇 년 후 80 년대에 Breiman과 함께 유명한 책 Classification and Regression Trees 와 함께 나왔습니다 .

AID, CHAID 및 CART는 모두 트리 형태의 계층 적으로 배열 된 구조를 현실의 최적 표현으로 배치합니다. 그들은 다른 알고리즘과 방법을 사용 하여이 문제를 해결합니다. 저에게이 진보적 인 혁신 사슬의 다음 단계는 계층 적 구조 이론의 출현입니다. 이 Wiki 기사에 정의 된대로 계층 구조는 "조직의 요소가 순위가 매겨지지 않은 (계층 구조가 아닌) 여러 가지 방법으로 순위가 매겨 질 수있는 조직 시스템"( https : //en.wikipedia .org / wiki / 계층 구조 또는 계층 구조 에 대한보다 심층적이고 철학적 인 관점은 Kontopoulos, 사회 구조의 논리를 참조하십시오.). 경험적 관점에서, 네트워크 구조의 분석 및 모델링은 구조를 이해함에있어이 역사적 발전을 가장 대표합니다 (예 : Freeman의 저서 The Social of Network Network Analysis ). 많은 네트워크 분석가가 결과 네트워크에서 계층 적 배열을 시도 할 것이지만 이는 복잡한 세계에서 멀티 플렉스 네트워크 구조의 경험적 현실에 대한 진술보다 더 깊이 있고 무의식적 인 가정의 표현입니다.

이 응답은 의사 결정 트리의 개발로 이어지는 진화의 아크가 프로세스의 각 단계 또는 단계에서 기존의 "최첨단"방법에 대해 새로운 의문을 제기하거나 새로운 솔루션과 새로운 모델을 요구한다는 것을 시사합니다. 이 경우, 두 그룹을 모델링 (로지스틱 회귀)하고 그 프레임 워크를 두 개 이상의 그룹으로 확장해야한다는 인식으로 인해 불만족을 볼 수 있습니다. 비정규, 분포가없는 가정 및 모델 (예 : CHAID 및 CART)을 사용할 때 발견되는 상대적인 "자유"와 비교할뿐만 아니라 기본 정규 분포 (차별 분석 또는 AID)에 대한 대표적 가정이없는 불만.

제안 된 바와 같이, 의사 결정 트리의 기원은 거의 확실히 수세기 전으로 거슬러 올라가 지리적으로 분산 된 오랜 역사를 가지고 있습니다. 인류 역사, 과학, 철학 및 사고의 여러 흐름은 오늘날의 현존하는 다양한 의사 결정 트리의 개발로 이어지는 이야기를 요약하는 것으로 추적 될 수 있습니다. 이 역사에 대한 간단한 스케치의 중요한 한계를 가장 먼저 인정할 것입니다.

/ ** 부록 ** /

  1. 새로운 과학자 의이 2014 기사 제목은 왜 우리는 지식을 나무로 조직하는 것을 좋아합니까? ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), 데이터 시각화 전문가 인 Manuel Lima의 저서 The Book of 나무 는 지식에 대한 시각화 및 니모닉 지원으로 밀레니아의 오래된 나무 사용 을 추적합니다. 의문의 여지가 없지만 AID, CHAID 및 CART와 같은 방법에 내재 된 세속적이고 경험적인 모델과 그래픽은 원래 종교적 분류 전통의 진화를 나타냅니다.

  2. 이 비디오 (CART 소프트웨어 구현자인 Salford Systems가 온라인으로 게시), Leo Breiman의 공물 인 Breiman은 CART 방법론으로 이어진 그의 사고의 발전에 대해 이야기합니다. 모든 것은 제 2 차 세계 대전 당시 전함의 실루엣으로 칠해진 벽으로 시작되었습니다.

https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. Denis Konig의 1936 년 유한 및 무한 그래프 이론 (Theory of Finite and Infinite Graphs)에 대한 소개를 읽을 때 , 이전에는 어린이를위한 오락과 퍼즐의 원천으로 여겨지는 분야에 대한 최초의 엄밀한 수학적 접지를 제공하는 것으로 널리 알려져있다 (Tutte notes (p. 13)). Konig의 저서 4 장 (62 페이지부터 시작)은 그래프 이론에서 나무에 전념합니다. Konig의 트리 정의에 대한 Tutte의 설명은 "비순환"그래프는 회로가없는 그래프이고, 트리는 유한 연결된 비순환 그래프입니다. 즉, 트리에는 경로가 하나뿐입니다. 저에게 정점을주었습니다 ... "(저는 그래프 이론 가나 수학자도 아닙니다), 이것은 Poincare의 분석 Situs 또는 Veblen 에서 그래프 이론과 그 선구자를 제안합니다. ' 조합 토폴로지에 대한 강의는 나중에 통계 학자에게 주제가 된 것에 대한 초기 지적 및 수학적 전조를 제공했을 수도 있습니다.

  2. 지식 의 첫 번째 나무는 기원전 270 년경 에 은유 적 나무를 사용하여 지식을 설명하고 조직하는 논리에 대한 소개를 썼던 신 플라톤 철학자 반 (to)에 기인한다 . id = 3857

  3. 이 위키 기사 ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) 에서 논의 된 성서 창세기 의 지식 나무에 대한 훨씬 이전의 언급을 발견했습니다 . 창세기는 아마도이 참조에 근거하여 기원전 1,400 년으로 거슬러 올라갑니다. https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ 그럼에도 불구하고, 창세기는 몇 세기 전에 나왔습니다. 반암.


1
그것은 훌륭한 "이 역사의 간단한 스케치"입니다. 나는 뿌리가 50 년보다 더 깊어 야한다고 생각했지만 그들은 아리스토텔레스와 바빌론 사람들에게 갈 것이라고 생각하지 않았습니다. 메소드가 의사 결정 트리에 어떻게 더 가까이 다가 왔는지 잘 보여주었습니다. 나는 아직도 더 정확한 출현 지점을 그리워한다. 나는 당신이 구름이 다이어그램을보고 "글쎄, 그것은 결정 트리입니다"라고 말하는 오래된 책에 대한 참조를 찾고
싶었습니다.

1
나는 질문과 대답 중 일부에서 사용되는 명명법을 좋아하지 않습니다. CART는 이유로 분류 및 회귀 트리입니다. 위에서 언급 한 의사 결정 트리는 통계 분석을 포함하거나 포함하지 않을 수 있으며, 종종 데이터가 아닌 휴리스틱을 기반으로합니다. 원래 질문은 분류 트리 에 관한 것이 습니다.
Frank Harrell

16

CART에 대한 큰 참조는 다음과 같습니다.

분류 및 회귀 트리
Leo Breiman, Jerome Friedman, Charles J. Stone, RA Olshen (1984)

그러나 그것은 그 주제에 대한 최초의 작업이 아니 었습니다.

1986 년 논문 의 의사 결정 나무 유도 에서 Quinlan은 Hunt의 개념 학습 시스템 (CLS)을 ID3의 선구자로 식별합니다. 그는 CLS를 1963 년에 데이트했지만

EB 헌트, J.Marin, PJ Stone , 1966 년 뉴욕
유도
학술 출판 실험

위스콘신 대학교의 Wei-Yin Loh는 의사 결정 트리의 역사에 대해 썼습니다. 있다 용지

50 년의 분류 및 회귀 트리 Wei-Yin Loh International Statistical Review (2014), 82, 3, 329–348 doi : 10.1111 / insr.12016

그가 주제에 대해 이야기 한 슬라이드 데크 도 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.