데이터 마이닝과 통계 분석의 차이점은 무엇입니까?


19

데이터 마이닝과 통계 분석의 차이점은 무엇입니까?

어떤 배경에서는 통계 교육이 다소 전통적이라고 생각합니다. 특정 질문이 제기되고 연구가 설계되며 데이터가 수집 및 분석되어 해당 질문에 대한 통찰력을 제공합니다. 결과적으로, 나는 항상 "데이터 준설 (data dredging)", 즉 큰 데이터 세트에서 패턴을 찾고 이러한 패턴을 사용하여 결론을 도출하는 것에 대해 회의적이었습니다. 나는 후자를 데이터 마이닝과 연관시키는 경향이 있으며 (알고리즘 변수 선택 루틴과 같은 것들과 함께) 항상 다소 원칙적이라고 생각했습니다.

그럼에도 불구하고 데이터 마이닝에 대한 문헌이 크게 증가하고 있습니다. 종종이 레이블은 클러스터링, 트리 기반 분류 등과 같은 특정 기술을 참조하는 것으로 보입니다. 그러나 적어도 제 관점에서 볼 때 이러한 기술은 데이터 집합에서 "느슨하게 설정"되거나 구조적 방식으로 사용될 수 있습니다. 질문. 전 데이터 마이닝과 후자를 통계 분석이라고합니다.

나는 학업 관리에서 일하고 문제와 기회를 식별하기 위해 "데이터 마이닝"을 수행하도록 요청 받았습니다. 나의 배경과 일치하게, 나의 첫 번째 질문은 무엇을 배우고 싶고 당신이 이슈에 기여한다고 생각하는 것들은 무엇입니까? 그들의 답변으로부터, 저와 그 질문을하는 사람은 데이터 마이닝의 본질과 가치에 대해 다른 아이디어를 가지고 있음이 분명했습니다.



3
중복되면 데이터 마이닝과 기계 학습이 같은 것으로 추측 할 수 있습니다!
George Dontas

@George Dontas 그래, ML과 데이터 마이닝 사이에 차이가 있다는 것을 희망하는 다른 질문이 있다면 의견의 링크에서 여기에 왔습니다.
DJG

답변:


20

Jerome Friedman은 얼마 전에 논문을 썼습니다 : 데이터 마이닝 및 통계 : 연결이란? 흥미로울 것 같습니다.

데이터 마이닝은 상업적으로 큰 관심사였으며 비즈니스 요구에 의해 주도되었습니다 (벤더가 소프트웨어 및 하드웨어 시스템을 비즈니스에 판매해야하는 "필요"). Friedman이 지적한 한 가지는 신경망과 같은 알고리즘 및 방법에서 GUI 중심의 데이터 분석에 이르기까지 통계 외부에서 발생하는 모든 "기능"이 통계에 근거한 것이며 기존의 통계적 오퍼링 중 어느 것도 이러한 시스템의 일부가 아닌 것으로 보입니다 (회귀, 가설 검정 등). "우리의 핵심 방법론은 크게 무시되었습니다." 또한 사용자가 메모 한 내용에 따라 사용자를 대상으로 판매되었습니다. 여기에 내 데이터가 있고 여기에 "비즈니스 질문"이 있습니다.

프리드먼이 도발하려했다고 생각합니다. 그는 데이터 마이닝이 방법론과 관련하여 심각한 지적 토대를 가지고 있다고 생각하지는 않았지만, 이것이 변경 될 것이며 통계 학자들은 그것을 무시하지 않고 일부 역할을 수행해야한다고 생각했습니다.

내 자신의 인상은 이것이 다소 일어났다는 것입니다. 선이 흐려졌습니다. 통계학자는 이제 데이터 마이닝 저널에 게시합니다. 요즘의 데이터 마이너에는 일종의 통계 훈련이있는 것 같습니다. 데이터 마이닝 패키지는 여전히 일반화 된 선형 모델을 과대 평가하지 않지만 로지스틱 회귀 분석은 클러스터링 및 신경망 외에도 분석가들에게 잘 알려져 있습니다. 최적의 실험 설계는 데이터 마이닝 코어의 일부가 아니지만 소프트웨어를 동축하여 p- 값을 추출 할 수 있습니다. 진행!


1
이것은 훌륭한 논문이며 데이터 마이닝이 무엇이며 통계와 어떻게 다른지에 대한 나의 관점과 일치합니다. 문제는 1997 년부터입니다! 논문 또는 귀하의 권장 사항에 대한 기소를 확인하지만 데이터 마이닝에 대한 정도를 유지하십시오. 따라 잡기 위해 데이터 마이닝에 대한 최신 책을 가져와야 할 것 같습니다.
Brett

Heh, 나는 시간 범위를 알아내는 것이 재미있을 것이라고 생각했기 때문에 날짜를 의도적으로 유지했습니다. :) 마이클 베리 (Michael Berry)와 고든 리노 프 (Gordon Linoff)의 저서들은 통계 전문가들에게 호소력을 발휘할 것입니다 (통계 기법을 배우기보다 폭 넓은 노출을 위해). SAS의 Enterprise Miner 또는 SPSS의 Clementine과 같은 공급 업체 제품에 대한 책을 훑어 보는 것이이 분야의 희미한 "기업"측면에 대한 감각을 원한다면 도움이 될 것입니다. 제품 자체로 작업하지 않는 한 구입하지 않는 것이 좋습니다.
ars

10

통계와 데이터 마이닝의 차이는 통계와 컴퓨터 과학과 같은 다른 전통에서 비롯 되었기 때문에 주로 역사적인 것입니다. 인공 지능 및 통계 분야에서 데이터 마이닝이 작업과 병행하여 증가했습니다.

Witten & Frank의 섹션 1.4 는 내 견해를 요약하여 길게 인용하겠습니다.

머신 러닝과 통계의 차이점은 무엇입니까? Cynics는이 분야에서 상업적인 관심이 급증하고 과대 광고를보고 데이터 마이닝을 통계와 마케팅에 동일시했습니다. 사실, 머신 러닝과 통계 사이의 구분선을 찾지 말아야합니다. 데이터 분석 기술에는 연속체와 다차원적인 것이 있기 때문입니다. 일부는 표준 통계 과정에서 가르치는 기술에서 파생되고 다른 일부는 컴퓨터 과학에서 발생하는 일종의 기계 학습과 더 밀접한 관련이 있습니다. 역사적으로 양측은 전통이 다소 다릅니다. 강조의 단 하나의 차이점을 지적하도록 강요된다면 통계가 가설 검정과 관련이있을 수 있습니다.

과거에는 머신 러닝과 통계에서 매우 유사한 방법이 병행하여 개발되었습니다 ...

그러나 이제 두 가지 관점이 수렴되었습니다.

NB1 IMO, 데이터 마이닝 및 기계 학습은 매우 밀접한 관련 용어입니다. 어떤 의미에서 머신 러닝 기술은 데이터 마이닝에 사용됩니다. 나는이 용어들을 서로 교환 할 수있는 것으로 정기적으로보고, 다른 한, 그들은 보통 함께 간다. 나는 "The Two Cultures"논문 과 내 원래 질문의 다른 스레드를 살펴볼 것을 제안 합니다.

NB2 용어 "데이터 마이닝"은 구어 적으로 사용될 때 개념적 이해없이 일부 알고리즘이 데이터를 느슨하게하는 것을 의미하는 부정적인 의미를 가질 수 있습니다. 데이터 마이닝은 잘못된 결과와 과적 합으로 이어질 수 있습니다. 나는 일반적으로 비전문가와 대화 할 때이 용어를 사용하지 않고 대신 기계 학습이나 통계 학습을 동의어로 사용합니다.


NB2 정보-데이터 마이닝의 의미에 대해 정확히 맞다고 생각하며 머신 러닝과 관련이 없습니다. 저의 훈련은 항상 과적 합, 허구 및 기회를 활용하는 문제를 강조했습니다. 그래서 DM에 대해 회의적이었습니다. 감사.
Brett

1
ML / DM의 차이점은 DM이 더 넓다고 생각하는 것입니다. 예를 들어 OLAP 및 관련 도구에는 마이닝 기술이 포함됩니다. 그러나 이들은 기계 학습이 아닌 컴퓨터 과학의 데이터베이스 측면에서 나옵니다. 데이터 마이닝의 "의미"를 형성하는 데있어 상거래의 역할은 무시하기 어렵습니다. 경영 과학, 운영 연구, 기계 학습 및 통계의 요소를 필요에 따라 가져옵니다. 그것은 또한 어렴풋한 느낌을 주지만, 실무자가 아닌 순수 주의자들에게는 일반적으로 문제가됩니다.
ars

@ars : 동의합니다. 나는 "머신 러닝 기술이 데이터 마이닝에 사용된다"고 말함으로써 약간의 말을하려고했다. 상용 응용 프로그램에 대한 귀하의 요점도 주목됩니다. 오늘날 상용 응용 프로그램의 누군가가 자신의 작업을 다른 것으로 언급 할 수도 있습니다 (예 : "데이터 과학").
Shane

맞아, 나는 당신이 쓴 것에 실제로 떨리는 것이 아니라 차이점을 살려내려고 노력하고 있다고 말 했어야했다. 오해에 대한 사과드립니다. "데이터 과학"의 채택과 같은 변화하는 시간과 용어에 대한 좋은 지적. Gelman의 저서 중 하나가 "통계는 데이터 과학이다"와 같은 것으로 시작하지 않습니까? "그들은"통계 학자로부터 훔친 것입니다. 다시. :)
ars

8

데이터 마이닝은 설명 또는 예측으로 분류됩니다. 기술적 인 데이터 마이닝은 방대한 데이터 세트를 검색하고 데이터에서 예기치 않은 구조 또는 관계, 패턴, 추세, 클러스터 및 특이 치의 위치를 ​​발견하는 것입니다. 반면, Predictive는 회귀, 분류, 패턴 인식 또는 기계 학습 작업을위한 모델과 절차를 구축하고 새로운 데이터에 적용될 때 해당 모델과 절차의 예측 정확도를 평가하는 것입니다.

고차원 데이터에서 패턴 또는 구조를 검색하는 데 사용되는 메커니즘은 수동 또는 자동화 일 수 있습니다. 검색에는 데이터베이스 관리 시스템을 대화식으로 쿼리해야하거나 시각화 소프트웨어를 사용하여 데이터에서 이상을 발견해야 할 수도 있습니다. 머신 러닝 용어에서는 설명 데이터 마이닝을 비지도 학습이라고하며 예측 데이터 마이닝은지도 학습이라고합니다.

데이터 마이닝에 사용되는 대부분의 방법은 통계 및 기계 학습에서 개발 된 방법과 관련이 있습니다. 이러한 방법 중 가장 중요한 것은 회귀, 분류, 클러스터링 및 시각화에 대한 일반적인 주제입니다. 데이터 세트의 거대한 크기로 인해, 데이터 마이닝의 많은 응용은 차원 축소 기술 (예를 들어, 가변 선택) 및 고차원 데이터가 저 차원 초평면에 놓여있는 것으로 의심되는 상황에 중점을 둡니다. 최근에는 비선형 표면 또는 매니 폴드에있는 고차원 데이터를 식별하는 방법에주의를 기울였습니다.

통계적 추론 ( 고전적인 의미에서)이 의미가 없거나 모호한 유효성 일 때 데이터 마이닝의 상황도 있습니다 . 전자는 전체 모집단 이 답을 검색 할 때 발생하고 후자는 데이터 세트가 많은 인구 집단에서 추출한 무작위 표본이 아닌“편의성”표본. 시간을 통해 데이터를 수집 할 때 (예 : 소매 거래, 주식 시장 거래, 환자 기록, 날씨 기록) 샘플링도 의미가 없을 수 있습니다. 관측의 시간 순서는 데이터를 생성하는 현상을 이해하는 데 중요하며, 높은 상관 관계가있을 때 관측치를 독립적으로 취급하면 편향된 결과를 제공합니다.

데이터 마이닝의 핵심 구성 요소는 통계 이론 및 방법 외에도 컴퓨팅 및 계산 효율성, 자동 데이터 처리, 동적 및 대화식 데이터 시각화 기술 및 알고리즘 개발입니다.

데이터 마이닝에서 가장 중요한 문제 중 하나는 확장 성의 계산 문제입니다 . 표준 탐색 및 확인 통계적 방법을 계산하기 위해 개발 된 알고리즘은 중소 규모의 데이터 세트에 적용될 때 빠르고 계산적으로 효율적으로 설계되었습니다. 그러나 이러한 알고리즘의 대부분은 거대한 데이터 세트를 처리해야하는 문제에 해당되지 않는 것으로 나타났습니다. 데이터 세트가 커짐에 따라 기존의 많은 알고리즘에서 속도가 크게 느려지거나 중단되는 경향이 있습니다.


8

데이터 마이닝은 약간의 차이가있는 통계입니다. 통계 학자들은 좀 이상하기 때문에 리 브랜딩 통계로 생각할 수 있습니다.

그것은 종종 컴퓨터로 할 수있는 것들과 같은 계산 통계와 관련이 있습니다.

데이터 마이너 는 다변량 통계의 상당 부분을 훔쳐 자체 통계라고합니다. 1990 년대 다변량 책의 목차를 확인하여 새로운 데이터 마이닝 책과 비교하십시오. 굉장히 유사한.

통계는 가설 테스트 및 모델 구축과 관련이 있지만 데이터 마이닝은 이해 가능한 모델이 있는지 여부에 관계없이 예측 및 분류와 더 관련이 있습니다.


1
중복은 무엇입니까? 나는 명백한 것을 볼 수 없습니다.
Rob Hyndman

1
내가 생각했던 이것과 매우 비슷합니다 : stats.stackexchange.com/questions/6/…
Neil McGuigan

1
확인. 머신 러닝이 아닌 데이터 마이닝을 찾고있었습니다. 중복이라고 생각되면 종료하여 투표하십시오.
Rob Hyndman

흠, 그래서 데이터 마이닝 == 머신 러닝?
ars

1
1) comp 통계 차이가 보이지 않습니다. 컴퓨터를 필요로하지 않는 통계학자는 그다지 많지 않습니다. 반복 솔루션과 같은 계산 집약적 인 절차를 의미한다고 가정합니까? 그러나 이는 데이터 마이닝이 아닌 현대 통계 작업에서도 일반적입니다. 2) 내 자신의 (통계) 작업에서 문제에 따라 설명과 예측을위한 모델 작성에 관심이 있었지만 데이터 마이닝을 고려하지 않았습니다. 3) 나는 현대 DM이 통계의 특정 응용 프로그램이라는 결론에 남았습니다. 나는 훌륭한 결론이라고 생각합니다.
Brett

6

나는 이전에 데이터 마이닝과 심리학을 비교하는 몇 가지 관찰을 한 게시물을 썼습니다. 이러한 관찰 결과는 식별 한 차이점 중 일부를 포착 할 수 있다고 생각합니다.

  1. "데이터 마이닝은 잠재 변수의 인과 시스템을 이해하는 것보다 관측 변수를 사용한 예측에 더 관심이있는 것 같습니다. 심리학은 일반적으로 잠재 변수의 인과 시스템에 더 관심이 있습니다.
  2. 데이터 마이닝에는 일반적으로 데이터 마이닝 이외의 목적으로 수집 된 대규모 데이터 세트 (예 : 10,000 + 행)가 포함됩니다. 심리학 적 데이터 세트는 일반적으로 작고 (예를 들어, 1,000 또는 100 행 미만) 연구 문제를 탐색하기 위해 명시 적으로 수집됩니다.
  3. 심리학 적 분석에는 일반적으로 특정 모델 테스트가 포함됩니다. 자동화 된 모델 개발 방법은 이론적으로 흥미롭지 않은 경향이 있습니다. "- 데이터 마이닝 및 R

포인트 2와 3은 유용한 의견이며 두 SA와 DM의 구별로 보는 것과 일치한다고 생각합니다. 첫 번째 요점에 대해 잘 모르겠습니다. 인과 관계에 대한 이해를 높이는 데 관심이있는 통계 작업을 수행했습니다. 그러나 나는 예측의 목적으로 알려진 관계를 취하고 모델을 개발하는 것이 아니라 "데이터 마이닝"의 다른 기능과는 다른 통계 작업을 수행했습니다.
Brett

4

나는 당신이 구별하는 것이 실제로 데이터 마이닝과 통계 분석의 차이와 관련이 있다고 생각하지 않습니다. 탐색 적 분석과 모델링 예측 방식의 차이점에 대해 이야기하고 있습니다.

통계의 전통은 탐색 적 분석, 모델링, 추정, 테스트, 예측 / 침입 등 모든 단계에서 구축된다고 생각합니다. 통계학자는 탐색 분석을 수행하여 데이터가 어떻게 보이는지 파악합니다 (R!의 기능 요약) 데이터 마이닝이 덜 구조화되어 탐색 분석으로 식별 될 수 있다고 생각합니다. 그러나 추정, 예측, 분류 등의 통계 기술을 사용합니다.


나는 그것을 구입할 수 있습니다. 데이터 마이닝은 통계적 기법을보다 탐색 적으로 적용하는 것입니다. 그러나 나는 구별이 충분하다고 생각하지 않습니다. 설계된 실험에서 얻은 100 개의 관측치에 대해 EDA를 수행 할 때 아무도 데이터 마이닝이라고 부를 것 같지 않습니까?
Brett
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.