데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?


208

데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?

그것들이 매우 비슷한 문제를 해결하려고 시도하지만 다른 접근법을 가진 4 개의 분야라고 말하는 것이 정확합니까? 그들은 정확히 무엇을 공통점이 있으며 어디에서 다른가? 그들 사이에 어떤 종류의 계층이 있다면, 그것은 무엇입니까?

이전에 비슷한 질문이 있었지만 여전히 얻지 못했습니다.

답변:


109

이들 사이에는 상당한 중복이 있지만 몇 가지 차이점이 있습니다. 필연적으로, 나는 어떤 것들을 지나치게 단순화하거나 다른 사람들에게 짧게 줄여야 할 것이지만, 나는 이러한 영역에 대한 감각을주기 위해 최선을 다할 것입니다.

첫째, 인공 지능 은 나머지와는 상당히 다릅니다. AI는 지능형 에이전트를 만드는 방법에 대한 연구입니다. 실제로는 지능형 에이전트 (예 : 사람)처럼 작업을 수행하고 작업을 수행하도록 컴퓨터를 프로그래밍하는 방법입니다. 이것은 학습이나 유도 가 전혀 필요 하지 않으며 단지 '더 나은 쥐덫을 만드는'방법 일 수 있습니다. 예를 들어 AI 응용 프로그램에는 진행중인 프로세스를 모니터링하고 제어하는 ​​프로그램이 포함되어 있습니다 (예 : 너무 낮 으면 A면을 높이십시오). 인공 지능은 기계가 '어리석게'하지 않는 한 기계가하는 거의 모든 것을 포함 할 수 있습니다 .

그러나 실제로 지능이 필요한 대부분의 작업에는 경험에서 새로운 지식을 유도 할 수있는 능력이 필요합니다. 따라서 인공 지능 내에서 넓은 영역은 기계 학습 입니다. 일부 성능 측정에 따르면, 컴퓨터 프로그램은 작업 성능이 경험에 따라 향상되면 경험으로부터 일부 작업을 학습한다고합니다. 기계 학습에는 정보를 자동으로 추출 할 수있는 (즉, 온라인 사람의 안내없이) 알고리즘 연구가 포함됩니다. 이러한 절차 중 일부에는 고전적인 통계에서 직접 도출되거나 영감을 얻은 아이디어가 포함되어 있지만 실제로는 그렇지 않습니다 .되려고. AI와 마찬가지로 머신 러닝은 매우 광범위하며 유도 성 구성 요소가있는 한 거의 모든 것을 포함 할 수 있습니다. 기계 학습 알고리즘의 예로 Kalman 필터가 있습니다.

데이터 마이닝 은 머신 러닝 (및 일부 통계에서도)에서 많은 영감과 기술을 얻은 영역이지만 다른 목적으로 사용됩니다 . 데이터 마이닝은에 의해 수행된다 사람 마음에 목표로, 특정 데이터 세트에, 특정 상황에서. 일반적으로이 사람은 머신 러닝에서 개발 된 다양한 패턴 인식 기술의 힘을 활용하려고합니다. 종종 데이터 세트가 방대 하고 복잡 하며 특별한 문제 가있을 수 있습니다.(예 : 관측치보다 많은 변수가 있음). 일반적으로 목표는 사전에 지식이 거의없는 영역에서 예비 통찰력을 발견 / 생성하거나 미래의 관측을 정확하게 예측하는 것입니다. 또한 데이터 마이닝 절차는 '감독되지 않음'(우리는 답을 알지 못함) 또는 '감독 됨'(우리는 답을 예측합니다) 일 수 있습니다. 목표는 일반적으로 기본 데이터 생성 프로세스에 대한보다 정교한 이해를 개발하는 것이 아닙니다 . 일반적인 데이터 마이닝 기술에는 군집 분석, 분류 및 회귀 트리 및 신경망이 포함됩니다.

이 사이트의 통계 가 무엇인지 설명하기 위해 많은 것을 말할 필요 는 없지만 아마도 몇 가지를 말할 수 있습니다. 고전 통계 (여기서는 잦은 주의자와 베이지안을 모두 의미 함)는 수학의 하위 주제입니다. 저는 이것이 확률에 대해 알고있는 것과 최적화에 대해 알고있는 것의 교차로 생각합니다. 수학적 통계는 단순히 플라톤의 탐구 대상으로 연구 될 수 있지만, 대부분 다른 희소 한 수학 영역보다 더 실용적이고 성격 적으로 적용되는 것으로 이해됩니다. 이와 같이 (특히 위의 데이터 마이닝과 달리) 특정 데이터 생성 프로세스를 더 잘 이해하는 데 주로 사용됩니다. 따라서 일반적으로 공식적으로 지정된 모델로 시작합니다.여기에는 노이즈 인스턴스에서 해당 모델을 정확하게 추출하고 (예 : 일부 손실 함수를 최적화하여 추정) 다른 가능성 (예 : 샘플링 분포의 알려진 특성을 기반으로 한 추론)과 모델을 구별 할 수있는 파생 된 절차가 있습니다. 프로토 타입 통계 기술은 회귀입니다.


1
나는 대부분의 게시물에 동의하지만 AI는 대부분 지능형 에이전트 (지능형이란 무엇입니까?)를 만들려고하지 않지만 합리적인 에이전트를 만들려고한다고 말합니다. 합리적으로 그것은 "세계에 대한 이용 가능한 지식이 주어지면 최적"을 의미한다. 물론 궁극적 인 목표는 일반적인 문제 해결사와 같은 것입니다.
kutschkem

3
죄송합니다, 여전히 데이터 마이닝과 기계 학습의 차이를 얻지 못합니다. 내가 본 것에서, 데이터 마이닝 = 기계 학습의 비지도 학습. 새로운 통찰력을 발견하는 데 기계 학습이 감독되지 않습니까?
dtc

익명의 사용자 가이 블로그 게시물 을 매개 변수별로 데이터 마이닝과 기계 학습의 차이점을 분석 한 표로 제안 했습니다 .
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.신경망 데이터 마이닝에 사용되는 머신 러닝을 위해 설계된 알고리즘이 아닌 클러스터 분석과 비교하여 데이터 마이닝에 사용되는 머신 러닝 도구의 예 라고 말하는 것이 안전 합니까?
t0mgs

실제로는 @ TomGranot-Scalosub와 같이 매우 모호합니다. 신경망은 확실히 ML이라고 말하고 ML 분석가는 확실히 클러스터 분석 및 CART를 연구합니다. 나는 아이디어를 좀 더 명확하고 독창적으로 만들려고 노력하지만 실제로는이 범주들 사이에 밝은 선이 없습니다.
gung

41

다른 많은 답변이 주요 요점을 다루었지만 계층 구조를 요청하면 계층 구조가 존재하는지, 내가 보는 방식을 묻습니다. 각 분야는 각자의 권한이지만 각 빌드 이후 아무도 언급하지 않은 계층 구조가 있습니다. 이전 것.

통계 는 숫자에 불과하며 데이터를 정량화합니다. 데이터의 관련 속성을 찾기위한 많은 도구가 있지만 이것은 순수한 수학과 매우 비슷합니다.

데이터 마이닝통계 및 기타 프로그래밍 방법을 사용하여 데이터에 숨겨진 패턴을 찾아서 현상을 설명 할 수 있습니다 . 데이터 마이닝은 일부 데이터에서 실제로 일어나는 일에 대한 직관을 구축하며 여전히 프로그래밍보다 수학에 조금 더 가깝지만 두 가지를 모두 사용합니다.

머신 러닝데이터 마이닝 기술 및 기타 학습 알고리즘을 사용하여 일부 데이터에서 발생하는 상황에 대한 모델을 구축하여 향후 결과를 예측할 수 있습니다. 수학은 많은 알고리즘의 기초이지만 프로그래밍에 대한 것입니다.

인공 지능머신 러닝 및 기타 방법으로 제작 된 모델을 사용 하여 세상 을 추리 하고 게임을하거나 로봇 / 자동차를 운전할 때 지능적인 행동을 유발합니다 . 인공 지능은 행동이 어떻게 세상 모델에 영향을 미칠지 예측하고 그 목표를 가장 잘 달성 할 행동을 선택함으로써 달성 할 목표가 있습니다. 매우 프로그래밍 기반.

한마디로

  • 통계는 숫자를 정량화 합니다
  • 데이터 마이닝은 패턴을 설명 합니다
  • 모델을 통한 머신 러닝 예측
  • 인공 지능의 동작이유

이제는 AI에만 해당되는 AI 문제와 다른 분야에서도 비슷하게 발생하지만 오늘날 흥미로운 대부분의 문제 (예 :자가 운전 차량)는 쉽고 정확하게 이들 모두라고 부를 수 있습니다. 이것이 당신이 요구 한 그들 사이의 관계를 정리하기를 바랍니다.


WEKA 또는 RapidMiner를 사용해 본 적이 있습니까? 예를 들어 EM은 데이터 마이닝 내에 있으며 모델을 적용합니다. 그 외에도 mariana soffer의 정의를 확인하고 답변과 비교하십시오. 몇 년 전, 주교와 러셀 / 노비 그를 읽었지만, 내가 데프를 기억하는 한. mariana soffer가 더 적합합니다. btw 데이터 마이닝은 지식 발견 이전의 주요 단계 ( "만")입니다. 데이터 마이닝은 적절한 매개 변수가있는 알고리즘을 사용할 때 데이터를 파악하고 정보를 얻는 것입니다. 데이터 마이닝은 패턴을 설명 할 수 없습니다.
니모닉

아니, @mnemonic, AI의 정의는 매우 일자 마리아나 년대에 비해 러셀과 노르 빅,에 맞춰 훨씬 더
nealmcb

2
통계에 대한 설명이 좋지 않다고 생각합니다. QuanfyFin 숫자는 통계청이보고 한 통계이지만 데이터에 대한 모델을 작성하고 매개 변수를 추정하고 추론하는 통계 과학과는 다릅니다. 또한 데이터 마이닝과 머신 러닝의 관계는 거꾸로되어 있습니다. 데이터 과학은 다른 방식이 아니라 기계 학습 기술을 사용합니다. Ken van Haren의 답변도 참조하십시오.
Richard Hardy

25
  • 통계 는 확률 모델, 특히 데이터를 사용하여 이러한 모델에 대한 유추와 관련됩니다.
  • 머신 러닝 은 일부 데이터가 주어지면 특정 결과를 예측하는 것과 관련이 있습니다. 거의 모든 합리적인 머신 러닝 방법은 공식적인 확률 론적 모델로 공식화 될 수 있으므로 머신 러닝은 통계와 거의 동일하지만 일반적으로 모수 추정치 (예측 만)에 신경 쓰지 않고 초점이 다르다는 점에서 다릅니다 계산 효율성과 큰 데이터 집합에 대해
  • 데이터 마이닝 은 기계 학습을 적용합니다. 또한 대규모 데이터 세트에 머신 러닝 알고리즘을 배포하는 실질적인 측면에 중점을 둡니다. 머신 러닝과 매우 유사합니다.
  • 인공 지능 은 컴퓨터의 지능 (일부 임의의 정의)과 관련된 것입니다. 그래서 그것은 많은 것들을 포함 합니다 .

일반적으로 확률 론적 모델 (따라서 통계)은 기계에서 지식과 이해를 공식적으로 구조화하는 가장 효과적인 방법으로 입증되었습니다. 통계. 통계의 그림자가 된 최초의 훈련이 아닙니다 ... (경제학, 심리학, 생물 정보학 등)


5
@Ken-경제 심리학 또는 AI를 통계의 그림자 무기로 묘사하는 것은 정확하지 않습니다. 통계가 각 분야에서 많은 분야에서 관심이있는 많은 문제를 분석하기 위해 많이 사용 되더라도 의학은 그림자 무기라고 제안하고 싶지 않습니다. 대부분의 의학적 결론이 데이터 분석에 크게 의존하더라도 통계의 양.
mpacer

@Ken-이것은 훌륭한 답변이지만 AI가 구성하는 다른 것들을 더 자세히 설명 할 수 있습니다. 예를 들어, 역사적으로 AI에는 대량의 비확산 모델 분석 (예 : 생산 시스템, 셀룰러 오토마타 등, Newell & Simon 1972 참조)이 포함되어 있습니다. 물론 이러한 모든 모형은 일부 확률 론적 모형의 경우를 제한하는 것이지만, 훨씬 이후까지는 그러한 정맥에서 분석되지 않았습니다.
mpacer

4
데이터 마이닝은 데이터를 저장하고 색인화하여 알고리즘을 훨씬 빠르게 만드는 방법을 포함하므로 머신 러닝을 뛰어 넘습니다. AI, ML 및 통계에서 주로 방법을 사용하여 효율적이고 영리한 데이터 관리 및 데이터 레이아웃 기술과 결합하는 것으로 특징 지을 수 있습니다. 데이터 관리와 관련이없는 경우 종종 "기계 학습"이라고 부를 수 있습니다. 그러나 "학습"이없고 데이터 관리가없는 "감독되지 않은"몇 가지 작업이 있습니다. 이러한 작업을 여전히 "데이터 마이닝"(클러스터링, 이상치 탐지)이라고합니다.
Anony-Mousse

21

우리는 그것들이 모두 관련되어 있다고 말할 수 있지만 모두 다른 것입니다. 통계 및 데이터 마이닝과 같은 공통점을 가질 수 있지만 클러스터링 방법을 사용합니다.
각각을 간단하게 정의하려고합니다.

  • 통계는 주로 고전적인 수학적 방법을 기반으로하는 매우 오래된 학문으로, 데이터 마이닝이 때때로 항목을 분류하고 그룹화하는 것과 같은 목적으로 사용될 수 있습니다.

  • 데이터 마이닝은 많은 사실 또는 요인이 주어진 상황을 분류하거나 예측할 수있는 패턴을 감지하기 위해 모델을 구축하는 것으로 구성됩니다.

  • 인공 지능 (Marvin Minsky 확인 *)은 두뇌가 프로그래밍 방식으로 작동하는 방식 (예 : 체스를하는 프로그램 작성)을 모방하는 분야입니다.

  • 기계 학습은 지식을 구축하고 컴퓨터에 어떤 형태로 저장하는 작업입니다. 그 형태는 수학적 모델, 알고리즘 등일 수 있습니다. 패턴을 감지하는 데 도움이되는 모든 것.


2
현대 AI의 대부분은 초기 "뇌를 모방"하는 접근법을 따르지 않습니다. 이 유틸리티는 유틸리티를 최대화하기 위해 환경에서 작동하며 머신 러닝과 더 밀접한 관련이있는 "합리적 에이전트"작성에 중점을 둡니다. Russell과 Norvig의 책을 참조하십시오.
nealmcb

1
ML과 데이터 마이닝의 차이점은 사용자 정의에 없습니다.
Martin Thoma

16

머신 러닝 (데이터 마이닝 축)에 대해 가장 잘 알고 있으므로 다음에 집중하겠습니다.

머신 러닝은 비표준 상황, 예를 들어 비 -II 데이터, 능동 학습, 반-지도 학습, 구조화 된 데이터를 이용한 학습 (예 : 문자열 또는 그래프)에 대한 추론에 관심이있는 경향이 있습니다. ML은 또한 학습 가능한 것에 대한 이론적 경계에 관심이있는 경향이 있으며, 이는 종종 사용되는 알고리즘 (예 : 지원 벡터 시스템)의 기초를 형성합니다. ML은 베이지안 경향이 있습니다.

데이터 마이닝은 아직 모르는 데이터 패턴을 찾는 데 관심이 있습니다. 통계에서 탐색 적 데이터 분석과 크게 다른지 확실하지 않지만 기계 학습에서는 일반적으로 해결해야 할보다 잘 정의 된 문제가 있습니다.

ML은 과적 합이 문제가되는 소규모 데이터 세트에 더 관심이 있고 데이터 마이닝은 문제가 데이터의 양을 처리하는 대규모 데이터 세트에 관심이있는 경향이 있습니다.

통계 및 머신 러닝은 데이터 마이너가 사용하는 많은 기본 도구를 제공합니다.


"ML은 소규모 데이터 세트에 더 관심이있는 경향이 있습니다"에 동의하지 않습니다.
Martin Thoma

데이터 마이닝은 작은 데이터 세트를 사용하면 가짜 연관을 발견 할 가능성이 높아지고이를 감지하기가 더 어려워 지므로 훨씬 더 어려워집니다. 작은 데이터 세트를 사용하면 가능한 적은 선택을하는 추론이 훨씬 더 안전한 경향이 있습니다.
Dikran Marsupial

13

여기 내가 가져 가라. 두 가지 매우 광범위한 범주로 시작하겠습니다.

  • 심지어 아무것도 막 똑똑한 척은 있다 인공 지능 (ML 및 DM 포함).
  • 일반적으로 유효성에 주의를 기울이는 메소드에만 적용하지만 데이터 를 요약 하는 것은 통계입니다 . 결과 에 (일반적으로 ML 및 DM에서 사용됨)

ML과 DM은 일반적으로 AI와 통계입니다. 일반적으로 둘 다의 기본 방법이 관련되어 있습니다. 차이점은 다음과 같습니다.

  • 기계 학습 , 당신은이 잘 정의 된 목표를 (일반적으로 예측 )
  • 에서 데이터 마이닝 , 당신은 본질적으로 목적 "이 내가 않았다 뭔가 하지 전에 알아야을 "

또한 데이터 마이닝 에는 일반적으로 훨씬 더 많은 데이터 관리 , 즉 효율적인 인덱스 구조와 데이터베이스에서 데이터를 구성하는 방법이 포함됩니다.

불행히도, 분리하기가 쉽지 않습니다. 예를 들어 목표에 최적화 할 수 없기 때문에 ML보다 DM과 더 밀접한 관련이있는 "비지도 학습"이 있습니다. 반면에, DM 방법은 평가하기 어렵고 (어떻게 알지 못하는 것을 어떻게 평가합니까?) 일부 정보를 생략하여 기계 학습 과 동일한 작업 에서 평가하는 경우가 많습니다 . 그러나 이는 일반적으로 실제 평가 목표에 맞게 최적화 할 수있는 머신 러닝 방법보다 성능이 저하되는 것처럼 보입니다.

또한 이들은 종종 조합하여 사용됩니다. 예를 들어, 데이터 마이닝 방법 (예 : 클러스터링 또는 감독되지 않은 이상치 탐지)을 사용하여 데이터를 사전 처리 한 다음 사전 처리 된 데이터에 기계 학습 방법을 적용하여 더 나은 분류기를 훈련시킵니다.

기계 학습은 일반적으로 평가하기가 훨씬 쉽습니다. 점수 또는 클래스 예측과 같은 목표가 있습니다. 정밀도를 계산하고 불러올 수 있습니다. 데이터 마이닝에서 대부분의 평가는 클래스 레이블과 같은 일부 정보를 제외하고 분석법이 동일한 구조를 발견했는지 여부를 테스트하여 수행됩니다. 클래스 레이블이 데이터의 구조를 완전히 인코딩한다고 가정 할 때 이는 의미가 없습니다. 실제로 데이터에서 새로운 것을 발견하는 데이터 마이닝 알고리즘을 처벌합니다. 간접적으로 평가하는 또 다른 방법은 발견 된 구조가 실제 ML 알고리즘의 성능을 개선하는 방법입니다 (예 : 데이터 분할 또는 특이 치를 제거 할 때). 그럼에도 불구하고이 평가는 기존 결과 를 재현 하는 데 기반을두고 있으며 이는 실제로 데이터 마이닝 목표가 아닙니다 ...


1
귀하의 답변은 매우 통찰력이 있습니다. ML의 성능 평가와 DM의 성능 평가의 차이점에 대한 마지막 단락에 특히 감사드립니다.
justis

8

말한 내용에 대한 관찰을 추가하고 싶습니다 ...

AI는 작업 계획이나 다른 단체와의 협력, 사지 운영 방법 학습에 이르기까지 추론과 유사하거나 지각 적으로 나타나는 활동과 관련된 모든 것을 의미하는 매우 광범위한 용어입니다. AI는 컴퓨터와 관련이 있으며 아직 잘 수행 할 방법을 모릅니다. (잘 수행하는 방법을 알게되면 일반적으로 고유 이름을 가지며 더 이상 "AI"가 아닙니다.)

Wikipedia와 달리 패턴 인식과 기계 학습은 동일한 분야이지만 전자는 컴퓨터 과학 전문가에 의해 연습되고 후자는 통계 학자와 엔지니어에 의해 연습된다는 것이 제 인상입니다. (많은 기술 분야가 종종 다른 하위 그룹에 의해 발견되며, 이들은 종종 자신의 용어와 사고 방식을 테이블에 가져옵니다.)

어쨌든 데이터 마이닝은 머신 러닝 / 패턴 인식 (데이터와 함께 작동하는 기술)을 사용하여 데이터베이스, 인프라 및 데이터 유효성 검사 / 청소 기술로 래핑합니다.


6
기계 학습과 패턴 인식은 같은 것이 아니며, 기계 학습은 회귀 및 인과 추론 등과 같은 것에 관심이 있습니다. 패턴 인식은 기계 학습에 대한 관심의 문제 중 하나 일뿐입니다. 내가 아는 대부분의 기계 학습 사람들은 컴퓨터 과학 부서에 있습니다.
Dikran Marsupial

2
@Dikran Agree 그러나 ML 및 PR은 종종 데이터 분석의 유사한 주제에 따라 별칭이 지정되고 제시됩니다. 필자가 선호하는 책은 Christophe M Bishop의 패턴 인식 및 기계 학습 입니다. 다음은 JSS의 John MainDonald의 리뷰입니다 ( j.mp/etg3w1) .
chl

또한 CS 세계에서 "기계 학습"이라는 단어가 "패턴 인식"보다 훨씬 일반적이라고 생각합니다.
bayerj

ML이 더 CS 용어라고 생각합니다.
Karl Morrison

3

안타깝게도,이 영역들 간의 차이는 대부분 그들이 가르치는 곳입니다. 통계는 수학 부서, 인공 지능, 컴퓨터 과학 부서의 기계 학습을 기반으로하며 데이터 마이닝이 더 적용됩니다 (소프트웨어 회사가 개발 한 비즈니스 또는 마케팅 부서에서 사용됨) .

첫째, 인공 지능 (임의의 지능 시스템을 의미 할 수 있지만)은 전통적으로 통계적 추정보다는 논리 기반 접근법 (예 : 전문가 시스템)을 의미했습니다. 수학 부서를 기반으로 한 통계는 명확한 과학 모델이있는 실험 과학에 대한 강력한 응용 경험과 함께 이론적으로 잘 이해되어 왔으며 제한된 실험 데이터를 처리하기 위해 통계가 필요합니다. 매우 작은 데이터 세트에서 최대 정보를 압축하는 데 중점을 두었습니다. 또한 수학 증거에 대한 편견이 있습니다. 접근 방식에 대해 증명할 수 없다면 출판되지 않습니다. 이것은 컴퓨터를 사용하여 분석을 자동화 할 때 통계가 지연되었음을 의미하는 경향이 있습니다. 다시, 프로그래밍 지식이 부족하여 통계 학자들은 계산 문제가 중요한 대규모 문제 (GPU 및 분산 시스템 (예 : hadoop) 고려)를 처리하지 못했습니다. 생물 정보학과 같은 분야가 통계를이 방향으로 더 많이 움직 였다고 생각합니다. 마지막으로 나는 통계 학자들이 더 회의적이라고 말하고 싶습니다. 통계에 대한 지식을 발견했다고 주장하지 않습니다. 오히려 과학자는 가설을 세웁니다. 그리고 통계학 자의 임무는 데이터가 가설을 뒷받침하는지 확인하는 것입니다. 기계 학습은 불행히도 적절한 수학을 가르치지 않는 cs 부서에서 진행됩니다. 다 변형 미적분학, 확률, 통계 및 최적화는 흔한 일이 아닙니다 ... 예제에서 배우는 것과 같은 모호한 '매혹적'개념이 있습니다 ...통계 학습의 요소 30 페이지. 이것은 연구원들이 알고리즘이 더 나은 것으로 입증 된 데이터 세트를 항상 찾을 수 있기 때문에 이론적 인 이해와 알고리즘의 폭발이 거의 없음을 의미하는 경향이 있습니다. ML 연구자들이 신경망, 딥 러닝 등 다음 큰 일을 쫓아 가면서 엄청난 과장의 단계가 있습니다. 불행히도 CS 부서에는 더 많은 돈이 있습니다 (Google, Microsoft, 더 시장성이 높은 '학습'). 더 회의적인 통계 학자들은 무시된다. 마지막으로, 경험 주의자가 구부러져있다. 기본적으로 알고리즘에서 충분한 데이터를 던지면 정확한 예측을 '학습'할 것이라는 기본 믿음이있다. ML에 대해 편견이있는 동안, 통계학자가 무시한 ML에 대한 기본적인 통찰력이 있습니다. 컴퓨터가 통계 적용에 혁명을 일으킬 수 있다는 것입니다.

a) 표준 테스트 및 모델의 적용을 자동화하는 두 가지 방법이 있습니다. 예를 들어, 선형 회귀, 랜덤 포레스트 등 다양한 입력 조합, 매개 변수 설정 등의 모델 배터리를 실행합니다. kaggle의 경쟁자가 자신의 자동화 기술을 개발한다고 생각하지만 실제로는 그렇지 않았습니다. b) 방대한 데이터에 표준 통계 모델 적용 : 예를 들어 구글 번역, 추천 시스템 등을 생각하십시오 (예를 들어 사람들이 번역하거나 추천하는 유용한 도구는 없습니다). 기본 통계 모델은 간단하지만 이러한 방법을 수십억 개의 데이터 포인트에 적용하는 데에는 계산상의 문제가 있습니다.

데이터 마이닝은 데이터에서 지식을 추출하는 자동화 된 방법을 개발하는이 철학의 정점입니다. 그러나보다 실용적인 접근 방식이 있습니다. 본질적으로 행동 과학 데이터에 적용되며, 과학적 이론 (마케팅, 사기 탐지, 스팸 등)이 없으며, 대량의 데이터 분석을 자동화하는 것이 목표입니다. 통계 팀은 충분한 시간이 주어지면 더 나은 분석을 할 수 있지만 컴퓨터를 사용하는 것이 더 비용 효율적입니다. 더욱이 D. Hand는 이차 데이터 (고체 실험 설계에서 과학적 질문에 답하기 위해 명시 적으로 수집 된 데이터가 아니라 기록 된 데이터)의 분석이라고 설명합니다.데이터 마이닝 통계 등

따라서 기존 AI는 통계가 아닌 논리 기반이며 기계 학습은 이론이없는 통계이고 통계는 '컴퓨터가없는 통계'이며 데이터 마이닝은 최소한의 사용자 개입으로 통계 분석을위한 자동화 된 도구의 개발입니다.


이 답변은 많이 울리기 때문에 따르기가 어렵고 불필요하게 길지만, 그 차이가 다른 것보다 징계 전통과 강조와 더 관련이 있다는 표시에 실제로 부딪칩니다.
Tripartio

1

데이터 마이닝은 숨겨진 패턴이나 알려지지 않은 지식을 발견하여 사람들의 의사 결정에 사용할 수 있습니다.

기계 학습은 새로운 객체를 분류하기 위해 모델을 학습하는 것입니다.


기계 학습 은 분류 에만 관한 것입니까? 기계 학습을 다른 목표를 달성하는데 사용할 수 없습니까?
gung

@gung 절대로 아닙니다. 강화 학습은 IMHO, ML의 가장 특징적인 하위 필드이며 분류에 기반을 두지 않고 목표를 달성한다고 말합니다.
nbro

@nbro, 그 의견은 운영 체제가 ML을 얼마나 좁게 정의하고 있는지를 재고하기위한 OP의 힌트로 여겨졌다.
gung

0

내 생각에 인공 지능은 기계 학습, 데이터 마이닝, 패턴 인식 등과 같은 분야의 "슈퍼 셋"으로 간주 될 수 있습니다.

  • 통계는 AI에서 사용되는 모든 수학적 모델, 기술 및 이론을 포함하는 수학 분야입니다.

  • 머신 러닝은 위에서 언급 한 통계 모델을 적용하고 데이터, 즉 클러스터링 및 분류와 같은 예측 분석을 적용하는 모든 알고리즘을 포함하는 AI 분야입니다.

  • 데이터 마이닝은 데이터에서 유용하고 중요한 패턴을 추출하기 위해 위의 모든 기술 (주로 기계 학습)을 사용하는 과학입니다. 데이터 마이닝은 일반적으로 대규모 데이터 세트, 즉 빅 데이터에서 유용한 정보를 추출하는 것과 관련이 있습니다.


-1

어떻습니까 : 기계 학습을 배우기

데이터에서 의미있는 패턴 인식 : 데이터 마이닝

알려진 패턴의 결과 예측 : ML

원시 데이터를 다시 매핑하는 새로운 기능 찾기 : AI

이 새 뇌는 실제로 간단한 정의가 필요합니다.


-1

데이터 마이닝은 종종 미래의 데이터를 "예측"하거나 어떤 일이 발생하는 이유를 "설명"하려고합니다.

통계는 내 눈의 가설을 검증하는 데 더 많이 사용됩니다. 그러나 이것은 주관적인 토론입니다.

통계 학자와 데이터 마이너의 한 가지 분명한 차이점은 그들이 보는 요약 통계의 유형에서 찾을 수 있습니다.

통계는 종종 R² 및 정확도로 제한되며 데이터 마이너는 AUC, ROC 곡선, 리프트 곡선 등을보고 비용 관련 정확도 곡선을 사용하여 우려 할 수도 있습니다.

데이터 마이닝 패키지 (예 : 오픈 소스 Weka)는 입력 선택, 벡터 머신 분류 등을 지원하는 기술을 내장하고 있지만 JMP와 같은 통계 패키지에는 거의 없습니다. 나는 최근에 jmp 사람들로부터 "jmp의 데이터 마이닝"에 대한 과정을 밟을 때 시각적으로 강력한 패키지이지만 몇 가지 필수 데이터 마이닝 사전 / 사후 / 중간 기술이 누락되었습니다. 입력 선택은 수동으로 이루어졌으며 여전히 데이터 마이닝에서 데이터에 대한 통찰력을 얻었습니다. 대량의 데이터에서 알고리즘을 현명하게 해제하고 자동으로 나오는 것을 보는 것은 단지 당신의 의도입니다. 이 과정은 통계 사람들이 분명히 가르쳤으며, 두 사람의 서로 다른 사고 방식을 강조했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.