데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?
그것들이 매우 비슷한 문제를 해결하려고 시도하지만 다른 접근법을 가진 4 개의 분야라고 말하는 것이 정확합니까? 그들은 정확히 무엇을 공통점이 있으며 어디에서 다른가? 그들 사이에 어떤 종류의 계층이 있다면, 그것은 무엇입니까?
이전에 비슷한 질문이 있었지만 여전히 얻지 못했습니다.
데이터 마이닝, 통계, 기계 학습 및 AI의 차이점은 무엇입니까?
그것들이 매우 비슷한 문제를 해결하려고 시도하지만 다른 접근법을 가진 4 개의 분야라고 말하는 것이 정확합니까? 그들은 정확히 무엇을 공통점이 있으며 어디에서 다른가? 그들 사이에 어떤 종류의 계층이 있다면, 그것은 무엇입니까?
이전에 비슷한 질문이 있었지만 여전히 얻지 못했습니다.
답변:
이들 사이에는 상당한 중복이 있지만 몇 가지 차이점이 있습니다. 필연적으로, 나는 어떤 것들을 지나치게 단순화하거나 다른 사람들에게 짧게 줄여야 할 것이지만, 나는 이러한 영역에 대한 감각을주기 위해 최선을 다할 것입니다.
첫째, 인공 지능 은 나머지와는 상당히 다릅니다. AI는 지능형 에이전트를 만드는 방법에 대한 연구입니다. 실제로는 지능형 에이전트 (예 : 사람)처럼 작업을 수행하고 작업을 수행하도록 컴퓨터를 프로그래밍하는 방법입니다. 이것은 학습이나 유도 가 전혀 필요 하지 않으며 단지 '더 나은 쥐덫을 만드는'방법 일 수 있습니다. 예를 들어 AI 응용 프로그램에는 진행중인 프로세스를 모니터링하고 제어하는 프로그램이 포함되어 있습니다 (예 : 너무 낮 으면 A면을 높이십시오). 인공 지능은 기계가 '어리석게'하지 않는 한 기계가하는 거의 모든 것을 포함 할 수 있습니다 .
그러나 실제로 지능이 필요한 대부분의 작업에는 경험에서 새로운 지식을 유도 할 수있는 능력이 필요합니다. 따라서 인공 지능 내에서 넓은 영역은 기계 학습 입니다. 일부 성능 측정에 따르면, 컴퓨터 프로그램은 작업 성능이 경험에 따라 향상되면 경험으로부터 일부 작업을 학습한다고합니다. 기계 학습에는 정보를 자동으로 추출 할 수있는 (즉, 온라인 사람의 안내없이) 알고리즘 연구가 포함됩니다. 이러한 절차 중 일부에는 고전적인 통계에서 직접 도출되거나 영감을 얻은 아이디어가 포함되어 있지만 실제로는 그렇지 않습니다 .되려고. AI와 마찬가지로 머신 러닝은 매우 광범위하며 유도 성 구성 요소가있는 한 거의 모든 것을 포함 할 수 있습니다. 기계 학습 알고리즘의 예로 Kalman 필터가 있습니다.
데이터 마이닝 은 머신 러닝 (및 일부 통계에서도)에서 많은 영감과 기술을 얻은 영역이지만 다른 목적으로 사용됩니다 . 데이터 마이닝은에 의해 수행된다 사람 마음에 목표로, 특정 데이터 세트에, 특정 상황에서. 일반적으로이 사람은 머신 러닝에서 개발 된 다양한 패턴 인식 기술의 힘을 활용하려고합니다. 종종 데이터 세트가 방대 하고 복잡 하며 특별한 문제 가있을 수 있습니다.(예 : 관측치보다 많은 변수가 있음). 일반적으로 목표는 사전에 지식이 거의없는 영역에서 예비 통찰력을 발견 / 생성하거나 미래의 관측을 정확하게 예측하는 것입니다. 또한 데이터 마이닝 절차는 '감독되지 않음'(우리는 답을 알지 못함) 또는 '감독 됨'(우리는 답을 예측합니다) 일 수 있습니다. 목표는 일반적으로 기본 데이터 생성 프로세스에 대한보다 정교한 이해를 개발하는 것이 아닙니다 . 일반적인 데이터 마이닝 기술에는 군집 분석, 분류 및 회귀 트리 및 신경망이 포함됩니다.
이 사이트의 통계 가 무엇인지 설명하기 위해 많은 것을 말할 필요 는 없지만 아마도 몇 가지를 말할 수 있습니다. 고전 통계 (여기서는 잦은 주의자와 베이지안을 모두 의미 함)는 수학의 하위 주제입니다. 저는 이것이 확률에 대해 알고있는 것과 최적화에 대해 알고있는 것의 교차로 생각합니다. 수학적 통계는 단순히 플라톤의 탐구 대상으로 연구 될 수 있지만, 대부분 다른 희소 한 수학 영역보다 더 실용적이고 성격 적으로 적용되는 것으로 이해됩니다. 이와 같이 (특히 위의 데이터 마이닝과 달리) 특정 데이터 생성 프로세스를 더 잘 이해하는 데 주로 사용됩니다. 따라서 일반적으로 공식적으로 지정된 모델로 시작합니다.여기에는 노이즈 인스턴스에서 해당 모델을 정확하게 추출하고 (예 : 일부 손실 함수를 최적화하여 추정) 다른 가능성 (예 : 샘플링 분포의 알려진 특성을 기반으로 한 추론)과 모델을 구별 할 수있는 파생 된 절차가 있습니다. 프로토 타입 통계 기술은 회귀입니다.
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.
신경망 이 데이터 마이닝에 사용되는 머신 러닝을 위해 설계된 알고리즘이 아닌 클러스터 분석과 비교하여 데이터 마이닝에 사용되는 머신 러닝 도구의 예 라고 말하는 것이 안전 합니까?
다른 많은 답변이 주요 요점을 다루었지만 계층 구조를 요청하면 계층 구조가 존재하는지, 내가 보는 방식을 묻습니다. 각 분야는 각자의 권한이지만 각 빌드 이후 아무도 언급하지 않은 계층 구조가 있습니다. 이전 것.
통계 는 숫자에 불과하며 데이터를 정량화합니다. 데이터의 관련 속성을 찾기위한 많은 도구가 있지만 이것은 순수한 수학과 매우 비슷합니다.
데이터 마이닝 은 통계 및 기타 프로그래밍 방법을 사용하여 데이터에 숨겨진 패턴을 찾아서 현상을 설명 할 수 있습니다 . 데이터 마이닝은 일부 데이터에서 실제로 일어나는 일에 대한 직관을 구축하며 여전히 프로그래밍보다 수학에 조금 더 가깝지만 두 가지를 모두 사용합니다.
머신 러닝 은 데이터 마이닝 기술 및 기타 학습 알고리즘을 사용하여 일부 데이터에서 발생하는 상황에 대한 모델을 구축하여 향후 결과를 예측할 수 있습니다. 수학은 많은 알고리즘의 기초이지만 프로그래밍에 대한 것입니다.
인공 지능 은 머신 러닝 및 기타 방법으로 제작 된 모델을 사용 하여 세상 을 추리 하고 게임을하거나 로봇 / 자동차를 운전할 때 지능적인 행동을 유발합니다 . 인공 지능은 행동이 어떻게 세상 모델에 영향을 미칠지 예측하고 그 목표를 가장 잘 달성 할 행동을 선택함으로써 달성 할 목표가 있습니다. 매우 프로그래밍 기반.
한마디로
이제는 AI에만 해당되는 AI 문제와 다른 분야에서도 비슷하게 발생하지만 오늘날 흥미로운 대부분의 문제 (예 :자가 운전 차량)는 쉽고 정확하게 이들 모두라고 부를 수 있습니다. 이것이 당신이 요구 한 그들 사이의 관계를 정리하기를 바랍니다.
일반적으로 확률 론적 모델 (따라서 통계)은 기계에서 지식과 이해를 공식적으로 구조화하는 가장 효과적인 방법으로 입증되었습니다. 통계. 통계의 그림자가 된 최초의 훈련이 아닙니다 ... (경제학, 심리학, 생물 정보학 등)
우리는 그것들이 모두 관련되어 있다고 말할 수 있지만 모두 다른 것입니다. 통계 및 데이터 마이닝과 같은 공통점을 가질 수 있지만 클러스터링 방법을 사용합니다.
각각을 간단하게 정의하려고합니다.
통계는 주로 고전적인 수학적 방법을 기반으로하는 매우 오래된 학문으로, 데이터 마이닝이 때때로 항목을 분류하고 그룹화하는 것과 같은 목적으로 사용될 수 있습니다.
데이터 마이닝은 많은 사실 또는 요인이 주어진 상황을 분류하거나 예측할 수있는 패턴을 감지하기 위해 모델을 구축하는 것으로 구성됩니다.
인공 지능 (Marvin Minsky 확인 *)은 두뇌가 프로그래밍 방식으로 작동하는 방식 (예 : 체스를하는 프로그램 작성)을 모방하는 분야입니다.
기계 학습은 지식을 구축하고 컴퓨터에 어떤 형태로 저장하는 작업입니다. 그 형태는 수학적 모델, 알고리즘 등일 수 있습니다. 패턴을 감지하는 데 도움이되는 모든 것.
머신 러닝 (데이터 마이닝 축)에 대해 가장 잘 알고 있으므로 다음에 집중하겠습니다.
머신 러닝은 비표준 상황, 예를 들어 비 -II 데이터, 능동 학습, 반-지도 학습, 구조화 된 데이터를 이용한 학습 (예 : 문자열 또는 그래프)에 대한 추론에 관심이있는 경향이 있습니다. ML은 또한 학습 가능한 것에 대한 이론적 경계에 관심이있는 경향이 있으며, 이는 종종 사용되는 알고리즘 (예 : 지원 벡터 시스템)의 기초를 형성합니다. ML은 베이지안 경향이 있습니다.
데이터 마이닝은 아직 모르는 데이터 패턴을 찾는 데 관심이 있습니다. 통계에서 탐색 적 데이터 분석과 크게 다른지 확실하지 않지만 기계 학습에서는 일반적으로 해결해야 할보다 잘 정의 된 문제가 있습니다.
ML은 과적 합이 문제가되는 소규모 데이터 세트에 더 관심이 있고 데이터 마이닝은 문제가 데이터의 양을 처리하는 대규모 데이터 세트에 관심이있는 경향이 있습니다.
통계 및 머신 러닝은 데이터 마이너가 사용하는 많은 기본 도구를 제공합니다.
여기 내가 가져 가라. 두 가지 매우 광범위한 범주로 시작하겠습니다.
ML과 DM은 일반적으로 AI와 통계입니다. 일반적으로 둘 다의 기본 방법이 관련되어 있습니다. 차이점은 다음과 같습니다.
또한 데이터 마이닝 에는 일반적으로 훨씬 더 많은 데이터 관리 , 즉 효율적인 인덱스 구조와 데이터베이스에서 데이터를 구성하는 방법이 포함됩니다.
불행히도, 분리하기가 쉽지 않습니다. 예를 들어 목표에 최적화 할 수 없기 때문에 ML보다 DM과 더 밀접한 관련이있는 "비지도 학습"이 있습니다. 반면에, DM 방법은 평가하기 어렵고 (어떻게 알지 못하는 것을 어떻게 평가합니까?) 일부 정보를 생략하여 기계 학습 과 동일한 작업 에서 평가하는 경우가 많습니다 . 그러나 이는 일반적으로 실제 평가 목표에 맞게 최적화 할 수있는 머신 러닝 방법보다 성능이 저하되는 것처럼 보입니다.
또한 이들은 종종 조합하여 사용됩니다. 예를 들어, 데이터 마이닝 방법 (예 : 클러스터링 또는 감독되지 않은 이상치 탐지)을 사용하여 데이터를 사전 처리 한 다음 사전 처리 된 데이터에 기계 학습 방법을 적용하여 더 나은 분류기를 훈련시킵니다.
기계 학습은 일반적으로 평가하기가 훨씬 쉽습니다. 점수 또는 클래스 예측과 같은 목표가 있습니다. 정밀도를 계산하고 불러올 수 있습니다. 데이터 마이닝에서 대부분의 평가는 클래스 레이블과 같은 일부 정보를 제외하고 분석법이 동일한 구조를 발견했는지 여부를 테스트하여 수행됩니다. 클래스 레이블이 데이터의 구조를 완전히 인코딩한다고 가정 할 때 이는 의미가 없습니다. 실제로 데이터에서 새로운 것을 발견하는 데이터 마이닝 알고리즘을 처벌합니다. 간접적으로 평가하는 또 다른 방법은 발견 된 구조가 실제 ML 알고리즘의 성능을 개선하는 방법입니다 (예 : 데이터 분할 또는 특이 치를 제거 할 때). 그럼에도 불구하고이 평가는 기존 결과 를 재현 하는 데 기반을두고 있으며 이는 실제로 데이터 마이닝 목표가 아닙니다 ...
말한 내용에 대한 관찰을 추가하고 싶습니다 ...
AI는 작업 계획이나 다른 단체와의 협력, 사지 운영 방법 학습에 이르기까지 추론과 유사하거나 지각 적으로 나타나는 활동과 관련된 모든 것을 의미하는 매우 광범위한 용어입니다. AI는 컴퓨터와 관련이 있으며 아직 잘 수행 할 방법을 모릅니다. (잘 수행하는 방법을 알게되면 일반적으로 고유 이름을 가지며 더 이상 "AI"가 아닙니다.)
Wikipedia와 달리 패턴 인식과 기계 학습은 동일한 분야이지만 전자는 컴퓨터 과학 전문가에 의해 연습되고 후자는 통계 학자와 엔지니어에 의해 연습된다는 것이 제 인상입니다. (많은 기술 분야가 종종 다른 하위 그룹에 의해 발견되며, 이들은 종종 자신의 용어와 사고 방식을 테이블에 가져옵니다.)
어쨌든 데이터 마이닝은 머신 러닝 / 패턴 인식 (데이터와 함께 작동하는 기술)을 사용하여 데이터베이스, 인프라 및 데이터 유효성 검사 / 청소 기술로 래핑합니다.
안타깝게도,이 영역들 간의 차이는 대부분 그들이 가르치는 곳입니다. 통계는 수학 부서, 인공 지능, 컴퓨터 과학 부서의 기계 학습을 기반으로하며 데이터 마이닝이 더 적용됩니다 (소프트웨어 회사가 개발 한 비즈니스 또는 마케팅 부서에서 사용됨) .
첫째, 인공 지능 (임의의 지능 시스템을 의미 할 수 있지만)은 전통적으로 통계적 추정보다는 논리 기반 접근법 (예 : 전문가 시스템)을 의미했습니다. 수학 부서를 기반으로 한 통계는 명확한 과학 모델이있는 실험 과학에 대한 강력한 응용 경험과 함께 이론적으로 잘 이해되어 왔으며 제한된 실험 데이터를 처리하기 위해 통계가 필요합니다. 매우 작은 데이터 세트에서 최대 정보를 압축하는 데 중점을 두었습니다. 또한 수학 증거에 대한 편견이 있습니다. 접근 방식에 대해 증명할 수 없다면 출판되지 않습니다. 이것은 컴퓨터를 사용하여 분석을 자동화 할 때 통계가 지연되었음을 의미하는 경향이 있습니다. 다시, 프로그래밍 지식이 부족하여 통계 학자들은 계산 문제가 중요한 대규모 문제 (GPU 및 분산 시스템 (예 : hadoop) 고려)를 처리하지 못했습니다. 생물 정보학과 같은 분야가 통계를이 방향으로 더 많이 움직 였다고 생각합니다. 마지막으로 나는 통계 학자들이 더 회의적이라고 말하고 싶습니다. 통계에 대한 지식을 발견했다고 주장하지 않습니다. 오히려 과학자는 가설을 세웁니다. 그리고 통계학 자의 임무는 데이터가 가설을 뒷받침하는지 확인하는 것입니다. 기계 학습은 불행히도 적절한 수학을 가르치지 않는 cs 부서에서 진행됩니다. 다 변형 미적분학, 확률, 통계 및 최적화는 흔한 일이 아닙니다 ... 예제에서 배우는 것과 같은 모호한 '매혹적'개념이 있습니다 ...통계 학습의 요소 30 페이지. 이것은 연구원들이 알고리즘이 더 나은 것으로 입증 된 데이터 세트를 항상 찾을 수 있기 때문에 이론적 인 이해와 알고리즘의 폭발이 거의 없음을 의미하는 경향이 있습니다. ML 연구자들이 신경망, 딥 러닝 등 다음 큰 일을 쫓아 가면서 엄청난 과장의 단계가 있습니다. 불행히도 CS 부서에는 더 많은 돈이 있습니다 (Google, Microsoft, 더 시장성이 높은 '학습'). 더 회의적인 통계 학자들은 무시된다. 마지막으로, 경험 주의자가 구부러져있다. 기본적으로 알고리즘에서 충분한 데이터를 던지면 정확한 예측을 '학습'할 것이라는 기본 믿음이있다. ML에 대해 편견이있는 동안, 통계학자가 무시한 ML에 대한 기본적인 통찰력이 있습니다. 컴퓨터가 통계 적용에 혁명을 일으킬 수 있다는 것입니다.
a) 표준 테스트 및 모델의 적용을 자동화하는 두 가지 방법이 있습니다. 예를 들어, 선형 회귀, 랜덤 포레스트 등 다양한 입력 조합, 매개 변수 설정 등의 모델 배터리를 실행합니다. kaggle의 경쟁자가 자신의 자동화 기술을 개발한다고 생각하지만 실제로는 그렇지 않았습니다. b) 방대한 데이터에 표준 통계 모델 적용 : 예를 들어 구글 번역, 추천 시스템 등을 생각하십시오 (예를 들어 사람들이 번역하거나 추천하는 유용한 도구는 없습니다). 기본 통계 모델은 간단하지만 이러한 방법을 수십억 개의 데이터 포인트에 적용하는 데에는 계산상의 문제가 있습니다.
데이터 마이닝은 데이터에서 지식을 추출하는 자동화 된 방법을 개발하는이 철학의 정점입니다. 그러나보다 실용적인 접근 방식이 있습니다. 본질적으로 행동 과학 데이터에 적용되며, 과학적 이론 (마케팅, 사기 탐지, 스팸 등)이 없으며, 대량의 데이터 분석을 자동화하는 것이 목표입니다. 통계 팀은 충분한 시간이 주어지면 더 나은 분석을 할 수 있지만 컴퓨터를 사용하는 것이 더 비용 효율적입니다. 더욱이 D. Hand는 이차 데이터 (고체 실험 설계에서 과학적 질문에 답하기 위해 명시 적으로 수집 된 데이터가 아니라 기록 된 데이터)의 분석이라고 설명합니다.데이터 마이닝 통계 등
따라서 기존 AI는 통계가 아닌 논리 기반이며 기계 학습은 이론이없는 통계이고 통계는 '컴퓨터가없는 통계'이며 데이터 마이닝은 최소한의 사용자 개입으로 통계 분석을위한 자동화 된 도구의 개발입니다.
데이터 마이닝은 숨겨진 패턴이나 알려지지 않은 지식을 발견하여 사람들의 의사 결정에 사용할 수 있습니다.
기계 학습은 새로운 객체를 분류하기 위해 모델을 학습하는 것입니다.
내 생각에 인공 지능은 기계 학습, 데이터 마이닝, 패턴 인식 등과 같은 분야의 "슈퍼 셋"으로 간주 될 수 있습니다.
통계는 AI에서 사용되는 모든 수학적 모델, 기술 및 이론을 포함하는 수학 분야입니다.
머신 러닝은 위에서 언급 한 통계 모델을 적용하고 데이터, 즉 클러스터링 및 분류와 같은 예측 분석을 적용하는 모든 알고리즘을 포함하는 AI 분야입니다.
데이터 마이닝은 데이터에서 유용하고 중요한 패턴을 추출하기 위해 위의 모든 기술 (주로 기계 학습)을 사용하는 과학입니다. 데이터 마이닝은 일반적으로 대규모 데이터 세트, 즉 빅 데이터에서 유용한 정보를 추출하는 것과 관련이 있습니다.
데이터 마이닝은 종종 미래의 데이터를 "예측"하거나 어떤 일이 발생하는 이유를 "설명"하려고합니다.
통계는 내 눈의 가설을 검증하는 데 더 많이 사용됩니다. 그러나 이것은 주관적인 토론입니다.
통계 학자와 데이터 마이너의 한 가지 분명한 차이점은 그들이 보는 요약 통계의 유형에서 찾을 수 있습니다.
통계는 종종 R² 및 정확도로 제한되며 데이터 마이너는 AUC, ROC 곡선, 리프트 곡선 등을보고 비용 관련 정확도 곡선을 사용하여 우려 할 수도 있습니다.
데이터 마이닝 패키지 (예 : 오픈 소스 Weka)는 입력 선택, 벡터 머신 분류 등을 지원하는 기술을 내장하고 있지만 JMP와 같은 통계 패키지에는 거의 없습니다. 나는 최근에 jmp 사람들로부터 "jmp의 데이터 마이닝"에 대한 과정을 밟을 때 시각적으로 강력한 패키지이지만 몇 가지 필수 데이터 마이닝 사전 / 사후 / 중간 기술이 누락되었습니다. 입력 선택은 수동으로 이루어졌으며 여전히 데이터 마이닝에서 데이터에 대한 통찰력을 얻었습니다. 대량의 데이터에서 알고리즘을 현명하게 해제하고 자동으로 나오는 것을 보는 것은 단지 당신의 의도입니다. 이 과정은 통계 사람들이 분명히 가르쳤으며, 두 사람의 서로 다른 사고 방식을 강조했습니다.