이 포럼에서 논의 할 데이터 과학에는 여러 데이터가 분석되는 동의어 나 최소한 관련된 필드가 있습니다.
내 특정 질문은 데이터 마이닝에 관한 것입니다. 몇 년 전에 데이터 마이닝에서 대학원 수업을 들었습니다. 데이터 과학과 데이터 마이닝의 차이점은 무엇이며 특히 데이터 마이닝에 능숙 해지려면 무엇을 더 살펴 봐야합니까?
이 포럼에서 논의 할 데이터 과학에는 여러 데이터가 분석되는 동의어 나 최소한 관련된 필드가 있습니다.
내 특정 질문은 데이터 마이닝에 관한 것입니다. 몇 년 전에 데이터 마이닝에서 대학원 수업을 들었습니다. 데이터 과학과 데이터 마이닝의 차이점은 무엇이며 특히 데이터 마이닝에 능숙 해지려면 무엇을 더 살펴 봐야합니까?
답변:
@statsRus 는 다른 질문 /datascience/1/what-characterises-the-difference-between-data-science-and-statistics 에서 귀하의 답변에 대한 토대를 마련하기 시작합니다 .
- 데이터 수집 : 웹 스크래핑 및 온라인 설문
- 데이터 조작 : 지저분한 데이터를 코딩하고 언어 및 소셜 네트워크 데이터에서 의미 추출
- 데이터 스케일 : 매우 큰 데이터 세트로 작업
- 데이터 마이닝 : 알고리즘 기술을 강조하여 크고 복잡한 데이터 세트에서 패턴 찾기
- 데이터 통신 : 시각화를 통해 "기계 판독 가능"데이터를 "인간 판독 가능"정보로 변환
데이터 마이닝 은 데이터 과학자의 툴킷에서 하나의 항목 (또는 기술 및 응용 프로그램 집합)으로 볼 수 있습니다. 나는 그가 특정 무역 전문 용어로 채굴의 정의와 수집을 분리하는 방법을 좋아합니다.
그러나 데이터 마이닝 은 미국 영어 구어체 정의의 데이터 수집 과 동의어 라고 생각합니다 .
능숙 해지기 위해 어디로 가야합니까? 나는 그 질문이 현재 언급 된 바와 같이 너무 광범위하고 주로 의견에 근거한 답변을받을 것이라고 생각합니다. 아마도 질문을 다듬을 수 있다면 요청한 내용을보다 쉽게 확인할 수 있습니다.
@Clayton이 게시 한 것은 데이터 과학자의 도구 중 하나 인 용어 및 데이터 마이닝에 대한 것 같습니다. 그러나 "데이터 수집"이라는 용어를 실제로 사용하지는 않았으며 "데이터 마이닝"과 동의어가되지 않습니다.
귀하의 질문에 대한 제 자신의 답변 : 아니오 , 용어가 동일하지 않습니다. 이 분야에서 정의가 느슨 할 수는 있지만 그 용어들이 서로 바꾸어 사용되는 것을 보지 못했습니다. 우리는 종종 목표 나 방법론을 구별하기 위해 그것들을 사용합니다. 우리에게있어 데이터 과학 은 가설 테스트에 관한 것이지만 일반적으로 데이터는 그 목적을 위해 수집 된 것입니다. 데이터 마이닝 은 기존 데이터를 선별하고 구조를 찾고 가설을 생성하는 것입니다. 데이터 마이닝은 가설로 시작할 수 있지만 종종 매우 약하거나 일반적이며 자신감을 가지고 해결하기가 어려울 수 있습니다. (길이가 충분하면 황철석으로 보일 수 있지만 무언가를 찾을 수 있습니다.)
그러나 "데이터 마이닝"을 포함하기 위해 "데이터 과학"을 더 광범위하게 사용했습니다. 또한 데이터 및 기타 지식과 목표를 기반으로 관심 시스템에 대한 모델을 찾는 "데이터 모델링"에 대해서도 이야기합니다. 때때로 그것은 실제 시스템을 설명하는 수학을 찾으려고 노력하는 것을 의미하며 때로는 목적에 충분한 예측 모델을 찾는 것을 의미합니다.
내 대답은 '아니오'입니다. 데이터 마이닝은 데이터 과학의 기타 분야 중 하나라고 생각합니다. 데이터 마이닝은 대부분 질문에 대답하기보다는 질문을 제기하는 것으로 간주됩니다. 데이터 과학과 비교할 때 데이터 과학자가 최종 결과에 도달하기 위해 복잡한 문제를 해결하려고 시도하는 경우 종종 "새로운 것을 감지"라고합니다. 그러나 두 용어는 서로 공통점이 많습니다. 예를 들어, 영향을받는 식물을 찾는 것을 목표로하는 농업 토지가있는 경우 공간 데이터 마이닝이이 작업을 수행하는 데 중요한 역할을합니다. 땅에서뿐만 아니라 그들이 영향을받는 정도까지 ....... 이것은 데이터 과학으로는 불가능한 것입니다.
데이터 마이닝과 데이터 사이언스에는 많은 중복이 있습니다. 데이터 마이닝 역할을 가진 사람들은 데이터 수집 및 필터링되지 않고 구성되지 않은 대부분의 원시 / 야생 데이터 세트에서 기능을 추출하는 데 관심이 있다고 말합니다. 매우 중요한 일부 데이터는 구현 문제가 아니라 외부 아티팩트가 있기 때문에 추출하기 어려울 수 있습니다.
예 : 70 년대에 사람들이 자동차 보험에 더 많은 돈을 저축했는지 알아 내기 위해 스캔하고 기계를 읽은 70 년대의 세금 신고서의 재무 데이터를 볼 누군가가 필요하다면; 데이터 마이너는 얻을 사람이 될 것입니다.
브라질 트윗에서 Nike의 Twitter 프로필에 미치는 영향을 조사하고 프로필에서 주요 긍정적 인 기능을 식별 할 사람이 필요하다면 데이터 과학자를 찾아야합니다.