ILP가없는 관계형 데이터 마이닝


9

분류 모델을 만들어야하는 관계형 데이터베이스의 거대한 데이터 세트가 있습니다. 일반적으로이 상황에서는 IOP ( Inductive Logic Programming )를 사용하지만 특수한 상황으로 인해이를 수행 할 수 없습니다.

이것을 해결하는 다른 방법은 내가 외국 관계가있을 때 가치를 모으는 것입니다. 그러나, 나는 몇 가지 명목상의 속성에 대해 수천 가지 중요하고 뚜렷한 행을 가지고 있습니다 (예 : 여러 가지 다른 처방약과 관련된 환자). 따라서 해당 공칭 속성의 각 개별 행에 대해 새 속성을 만들지 않고는 그렇게 할 수 없으며, 그렇게하면 대부분의 새 열에는 NULL 값이 있습니다.

피벗과 같은 기술에 의존하지 않고 관계형 데이터베이스를 데이터 마이닝하여 수천 개의 새로운 열을 생성 할 수있는 비 ILP 알고리즘이 있습니까?


2
규칙 마이닝은 어떻습니까? 당신의 목표가 무엇인지 명확하지 않습니다.
adesantos 2016 년

좋은 질문이지만 여러 Stack Exchange 포럼에 나타납니다 ... stackoverflow.com/questions/24260299/… ; 나는 그런 것들에 대해 고집하지는 않지만, 우리는 그렇게해서는 안된다고 생각합니다
Hack-R

또한 분류 대상에 대해 좀 더 구체적으로 설명 할 수 있고, 발생하는 장벽과 이상적인 세상에서 살펴볼 샘플 데이터를 제공하는 것이 도움이 될 것입니다.
Hack-R

답변:


1

먼저, 몇 가지 경고

선호하는 프로그래밍 (하위) 패러다임 *, 유도 논리 프로그래밍 (ILP)을 사용할 수없는 이유 또는 분류하려는 것이 무엇인지 잘 모르겠습니다 . 더 자세하게 설명하면 아마도 훨씬 더 나은 대답으로 이어질 것입니다. 특히 분류 알고리즘 선택과 관련된 프로그래밍 패러다임을 기반으로 선택 알고리즘에 접근하는 것은 다소 이례적인 일입니다. 실제 사례가 기밀 인 경우, 허구이지만 유사 사례를 만들면됩니다.

ILP가없는 빅 데이터 분류

ILP를 배제한 후에는 고려 사항 세트에 4 가지 다른 논리 프로그래밍 패러다임이 있다고합니다.

  1. 납치
  2. 답변 세트
  3. 강제
  4. 기능의

로직 프로그래밍 이외의 수십 개의 패러다임과 하위 패러다임 외에도.

예를 들어, Functional Logic Programming 내에 는 Inductive Functional Logic Programming 이라는 ILP의 확장이 있으며 , 이는 반전 협소화 (즉, 협소화 메커니즘의 반전)를 기반으로합니다. 이 접근법은 ILP의 몇 가지 한계를 극복하고 ( 적어도 일부 학자에 따르면 ) 표현 측면에서 적용하기에 적합하며 문제를보다 자연스럽게 표현할 수 있다는 이점이 있습니다.

데이터베이스의 특성과 ILP 사용에 대한 장애에 대해 더 많이 알지 못하면 이것이 문제를 해결하는지 또는 동일한 문제로 고통 받고 있는지 알 수 없습니다. 따라서 완전히 다른 접근법도 버리겠습니다.

ILP는 데이터 마이닝에 대한 "고전적"또는 "제안 적"접근 방식과 대조됩니다 . 이러한 접근 방식에는 의사 결정 트리, 신경망, 회귀, 배깅 및 기타 통계 방법과 같은 기계 학습의 고기와 뼈가 포함됩니다. 데이터의 크기로 인해 이러한 접근 방식을 포기하기보다는, 고성능 컴퓨팅 (HPC)을 활용하는 많은 데이터 과학자, 빅 데이터 엔지니어 및 통계 전문가와 함께 대규모 데이터 세트를 통해 이러한 방법을 사용할 수 있습니다 ( 또한 관계형 데이터베이스에서 빅 데이터를 분석하는 데 필요한 계산 리소스 및 시간을 줄이기 위해 활용할 수있는 샘플링 및 기타 통계 기법도 제공합니다.

HPC에는 다중 CPU 코어 활용, 고성능 메모리 및 고속 CPU 코어가있는 서버를 탄력적으로 사용하여 분석 확장, 고성능 데이터웨어 하우스 어플라이언스 사용, 클러스터 또는 다른 형태의 병렬 컴퓨팅 등을 포함합니다. 데이터를 어떤 언어 나 통계로 분석하고 있는지 잘 모르겠지만이 CRAN 작업보기 에는 R 언어에 대한 많은 HPC 리소스가 표시되어 제안 알고리즘을 확장 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.