답변:
하인,
사용 가능한 기능을 갖춘 많은 도구와 라이브러리가 있습니다.
선택할 작업은 작업에 GUI를 사용할지 또는 다른 프로그램에 포함시킬 것인지에 따라 다릅니다.
독립형 데이터 마이닝 도구 (WEB와 같은 Java 인터페이스가 있음) :
텍스트 기반 :
팔다리 :
프로그래밍 언어를 충분히 알고 있다면 해당 언어의 lib를 사용하거나 R을 사용해보십시오. 그렇지 않은 경우 gui로 도구 중 하나를 사용해보십시오.
R의 트리 예제 :
# we are using the iris dataset
data(iris)
# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)
# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)
# Plot the tree
plot(fit)
text(fit)
제안 된 바와 같이 R을 사용하여 분석하려면 직접 코드를 작성해야하지만 대부분의 분류 작업을위한 패키지를 즉시 찾을 수 있습니다. 기계 학습 작업보기 는 여기에서 확인할 수 있습니다.
RapidMinder를 시작하려면 Youtube를 살펴 봐야합니다. 의사 결정 트리에도 일부 스크린 캐스트가 있습니다.
Weka 는 무료 오픈 소스 머신 러닝 도구 모음입니다. Java 코드에서 호출 할 수있는 GUI와 API가 있습니다.
여기에는 여러 의사 결정 트리 알고리즘을 포함하여 많은 분류 알고리즘이 있습니다. 이들은 UI에서 사용할 수 있습니다. 가장 가까운 이웃은 좀 더 까다롭기 때문에 API를 직접 사용해야하는 것 같습니다 .
나는 Rapid Miner가 아마도 이런 유형의 것을 지원 한다고 생각 하지만, 이전에는 그런 목적으로 사용하지 않았습니다.
R 을 고려할 수도 있지만 손을 약간 더러워 야 할 수도 있습니다.
Netflix는 영화 등급 분류에서 많은 작업을 수행했습니다. 몇 년 전에 그들은 분류를 가장 향상시킬 수있는 백만 달러의 상금 을 그룹에 제공했습니다 . 다양한 팀이이 문제에 어떻게 접근했는지 읽는 데 관심이있을 수 있습니다.
아마 ... WEKA? http://www.cs.waikato.ac.nz/ml/weka/