영화 등급 예측을위한 분류 모델


11

데이터 마이닝에 익숙하지 않고 영화 등급 예측을위한 분류 모델을 만들고 있습니다.

IMDB에서 데이터 세트를 수집했으며 모델에 의사 결정 트리와 가장 가까운 인접 방법을 사용할 계획입니다. 무료로 사용할 수있는 데이터 마이닝 도구가 필요한 기능을 제공 할 수 있는지 알고 싶습니다.

답변:


5

하인,

사용 가능한 기능을 갖춘 많은 도구와 라이브러리가 있습니다.

선택할 작업은 작업에 GUI를 사용할지 또는 다른 프로그램에 포함시킬 것인지에 따라 다릅니다.

독립형 데이터 마이닝 도구 (WEB와 같은 Java 인터페이스가 있음) :

  • 빠른 광부
  • 주황색
  • R 용 딸랑이 GUI
  • KNIME

텍스트 기반 :

  • GNU R

팔다리 :

  • Python 용 Scikit
  • 하둡에 대한 Mahout

프로그래밍 언어를 충분히 알고 있다면 해당 언어의 lib를 사용하거나 R을 사용해보십시오. 그렇지 않은 경우 gui로 도구 중 하나를 사용해보십시오.

R의 트리 예제 :

# we are using the iris dataset
data(iris)

# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)

# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)

# Plot the tree
plot(fit)
text(fit)

제안 된 바와 같이 R을 사용하여 분석하려면 직접 코드를 작성해야하지만 대부분의 분류 작업을위한 패키지를 즉시 찾을 수 있습니다. 기계 학습 작업보기 는 여기에서 확인할 수 있습니다.

RapidMinder를 시작하려면 Youtube를 살펴 봐야합니다. 의사 결정 트리에도 일부 스크린 캐스트가 있습니다.


1
다운 보트를 원하지만 새롭기 때문에 OP의 특정 작업에 적합한 이유를 설명하지 않고 도구 세트 (일반적인 대답)를 간단히 나열하면됩니다. 자세한 내용을 알려 주시면 답변이 stats.stackexchange.com/questions/2007/… 로 대체 될 수 있습니다 . 공격하지 마십시오. 친절한 조언으로 받아 들여주십시오. :)
steffen

@steffen : 정중하게, audijenz의 4 upvotes와 0 downvotes의 수령은 그렇지 않다고 말합니다. 나는 그 / 그녀가 그 질문에 훌륭하게 대답했다고 생각합니다. "무료로 사용할 수있는 데이터 마이닝 도구가 필요한 기능을 제공 할 수 있습니다."라고 물었고 그 대답은 그 이상이었습니다. 실제로, 당신이 연결 한 스레드의 답변보다 훨씬 더.
rolando2

1
@ rolando2 audijenz가 편집하기 전에 의견을 추가했으며 이미 편집 된 답변을 상향 조정했습니다.;).
steffen

@ 스티븐 : 나는 수정 서!
rolando2

5

Weka 는 무료 오픈 소스 머신 러닝 도구 모음입니다. Java 코드에서 호출 할 수있는 GUI와 API가 있습니다.

여기에는 여러 의사 결정 트리 알고리즘을 포함하여 많은 분류 알고리즘이 있습니다. 이들은 UI에서 사용할 수 있습니다. 가장 가까운 이웃은 좀 더 까다롭기 때문에 API를 직접 사용해야하는 것 같습니다 .

나는 Rapid Miner가 아마도 이런 유형의 것을 지원 한다고 생각 하지만, 이전에는 그런 목적으로 사용하지 않았습니다.

R 을 고려할 수도 있지만 손을 약간 더러워 야 할 수도 있습니다.

Netflix는 영화 등급 분류에서 많은 작업을 수행했습니다. 몇 년 전에 그들은 분류를 가장 향상시킬 수있는 백만 달러의 상금 을 그룹에 제공했습니다 . 다양한 팀이이 문제에 어떻게 접근했는지 읽는 데 관심이있을 수 있습니다.


감사합니다. Michael, 의사 결정 트리 알고리즘을 위해 Weka를 사용해 보았지만 대부분의 의사 결정 트리 알고리즘에서 숫자 값이 지원되지 않는 것으로 나타났습니다. 내 데이터 세트에는 등급 (클래스 레이블), 예산, 디렉터 ID, 액터 ID 등과 같은 숫자 값이 있습니다. 어떻게 이러한 숫자 값을 처리 할 수 ​​있습니까? (내 질문에 대해 새 스레드를 열어야할지 확실하지 않습니다). 다른 적합한 알고리즘에 대한 제안이 있습니까?
K Hein

2
@K Hein 1) DT 대신 Random Forests (RF)를 사용하는 것이 좋습니다. stats.stackexchange.com/questions/10001/…을 참조하십시오 . 2) 숫자 변수 : RF는 숫자 레이블과 이산 레이블을 모두 처리 할 수 ​​있으므로 두 가지 방법을 모두 시도해야합니다. director_id, actor_id는 숫자 기능이 아니며 부울 (액터 참여?) 또는 명목 (메인 액터)입니다. 예산은 이산화되거나 RF가 처리하도록 할 수 있습니다. 이 경우 알고리즘은 최적의 분리 점을 검색합니다. 나는 좀 더 구체적인 질문으로 놀고 나중에 다시 돌아올 것을 제안한다;).
steffen

@steffen 감사합니다 Steffen! RF로 시도해 보 겠지만 여전히 귀하의 의견과 관련하여 몇 가지 질문이 있습니다. actor_id를 부울로 가져 오려면 각 고유 한 actor_id에 대해 isActor1Particated와 같은 부울 속성이 있습니다 (예 : actor_id = 1)? actor_id를 공칭 속성으로 변경하려면 어떻게 진행해야합니까? 데이터 마이닝 영역을 처음 접했을 때 설명을 제공 할 수 있다면 매우 감사 할 것입니다.
K Hein

1
@KHein 공칭 제안 뒤에 내 아이디어는 first_actor, second_actor 등의 기능을 만들어서 배우를 가장 중요한 것으로 제한하는 것이 었습니다. 어쨌든 : 가변 길이 정보 (배우, 감독, 키워드 등)를 다루는 방법은 별도의 질문.
steffen

@KHein 당신이 "가변 길이의 정보를 다루는 방법"질문을 할 때, 여기에 링크하십시오 :-)
대런 쿡

1

아마 ... WEKA? http://www.cs.waikato.ac.nz/ml/weka/


1
(-1) : Weka는 실제로 NN 및 DT의 구현을 포함하는 데이터 마이닝 도구이지만, 그 대답은 매우 포괄적이므로 많은 질문에 답변 할 수 있습니다. Weka가 매우 높은 차원의 희소 데이터가 제공되는 등급 예측의 특수한 작업에 적합하다고 생각한다면 예제 (또는 예제 링크)를 보여주지 않겠습니까? 불쾌감을주지 말고 우호적 인 제안으로 받아들이십시오.
steffen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.