비원 자적 특징을 가진 예측


10

비 원자 데이터를 예측 기능으로 사용하고 싶습니다. 이 기능이있는 테이블이 있다고 가정하십시오.

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

예를 들어 열 2를 예측 / 분류하고 싶습니다.

"Foo Born은 어디 있었습니까?"와 같은 질문에 자동으로 응답하도록 무언가를 만들고 있습니다. ...

먼저 검색 엔진에 쿼리를 한 다음 결과로 일부 텍스트 데이터를 얻은 다음 모든 구문 분석 작업 (태그 지정, 형태소 분석, 구문 분석, 분할 ...)을 수행합니다.

첫 번째 접근 방식은 각 행에 텍스트 줄과 "First Word", "Tag of First Word", "Chunks"등과 같은 많은 기능이있는 표를 만드는 것입니다.

그러나이 접근법으로 문장 사이의 관계가 빠져 있습니다.

트리 구조 (또는 벡터) 내부를보고 관계를 만들고 예측 / 분류와 관련된 모든 것을 추출하는 알고리즘이 있는지 알고 싶습니다. 구현 해야하는 알고리즘보다 라이브러리를 알고 싶습니다.


명확히하십시오 : 2 열을 기능으로 사용하고 싶다고 말하지만 2 열을 예측 / 분류하고 싶다고 말하십시오. 또한이 기능을 '비 원자'라고 부릅니다 ... 범주 적이 지 않습니까?
logc

답변:


7

많은 다른 종류의 데이터를 처리 할 때, 특히 그들 사이의 관계가 명확하지 않은 경우 의사 결정 트리를 기반으로 한 기술을 강력히 권장합니다. 내 지식 중 가장 인기있는 것은 임의의 숲 이며 매우 무작위입니다. 나무 .

둘 다 sklearn으로 구현되었으며 사용하기가 매우 간단합니다. 매우 높은 수준에서, decision tree다중 접근 방식이 여러 유형의 데이터에 유리한 이유 는 의사 결정 트리가 표현을 이해할 수있는 한 의사 결정 트리가 처리하는 특정 데이터와 크게 독립적이기 때문입니다.

여전히 데이터를 어떤 종류의 특징 벡터에 맞추어야하지만 꽤 간단한 작업처럼 보이는 예제를 기반으로하고 구현에 대해 조금 더 깊이 기꺼이 나아가려면 확실히 생각해 낼 수 있습니다. 기본 알고리즘에서 실제로 아무것도 변경하지 않고도 사용자 정의 트리 분할 규칙. 원래의 논문은 당신이 탄 것을주고 싶은 경우에 시작하는 꽤 괜찮은 곳입니다.

텍스트 데이터에서 의사 구조 데이터를 원한다면 doc2vec최근에 Google에서 개발 한을 살펴 보는 것이 좋습니다 . 나는 어떤 좋은 오픈 소스 구현이 지금 있다고 생각하지 않지만, 그것은에 매우 간단 개선의 word2vec구현 적어도에서이 알고리즘 C등을 python.

희망이 도움이됩니다! 더 궁금한 점이 있으면 알려주세요.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.