데이터의 관련 기능을 어떻게 선택합니까?


11

최근에 특정 자원에 대한 지출에 대한 비용 분석을 위해 문제를 해결하고있었습니다. 나는 보통 분석에서 몇 가지 수동 결정을 내리고 그에 따라 계획합니다.

엑셀 형식의 빅 데이터 세트와 수백 개의 열로 다양한 시간 프레임 및 유형 (기타 다양한 상세 사용)에서 리소스 사용을 정의합니다. 또한 지난 4 년간의 데이터, 실제 리소스 사용량 및 그에 따른 비용에 대한 정보도 있습니다.

NN을 교육하여 비용을 미리 예측하고 비용 분석을 수동으로 수행하기 전에 계획을 세우기를 원했습니다.

그러나 내가 직면하고있는 가장 큰 문제는 그러한 분석을위한 기능을 식별해야한다는 것입니다. 데이터 세트에서 기능을 식별 할 수있는 방법이 있기를 바랐습니다.

추신-PCA 및 기타 기능 세트 축소 기술에 대한 아이디어를 얻었습니다.보고있는 것은 처음에이를 식별하는 방법입니다.

답변:


1

테이블에 모든 데이터가 있으므로 상대적으로 간단한 작업은 각 열을 독립적으로 고려한 다음 출력 변수 (발생 비용)와 그 상관 관계가 있는지 확인하는 것입니다.

열에 출력 변수와 상관이 없거나 매우 낮은 상관 관계가 있으면 중요하지 않은 것으로 간주하십시오. 그런 다음 컷을 만드는 것이 더 고려됩니다.

이것은 의사 결정 트리 알고리즘의 작동 방식 (예 : ID3)과 크게 다르지 않습니다.


0

기능 선택에 대한 엄격한 규칙이 없으므로 데이터 세트를 수동으로 검사하고 기능 엔지니어링을위한 다양한 기술을 시도해야합니다. 그리고 신경망을 적용해야한다는 규칙은 없으며 신경망은 훈련하는 데 많은 시간이 소요됩니다. 대신 데이터가 표 형식으로되어 있기 때문에 의사 결정 트리 기반 방법 (무작위 숲)을 실험 할 수 있습니다.


의견을 보내 주셔서 감사합니다. 1. NN이 가설을 테스트하는 가장 좋은 방법은 아니라는 데 동의하지만, NN을 사용하면 기능간에 더 광범위한 관계를 달성하여 더 나은 결과를 얻을 수 있다고 생각합니다 (대부분의 경우). 2. 내가 겪고있는 문제는 실제로 문제의 패턴을 정의하는 기능과 기능 가중치를 정의하는 방법을 선택하는 것이 었습니다.
Karan Chopra 2016 년

0

그것은 훌륭한 질문이며 아마도 ML에서 가장 어려운 작업 중 하나 일 것입니다.

몇 가지 옵션이 있습니다.

  1. 가중치 알고리즘 (예 : 카이 제곱)을 사용하여 출력에 가장 많은 기여를하는 기능을 이해할 수 있습니다.
  2. 다른 ML 알고리즘을 사용하여 지형지 물이 예측에 기여하는지 여부를 분류 할 수 있습니다.
  3. 본질적으로 기능 가중치 (예 : 임의 포리스트)를 제공하는 다른 ML 알고리즘 (NN 이외)을 사용할 수 있습니다.

희망이 도움이


0

자원 참여와 비용의 상관 관계뿐만 아니라 자원 참여 비용에 대한 수익도 고려하는 것이 현명합니다. 일반적인 과제는 이러한 수익이 거의 항상 누적되거나 지연된다는 것입니다. 축적의 경우는 자원이 프로세스의 지속적인 조정 또는 개선 인 경우 부재시 수익 생성이 느려진다. 연구 자원이 일정 기간 동안 수익에 영향을 미치지 않으면 서 비용을 발생시키는 경우가 지연되지만, 연구 결과가 생산적인 결과를 제공 할 때 시작되는 수익 창출은 전달 된 결과의 총 비용을 크게 상회 할 수 있습니다.

비용 데이터 자체가 부적응 네트워크 학습으로 이어질 수있는 이유는 예를 들어 마케팅 비용을 줄 이도록 훈련 된 네트워크가이를 제로로하기 때문입니다. 일반적으로 사업이 중단 될 때까지 판매 리드 추세가 감소합니다. 훈련 정보에 답을 포함시키지 않으면 유용한 학습이 이루어지지 않을 수 있습니다.

기본 MLP (Multi-layer Perceptron)는 데이터의 시간적 특성, 누적 및 지연 측면을 학습하지 않습니다. 상태 저장 네트워크가 필요합니다. 이 글을 쓰는 시점에서 이런 종류의 학습에 가장 일관되게 성공한 네트워크 유형은 LSTM (long short term memory) 네트워크 유형 또는 파생 변형 중 하나입니다. 제안 된 자원 참여 순서 (완전히 상세한 예산 계획)에 대한 비즈니스 결과를 예측할 수 있도록 네트워크를 교육하기 위해 수익 및 균형 데이터를 비용 데이터와 함께 사용해야합니다.

손실 함수는 중기 및 장기 재무 목표와 정렬 용어의 균형을 적절히 맞춰야합니다. 부정적인 가용 현금은 손실 기능을 현저히 증가시켜 평판에 대한 기본적인 위험 회피와 신용 비용을 배웁니다.

데이터의 어떤 열이 투자 수익 (ROI)과 강한 상관 관계가 있는지 미리 결정하기는 어렵습니다. 다음 기준 중 하나를 따르는 열을 즉시 제외 할 수 있습니다.

  • 항상 비워
  • 다른 상수, 모든 행에 대해 동일한 값을 갖는 상수
  • 항상 다른 열에서 파생 될 수있는 것

다른 방법으로 데이터를 줄일 수 있습니다

  • 간단한 방법으로 트렌드를 특성화하여 데이터를 완전히 설명
  • 각 문자열에 숫자를 할당하여 인덱스를 사용하여 100 % 정확도로 긴 문자열을 지정
  • 압축
  • 그렇지 않으면 데이터의 중복성을 줄입니다.

RBM (제한된 Boltzmann 기계)은 데이터에서 기능을 추출 할 수 있으며 PCA는 정보량이 적은 열을 비출 수 있지만 수익과의 상관 관계에서 열의 중요성은 이러한 장치를 기본 형식으로 사용하여 식별되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.