모든 비용으로 비닝을 피해야하는 이유는 무엇입니까?


10

비닝을 항상 피해야하는 이유에 대한 몇 가지 게시물을 읽었습니다 . 이 링크에 대한 해당 주장에 대한 대중적인 참조 .

비닝 포인트 (또는 컷 포인트)는 결과적으로 손실되는 정보뿐만 아니라 임의적이며 스플라인이 선호되어야합니다.

그러나 현재 Spotify API를 사용하고 있습니다. Spotify API는 여러 기능에 대한 지속적인 자신감 측정 방법이 있습니다.

하나의 기능 "instrumentalness"를 보면 참조 상태는 다음과 같습니다.

트랙에 보컬이 없는지 여부를 예측합니다. "Ooh"및 "aah"사운드는이 맥락에서 중요한 역할을합니다. 랩 또는 음성 단어 트랙은 분명히 "음성"입니다. 악기 값이 1.0에 가까울수록 트랙에 보컬 컨텐츠가 포함되지 않을 가능성이 높습니다. 0.5보다 큰 값은 도구 트랙을 나타 내기위한 것이지만 값이 1.0에 가까울수록 신뢰도가 높습니다.

데이터의 매우 왼쪽으로 치우친 분포 (샘플의 약 90 %가 거의 0보다 크지 않음)를 감안할 때이 기능을 "instrumental"(값이 0.5보다 큰 모든 샘플)과 "non_instrumental"의 두 가지 범주 형 기능으로 변환하는 것이 합리적이라는 것을 알았습니다. "(값이 0.5 미만인 모든 샘플).

이것이 잘못 되었습니까? 그리고 거의 모든 나의 (지속적인) 데이터가 단일 값을 중심으로 회전 할 때 대안이 무엇 이었을까요? 스플라인에 대해 이해 한 결과 분류 문제 (내가하는 일)와 함께 작동하지 않습니다.


10
설명하는 설정은 비닝이 좋은 생각임을 암시하는 것으로 보이지 않습니다. 값이 1.0얼마나 가까운 지에 대한 정보가 있다고 스스로에게 말했습니다 . IMHO 당신은 도구가 될 가능성과 관련된 지속적인 기능을 갖추는 것이 좋습니다. 아마도 당신은 당신의 질문을 확장 할 수 있습니다.
Frank Harrell

내 질문은 기본적으로 비닝을 사용하는 것이 괜찮을 때입니다. 필자의 경우, 트랙이 악기가 얼마나 밀접한 지 말하는 것보다 트랙이 더 도구 적이라고 믿기 때문에 (악기 적이거나 도구가 아닌) 도메인을 기반으로 사용했습니다. 그러나 귀하는 게시물의 8 지점 에서이 논리에 반박했습니다. 나는 초보자로서 그 이유에 대해 정말로 이해하기가 어렵습니다.
Readler

1
나는 예측 모델링의 맥락에서 이것에 대해 긴 게시물을 작성한 사람 : madrury.github.io/jekyll/update/statistics/2017/08/04/...
매튜 드 루리에게

매우 유익하고 철저한 감사합니다. 그러나 나는 내 질문과의 관계를 보지 못합니다 (여전히 새로운 통찰력을 얻었으므로 모두 잘됩니다!). 당신의 기사는 회귀 문제의 예측 변수를 비닝에 대해 얘기하고 왜 나쁜 생각 (당신의 기사가 설득력에 대해 주장)하는 이유는 스플라인을 사용하여 회귀 분석을 모델링하는 데 도움이됩니다. 나는 분류 문제 (예측 변수가 본질적으로 "빈", 즉 클래스)에서 연속 특징 (입력)의 값을 이산하는 것이 나쁜 이유에 대해 묻고있었습니다.
Readler

2
거의 모든 기능이 한 지점에 있다면 작업에 관계없이 모델에 도움이되지 않을 수 있습니다.
Accumulation

답변:


15

모든 비용으로 비닝을 피해야한다고 말하는 것은 약간 과장된 일이지만, 비닝이 분석에 임의의 임의성을 도입하는 비닝 선택을 도입하는 경우는 분명합니다. 현대의 통계 방법을 사용하는 경우 일반적으로 비 닝화 "비닝 된"데이터에 대해 수행 할 수있는 모든 것이 기본 연속 값에 대해 수행 될 수 있으므로 비닝에 참여할 필요가 없습니다.

통계에서 "비닝"의 가장 일반적인 사용은 히스토그램 구성입니다. 히스토그램은 선택된 빈에서 단계 함수의 집합을 포함하는 한 일반적인 커널 밀도 추정기 (KDE)와 유사하지만 KDE는 더 부드러운 커널의 집합을 포함합니다. 히스토그램에 사용 된 단계 함수는 부드러운 함수가 아니며 일반적으로 KDE 방법에서 덜 임의적 인 더 나은 커널 함수를 선택하여 데이터의 기본 밀도를 더 잘 추정 할 수 있습니다. 나는 종종 학생들에게 히스토그램은 단지 "가난한 사람의 KDE"라고 말합니다. 개인적으로 데이터를 비닝하지 않고 KDE를 쉽게 얻을 수 있으므로 임의의 비닝을 선택하지 않고도 우수한 결과를 얻을 수 있기 때문에 개인적으로는 절대 사용하지 않을 것입니다.

"비닝 (binning)"의 또 다른 일반적인 사용은 분석가가 불연속 값을 사용하는 분석 기법을 사용하기 위해 연속 데이터를 빈으로 이산화하고자 할 때 발생합니다. 이것은 보컬 사운드 예측과 관련하여 인용 한 섹션에서 제안 된 것으로 보입니다. 이러한 경우 비닝에 의해 발생되는 임의의 임의성이 있으며 정보가 손실됩니다. 이산화 된 "binned"값에 모델을 형성하는 대신 기본 연속 값에 직접 모델을 작성하여 가능하면이를 피하는 것이 가장 좋습니다.

일반적으로 통계학자는 특히 이러한 가정을 쉽게 피하기 위해 대체 기술을 사용할 수있는 경우 임의의 가정을 도입하는 분석 기법을 사용하지 않는 것이 바람직합니다. 따라서 비닝은 일반적으로 필요하지 않다는 정서에 동의합니다. 비용이 중요하기 때문에 모든 비용을 피할 수는 없지만, 대체 불편을 피할 수있는 간단한 대체 기술이있을 때는 피해야합니다.


내가 참조. 후속 질문 : 위에서 언급 한 예제의 분포 ( 여기서는 막대 그래프)를 보면 거의 모든 샘플이 하나의 값 (여기서는 0)을 중심으로 연속 변수의 유용성을 보지 못합니다. 처음에이 기능을 비닝하는 것이 었습니다. 당신은 대안을 언급했습니다-당신은 친절하게 정교하게 만들거나 내가 더 배울 수있는 곳에 대해 올바른 방향을 제시하도록 하시겠습니까?
Readler

KDE 에 대해 읽어보고 일 변량 데이터를 작성하는 대체 방법을 고려하십시오 .
벤-복원 모니카

히스토그램은 모든 곳에서 값을 볼 수 있습니다 (그러나 대부분 0에 가깝습니다). 스플라인 맞춤을 사용하는 데 불편이 없어야하며 더 많은 정보를 제공해야합니다. 장착 된 스플라인을 플로팅하십시오! 그리고 어떤 이유로 이산해야한다면 , 그 음모가 어떻게 도움이 될 수 있습니까? 특정 용도의 경우 0.5보다 다른 컷 포인트가 더 좋을 수도 있습니다.
kjetil b halvorsen

2
히스토그램은 KDE로 올바르게 해석 될 수 없습니다. 커널은 무엇입니까?
whuber

1
세 번째 단락과 관련하여 숫자 데이터로 정보 획득을 계산할 때 비슷한 질문이 발생했습니다. 이 질문을보고이 상황에서해야 할 일을 설명 할 수 있습니까? stats.stackexchange.com/questions/384684/…
astel

4

나는 다른 사람들이 잘 알려진 Frank Harrell에 의해 잘 표현 된 이유로 연속 변수의 분류에 대해 강력하게 주장 할 것이다. 이 경우 점수를 생성 한 프로세스에 대해 스스로에게 물어 보는 것이 도움이 될 수 있습니다. 노이즈가 추가 된 경우 대부분의 악보가 사실상 제로인 것처럼 보입니다. 그들 중 일부는 소음과 다시 단합에 가깝습니다. 사이에 거의 거짓말이 없습니다. 이 경우 모듈로 노이즈를 이진 변수라고 주장 할 수 있기 때문에 분류에 대한 정당성이 더 높습니다. 연속 변수로 적합하면 계수는 예측 변수의 변화 측면에서 의미를 갖지만이 경우 대부분의 범위에서 변수는 매우 희박하게 채워져 매력적이지 않습니다.


4
비닝을 사용할 수있을 때의 짧은 대답은 다음과 같습니다. 데이터를보기 전에 불연속 점이 이미 알려진 경우 (이는 빈 엔드 포인트 임) 각 빈 내에서 x와 y의 관계가있는 것으로 알려진 경우 길이가 0이 아닌 평평합니다.
Frank Harrell

2

시간 만 보여주는 시계가 있다고 상상해보십시오. 단지 한 시간에 한 번 1/12 점프하여 다른 시간으로 점프하는 시간 화살표 만 있음을 의미합니다. 매끄럽게 움직이지 않습니다. 이러한 시계는 5시 2 분, 2시 반 또는 10시에서 3 시인 지 알 수 없으므로 매우 유용하지 않습니다. 이는 비닝 된 데이터 의 문제이며 세부 정보가 손실되고 "점프"변경 사항이 발생합니다.


1
(+1) 예. 시계 제작자가 시간 단위로 선택하지 않을 수도 있지만 시계가 19 분 단위로 임의로 결정될 수 있다는 추가 문제를 추가 할 수 있으며 정보 손실 이외의 추가 문제가있을 수 있습니다. .
벤-복원 모니카

2

고려중인 응용 프로그램을 포함하여 일부 응용 프로그램의 경우 비닝이 엄격하게 필요할 수 있습니다. 분명히 범주화 문제를 수행하려면 어느 시점에서 모델에서 범주 형 데이터를 철회해야하며 입력이 모두 범주 형이 아닌 한 비닝을 수행해야합니다. 예를 보자.

정교한 AI가 포커를하고 있습니다. 손이 다른 플레이어의 손보다 우월 할 가능성을 70 %로 평가했습니다. 베팅 할 차례이지만, 모든 비용으로 비닝을 피해야하며 결과적으로 베팅을하지 않아야한다는 말을 들었습니다. 기본적으로 접 힙니다.

그러나 중간 값 을 조기에 비닝하면 보존 될 수있는 정보가 제공된다는 점 에서 여러분이들은 내용은 사실 일 수 있습니다. 프로젝트의 궁극적 인 목적이 문제의 노래를 "좋아요"여부를 결정하는 것인데, "악기"와 "바람직 함"의 두 가지 요소에 의해 결정될 수 있습니다. 범주 형 변수로 "좋아요"를 뽑아야합니다.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

또는 가장 적절한 것으로 생각되는 계수 또는 훈련 세트에 적합한 다른 모델.

대신 "악기"(true 또는 false)와 "rocks"(true 또는 false)를 결정하면 다음과 같이 평일 전에 4 가지 범주가 배치됩니다.

  1. 악기, 바위
  2. 비 계측, 암석
  3. 악기, 바위 없음
  4. 비 계측, 암석 없음

그러나 당신이 결정하게되는 것은 당신이 좋아하는 4 가지 범주 중 어느 것입니다. 최종 결정에서 유연성을 포기했습니다.

비닝 결정은 전적으로 귀하의 목표에 달려 있습니다. 행운을 빕니다.


2

R

R{b1bN}bi=[li,ui]liuii

단순화를 위해 빈 세트가 위치 의해 정의된다고 가정 해 봅시다.l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

OP의 질문과 관련 하여 임의의 임계 값 0.5가 신뢰할 수있는 최소값과 최대 값 사이의 다양한 값으로 설정되고 그의 분석의 기본 결과가 선택과 크게 독립적이라는 것을 알 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.