순위를 지정할 수 있도록 여러 변수에서 품질 지수 생성


22

네 개의 숫자 변수가 있습니다. 그들 모두는 토양 품질의 척도입니다. 변수가 높을수록 품질이 높아집니다. 그들 모두의 범위는 다릅니다 :

1에서 10까지의 Var1

1000에서 2000 사이의 Var2

150에서 300 사이의 Var3

0에서 5까지의 Var4

4 가지 변수를 단일 토양 품질 점수로 결합하여 순서를 성공적으로 평가해야합니다.

내 생각은 매우 간단합니다. 네 가지 변수를 모두 표준화하고 합산하면 순위가 매겨지는 점수입니다. 이 방법을 적용하는 데 문제가 있습니까? 다른 추천 방법이 있습니까?

감사

편집하다:

고마워 많은 논의가 "도메인 전문 기술"... 농업 분야 ... 더 많은 통계 대화를 기대하는 반면. 내가 사용할 기술 측면에서 볼 때 ... 실험으로서 간단한 z- 점수 요약 + 로지스틱 회귀가 될 것입니다. 대다수의 샘플은 90 %의 품질이 좋지 않기 때문에 3 가지 품질 범주를 하나로 결합하고 기본적으로 이진 문제가 있습니다 (일부 대 비 품질). 하나의 돌로 두 마리의 새를 죽입니다. 이벤트 속도 측면에서 샘플을 늘리고 샘플을 분류하도록 전문가를 활용합니다. 그런 다음 전문가 분류 샘플을 사용하여 전문가와의 일치 / 불일치 수준을 최대화하기 위해 로그-레지 모델에 맞출 것입니다 .... 어떻게 들립니까?

답변:


19

제안 된 접근 방식은 합리적인 결과를 제공 할 수 있지만 우연히 만 가능합니다. 이 거리에서, 즉 변수의 의미가 위장 된 액면가에 의문을 제기하면 몇 가지 문제가 분명해집니다.

  1. 각 변수가 "품질"과 긍정적으로 관련되어 있음은 분명하지 않습니다. 예를 들어 'Var1'의 10이 Var1이 1 일 때 "품질"이 품질보다 나쁜 경우 어떻게해야합니까? 그런 다음 그것을 합계에 추가하는 것은 할 수있는만큼 잘못입니다. 그것은 할 필요가 차감.

  2. 표준화는 "품질"이 데이터 세트 자체에 의존한다는 것을 의미합니다. 따라서 정의는 다른 데이터 세트 또는 이러한 데이터에 대한 추가 및 삭제에 따라 변경됩니다. 이는 "품질"을 임의의 일시적인 비 객관적인 구성으로 만들 수 있고 데이터 집합 간의 비교를 배제 할 수 있습니다.

  3. "품질"에 대한 정의가 없습니다. 무슨 뜻입니까? 오염 된 물의 이동을 차단하는 능력? 유기 공정을 지원하는 능력? 특정 화학 반응을 촉진하는 능력? 이러한 목적 중 하나에 좋은 토양은 다른 사람들에게는 특히 좋지 않을 수 있습니다.

  4. 언급 된 문제는 목적이 없습니다. "품질"을 평가해야합니까? 더 많은 분석에 입력하고, "최상의"토양을 선택하고, 과학적 가설을 결정하고, 이론을 개발하고, 제품을 홍보하기 위해 순위가 어떻게 사용됩니까?

  5. 순위의 결과는 분명하지 않습니다. 순위가 정확하지 않거나 열등한 경우 어떻게됩니까? 세상은 더 굶주리고 환경은 더 오염되고 과학자들은 더 잘못 인도되고 정원사는 더 실망 할 것입니까?

  6. 변수의 선형 조합이 적절한 이유는 무엇입니까? 왜 그들이 공 의적 또는 더 난해한 것으로 곱하거나 지수화하거나 결합 해서는 안 됩니까?

  7. 생 토질 측정은 일반적으로 다시 표현됩니다. 예를 들어, 로그 투과성은 일반적으로 투과성 자체보다 더 유용하고 로그 수소 이온 활성 (pH)은 활성보다 훨씬 더 유용합니다. "품질"을 결정하기위한 변수의 적절한 표현은 무엇입니까?

토양 과학이 이러한 질문들 대부분에 답하고 "품질"의 객관적인 의미에 대해 변수의 적절한 조합이 무엇인지를 나타내기를 바랍니다. 그렇지 않은 경우 다중 속성 평가 문제에 직면하게 됩니다. Wikipedia 기사에는이를 해결하기위한 수십 가지 방법이 나열되어 있습니다. IMHO, 그들 중 대부분은 과학적 질문에 부적합합니다. 견실 한 이론과 경험적 문제에 대한 적용 가능성이있는 몇 안되는 사람 중 하나는 Keeney & Raiffa의 다중 속성 평가 이론입니다.(MAVT). 변수의 두 가지 특정 조합에 대해 두 가지 중 더 높은 순위를 결정할 수 있어야합니다. 이러한 비교의 구조화 된 순서는 (a) 값을 다시 표현하는 적절한 방법; (b) 재 표현 된 값의 선형 조합이 정확한 순위를 생성하는지의 여부; (c) 선형 조합이 가능한 경우 계수를 계산할 수 있습니다. 요컨대, MAVT는 특정 사례를 비교하는 방법을 이미 알고 있다면 문제 해결을위한 알고리즘을 제공합니다.


RE : 1. 네 변수 모두 RE에 대해 "숫자가 많을수록 품질이 높다"는 것을 알고 있습니다. 2. 좋은 지적. 두 개의 데이터 세트를 비교하기 위해 무엇을 할 수
있습니까

2
@user 필자의 권장 사항은 마지막 단락에 있습니다. 과학 문헌에서 "품질"의 정량적 표현을 찾는 것이 좋습니다. 그것을 막고, MAVT를 적용하십시오. 둘 다 데이터 세트와 관계없이 고정 된 공식을 생성합니다. 그것은 비교를 보장합니다.
whuber

1
@ whuber, 사용 가능한 정보를 기반으로 조제 조치를 취하는 문제로 이것을 볼 수 없었습니다.이 경우 Z 점수를 합산하는 것이 소리를내는 것만 큼 나쁘지 않습니까?
Andy W

3
@ 앤디 당신은 "형성 측정"과 "사용 가능한 정보"의 의미를 설명 할 수 있습니까? // 나는 것을 지적해야 많은 예를 들면, 공장의 pH의 범위 내에서 번성 할 수 있지만,이 범위를 초과 산도의 함께 고통 : 농업 토양 적합성의 조치가 훨씬 덜 선형, 심지어 단조없는 어느 방향 . 토양 특성의 간단한 선형 조합이 농업 적 특성과 객관적인 관계를 가졌다면 그것은 실제로 특별한 상황 일 것입니다.
whuber

2
@Andy "품질"이 토양 샘플의 순위를 매기는 데 사용되는 숫자 값이라고 가정하면 문제는 별개의 결정 중 하나입니다. 한 쌍의 속성 및 품질이 더 좋은 것은 무엇입니까? 원하는 속성 조합을 작성하려면 품질이 어떤지 알아야합니다. 내가 취한 접근법은 독립적 인 품질 평가가 없지만 (회귀 또는 반응 표면 모델링 상황에 처하게 할) 가정하지만 합리적인 비교로 이러한 비교를 할 수 있습니다. ( x 1 , , x k )(y1,,yk)(x1,,xk)
whuber

3

누구나 Russell G. Congalton의 '원격 감지 데이터의 분류 정확도 평가 검토'1990 년을 보았습니다. 여기에는 varing 행렬에 대한 오류 행렬이라고하는 기술과 그가 'Normalizing data'라는 용어를 사용하는 방법이 설명되어 있습니다. 여기서는 모든 다른 벡터를 가져 와서 'normalize'하거나 0에서 1로 동일하게 설정합니다. 기본적으로 모든 벡터를 0에서 1까지의 범위입니다.


0

논의하지 않은 또 다른 사항은 측정의 규모입니다. V1과 V5는 순위가 높은 것처럼 보이고 다른 하나는 그렇지 않은 것 같습니다. 따라서 표준화로 인해 점수가 왜곡 될 수 있습니다. 따라서 모든 변수를 순위로 더 잘 변환하고 각 변수의 가중치를 결정하는 것이 좋습니다. 가중치가 같은 경우는 거의 없습니다. 동일한 가중치는 "아무것도없는"기본값입니다. 우선 순위 가중치를 얻기 위해 상관 관계 또는 회귀 분석을 수행 할 수 있습니다.


상관 관계 분석을 사용하여 무게를 측정하려면 어떻게해야합니까?
user333

예를 들어 전문가 의견과 같은 기존의 전반적인 품질 측정치가 이미 있거나 다른 변수를 대리로 기꺼이 받아들이려는 경우 가장 높은 상관 변수를 선택하여 가장 높은 가중치를 부여 할 수 있습니다.
Ralph Winters

-3

Ralph Winters의 답변에 이어 적절한 표준화 된 점수 매트릭스에 PCA (주성분 분석)를 사용할 수 있습니다. 이것은 미래의 점수를 결합하는 데 사용할 수있는 "자연"가중치 벡터를 제공합니다.

모든 점수가 순위로 변환 된 후에도이 작업을 수행하십시오. 결과가 매우 비슷한 경우 두 방법 중 하나를 계속 수행해야 할 충분한 이유가 있습니다. 불일치가 있으면 흥미로운 질문과 더 나은 이해로 이어질 것입니다.


4
동의하지 않습니다. 호기심에 대한 항목 간 상관 관계에 관심이있을 수 있지만 모든 변수는 직교 적이지만 여전히 품질에 기여할 수 있습니다. 어리석은 예를 들어 남극 대륙의 토양은 최적의 질소 함량을 가질 수 있지만 적절한 기후로 충분하다고는 생각하지 않습니다.
Andy W

@Andy W :이 경우 모든 변수에 동일한 가중치를 적용해야하며 PCA가 알려줍니다. 또한 주요 구성 요소는 점수 행렬에서 전체 변동의 상대적으로 작은 부분만을 설명한다는 것을 알 수 있습니다.
Hans Engler

3
나는 여전히 동의하지 않습니다. 점수에 동일한 가중치를 부여해야하는지 여부는 알려주지 않습니다. 두 항목은 양의 상관 관계를 가질 수 있지만 각각 "품질"과 반대되는 관계를 갖습니다. 항목 간 상관 관계가 주어진 맥락에서 관찰되지 않은 측정에 대해 반드시 말하지는 않습니다. 만약 품질이 잠복 변수이고 변수가 사실 일 수있는 잠복 구조의 "반사"라면,이 예에서는 그렇지 않습니다.
Andy W

@Andy, 관찰 된 변수와 "품질"의 연관성에 대해 알려진 것이 없다면 귀하의 요점에 동의합니다. 그러나 OP는 "[모든 변수]는 토양 품질의 척도입니다. 변수가 높을수록 품질이 높음"은 긍정적 인 연관성을 암시합니다. 더 정확하게 말하면 : 는 관측치 의 행렬로 하자 . 의 특이 값 분해에서 첫 번째 항 를 고려하십시오 . 모든 변수가 "quality"와 동일한 연관성을 갖는 경우, 모든 가 동일한 부호를 가질 것으로 예상합니다 . 이 경우 이러한 를 가중치로 사용하십시오. m × n σ 1 u v T A n v j v jAm×nσ1uvTAnvjvj
한스 잉글 러

3
나는 여전히 동의하지 않습니다. 연관성이 같은 방향에있을 것으로 예상 되더라도 이것이 지표 간 상관 관계에 따라 본질적으로 가중치를 부여해야한다는 것을 의미하지는 않습니다. 공유 분산은 지표 간의 관계에 대해서만 말할 수 있습니다. 이러한 지표에서 알려진 품질 척도를 예측하는 회귀 모형을 생각해보십시오. 지표 간 항목 간 상관 관계는 예상 경사가 무엇인지 알려주지 않습니다.
Andy W
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.