전문가 세트를 주문하거나 순위를 매기는 방법은 무엇입니까?


11

필드에 많은 전문가가 포함 된 데이터베이스가 있습니다. 각 전문가마다 다음과 같은 다양한 속성 / 데이터 포인트가 있습니다.

  • 수년간의 경험.
  • 라이센스
  • 리뷰 수
  • 그 리뷰의 텍스트 내용
  • 속도, 품질 등과 같은 여러 가지 요소에 대한 각 리뷰의 5 성급 평가
  • 상, 협회, 회의 등

이 전문가들의 중요성을 기준으로 10 명 중 1 명을 평가하고 싶습니다. 일부 전문가에게는 일부 데이터 포인트가 누락되었을 수 있습니다. 이제 내 질문은 어떻게 그런 알고리즘을 생각해내는 것입니까? 누구든지 관련 문헌을 알려줄 수 있습니까?

또한 모든 등급 / 리뷰와 마찬가지로 숫자가 일부 값 근처에 모일 수 있다고 우려합니다. 예를 들어, 대부분의 경우 8 또는 5가 될 수 있습니다. 일부 속성에 대해서만 작은 차이를 점수에서 더 큰 차이로 강조 표시하는 방법이 있습니까?

내가 생각한 다른 토론은 관련이있을 수 있습니다.


객관적인 기준에 도달하지 않으면 수행 할 수 없습니다. 아마도 대부분의 가능한 등급은 매개 변수 조합으로 구성 할 수 있습니다.

답변:


12

사람들은 여러 기준에 따라 전문가와 같은 등급을 매기는 수많은 시스템을 발명했습니다 . 목록을 보려면 다중 기준 결정 분석 의 Wikipedia 페이지를 방문하십시오 . 그러나 거기에 잘 표현되지 않은 것은 가장 방어적인 방법 중 하나입니다. 다중 속성 평가 이론. 여기에는 (a) 개별 변수의 값을 다시 표현하는 적절한 방법을 결정하고 (b) 순위에 대한 점수를 얻기 위해 다시 표현 된 값에 가중치를 부여하기 위해 일련의 기준 간 장단점을 평가하는 일련의 방법이 포함됩니다. . 원리는 단순하고 방어 적이며 수학은 탄탄 할 수 없으며 이론에 대한 환상은 없습니다. 더 많은 사람들이 임의의 점수 시스템을 발명하기보다는 이러한 방법을 알고 연습해야합니다.


이 작업을 수행하기위한 R 패키지에 대해 알고 있습니까?
user333

3
@ user 아니요, 하나가 의심됩니다. 여기에는 마법의 소프트웨어 글 머리 기호가 없습니다. 거의 모든 작업에는 문제를 통해 사고하고 통제 된 방식으로 특정 절충점을 탐색하는 것이 포함됩니다.
whuber

3

궁극적으로 이것은 단지 통계적인 운동이 아닐 수도 있습니다. PCA는 순위에 사용할 수있는 처음 몇 가지 주요 구성 요소에서 점수를 생성 할 수있는 매우 강력한 정량적 방법입니다. 그러나 주요 구성 요소가 무엇인지 설명하는 것은 매우 어려운 일입니다. 그것들은 양적인 구성입니다. 그들은 변증법이 아닙니다. 따라서 그들이 의미하는 바를 설명하는 것은 때때로 불가능합니다. 정량적이지 않은 잠재 고객이있는 경우 특히 그렇습니다. 그들은 당신이 무슨 말을하는지 전혀 모를 것입니다. 그리고, PCA를 일부 비밀 블랙 박스라고 생각할 것입니다.

대신, 나는 단순히 모든 관련 변수를 정리하고 가중치가 있어야한다고 생각하는 것을 기반으로 가중치 시스템을 사용합니다.

외부인, 고객, 사용자를 위해 이것을 개발하면 사용자에게 가중치를 결정하는 유연성을 포함시킬 수 있다면 좋을 것입니다.
일부 사용자는 몇 년의 경험을 인증 및 그 반대의 가치보다 훨씬 더 중요하게 생각할 수 있습니다. 그 결정을 그들에게 맡길 수 있다면. 이렇게하면 알고리즘이 이해하지 못하는 블랙 박스가 아니며 편안하지 않습니다. 중요한 사항에 대한 상대적 평가를 기반으로 완전히 투명하게 유지하십시오.


@Gaetan 음, PCA의 경우 "텍스트 내용"과 같은 변수에 적합한 숫자 코딩을 찾아야합니다.
chl

그것은 내가 제기하는 문제가 아닙니다. PCA는 사용자가 제안한대로 더미 변수를 처리 할 수 ​​있습니다. PCA는 그렇게 강력하고 유연합니다. 그러나 정말 어려운 주요 구성 요소의 해석입니다. 첫 번째 주요 구성 요소는 다음과 같이 시작합니다. 0.02 년의 경험-0.4 텍스트 내용의 리뷰 + 0.01 연관 ... 어쩌면 당신이 그것을 설명 할 수 있습니다. 전문가의 성과는 수년간의 경험에 비례하지만 리뷰의 텍스트 내용에 반비례합니까? 터무니없는 것 같습니다. 그러나 PCA는 종종 반 직관적 인 결과를 생성합니다.
Sympa

@Gaetan 그래도 문제는 변수를 표현하는 방법 (또는 유용한 측정법을 찾는 방법)에 달려 있다는 의견을 되풀이합니다. 비 연속 측정 또는 혼합 된 데이터 유형을 처리 할 때 변수의 선형 조합을 해석하는 것이 어렵다는 것에 동의합니다. 이것이 대안 적 요인 방법을 찾기 위해 다른 의견에서 제안한 이유입니다. 어쨌든, 사용자 선호도 또는 전문가 검토 (임상 평가에서 수행됨)를 기반으로 점수 규칙을 개발하면 일종의 통계적 유효성 검사 (적어도 점수 신뢰성을 보장하기 위해)가 필요합니다.
chl

@Gaetan, 그렇습니다. 귀하의 의견 중 일부는 의미가 있으며, 이는 통계적인 운동 일뿐 아니라보다 주관적인 요소를 포함한다고 말하는 것이 옳습니다. 사용자 / 고객 관점의 의도가 다를 수 있기 때문입니다. 그가 전문가를 검색한다고 가정하면 필터를 추가하여 전문가를> X 수년의 경험 등으로 선택할 수 있습니다. 그러나 그가 2 명의 전문가로 좁혀지고 독립적 인 비교를 원한다고 가정 해 봅시다. 그래서 나는 두 전문가를 비교할 일반적인 방법을 찾고 있습니다.
Sidmitra

2
이것을 지적하기위한 +1은 통계 연습이 아닙니다. 기껏해야 PCA는 특정 데이터 세트 내에서의 관계를 설명하고 근사 공선 성을 식별하여 데이터를 단순화 할 수 있습니다. 전문가 순위매기 는 방법을 알려주는 방법은 분명하지 않습니다 .
whuber

0

모든 속성을 수량화 할 수 있다고 생각하십니까?

그렇다면 주성분 분석을 수행하는 것이 좋습니다. 모든 상관 관계가 긍정적 인 일반적인 경우 (그리고 그렇지 않은 경우 일부 변환을 사용하여 쉽게 도달 할 수 있음) 첫 번째 주요 구성 요소는 가중치가 적용되므로 전문가의 총 중요성을 측정하는 척도로 간주 할 수 있습니다. 모든 속성의 평균 (및 가중치는 변수의 해당 기여도입니다.-이 관점에서 방법 자체는 각 속성의 중요성을 나타냅니다 ). 첫 번째 주요 구성 요소에서 각 전문가가 얻는 점수는 순위를 매기는 데 필요한 것입니다.


1
이것은 멋지게 보이지만, 가장 높은 분산 속성과 가장 큰 상호 상관 속성 클러스터를 선택하지 않습니까?

1
또는 혼합 데이터에 대해 다중 대응 성 분석 또는 다중 요인 분석 을 수행 수 있으며 (일부 변수에 대해 수치 기록이 현실적이지 않은 경우) 나머지 아이디어 (계산 점수 및 1 차원의 가변 하중 확인)가 적용됩니다. 게다가.
chl

3
첫 번째 구성 요소는 전문가들 사이의 공통된 공통 방향을 가리킬 것입니다. 그러면 누가 더 나은지 누가 더 나쁜지를 어떻게 알 수 있습니까? 이를 위해서는 이러한 변수와 "좋은"또는 "나쁜"전문가의 품질 간의 관계에 관한 추가 정보가 필요합니다. 모든 변수가 선이나 악과 단조 적으로 연관되어 있다고 생각한다면 PCA는 극한의 전문가를 탐험하는 데 도움이 될 수 있습니다. 단조로운 가정조차 의심 스럽다.
whuber

1
@ whuber 감사합니다. 어쩌면 이것을 자신의 반응에 추가 할 수 있습니까 (매우 환영합니다)?
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.