동료 등급 설계-정확한 순위 / 등급을 얻기 위해 그래프 선택


9

배경. 피어 그레이딩을 그레이딩 프로세스의 일부로 사용하여 반자동 그레이딩을위한 코드를 작성 중입니다. 학생들은 한 번에 한 쌍의 에세이를 제공받으며, 어느 쪽이 더 좋고 더 좋은지를 선택할 수있는 슬라이더가 있습니다. 예를 들어 슬라이더는 다음과 같습니다.

A---X-B

동료 채점 결과에 따라 에세이의 순위가 결정되고 교사는 상위 X % 및 하위 X %를 채점하고 모든 에세이의 점수는이를 기준으로 자동 계산됩니다. 나는 이미이 순위 / 점수 프로세스를 수행하는 방법을 생각 해냈다. 그 부분은 잘 작동합니다.

내 질문. 학생들에게 제공 할 에세이 쌍을 어떻게 선택해야합니까?

시뮬레이션을 통해 정확한 순위를 얻으려면 3 번 이상 동료 평가를 받아야합니다. 따라서 각 에세이는 동료 채점을 위해 제시된 쌍 중 적어도 3 쌍으로 나타나야합니다.

이것을 그래프 문제로 생각할 수 있습니다. 에세이를 노드로 생각하십시오. 각 간선은 피어 채점 과정에서 제공되는 한 쌍의 에세이를 나타냅니다. 위의 정확도 결과는 각 노드 (또는 대부분의 노드)의 정도가 3 이상이어야 함을 나타냅니다. 어떤 종류의 그래프를 사용해야합니까? 피어 그레이딩 중에 사용할 그래프를 어떻게 생성해야합니까?

그래프에 클러스터가있는 경우 피어 그레이딩이 왜곡됩니다. 예를 들어, 우리는 양질의 에세이에 대해 대부분 높은 수준의 에세이를 상대로 등급을 매기는 것을 원하지 않을 것입니다.

무엇을 추천하나요?

이 문제는 다음과 같은 것을 사용하여 무 방향 그래프로 모델링 할 수 있다고 생각합니다.

  • 가장 낮은 수준의 노드를 사용하여 시작하고 다음으로 가장 낮은 노드를 연결하십시오.
  • 평균 학위가 3 이상이 될 때까지 계속하십시오
  • 노드 연결 최대화
  • 파쇄 횟수 최소화

이것이 좋은 접근법입니까? 그렇지 않다면 대신 무엇을 추천 하시겠습니까?


이것은 확장기에 대한 흥미로운 응용 프로그램 일 수 있습니다 . 확장기에서 과제를 정리하려고 했습니까?
Shaull

가장자리에 대한 당신의 생각은 반쯤 맞습니다. 가장자리는 비교 결과가 아니라 비교가 발생했음을 나타냅니다. 따라서 가장자리의 유무는 많은 정보를 인코딩하지 않고 발생한 비교 만 인코딩합니다. 문제를 처리하는 자연적인 방법은 방향이 선호하는쪽으로 향하는 가중 / 지향 모서리를 포함합니다. 흐름 문제와 비슷해 보입니다. 또는 이진? "슬라이더"는 평가와 같이 나에게 여러 가치가있는 것으로 들렸다.
vzn

질문이 무엇인지 명확히 할 수 있습니까? 그래프를 선택하는 방법에 대해 질문하고 있습니까? 또는 각 모서리에 대한 그래프와 일련의 등급이 주어지면 모든 에세이의 순위를 매기는 방법에 대해 묻고 있습니까? 전자는 "실험 디자인"의 일반적인 범주에 속한다. 후자는 "데이터 분석"의 일반적인 범주 (그리고 내 대답과 vzn의 대답 모두에 도움이되는 자료를 제공합니다).
DW

실제로 우리는 순위와 점수를 매겼지만 아래 방법을 시도 할 것입니다.
ismail

유사한 문제에 대한 일부 분석에서 "순위 지정"과 "점수"라는 단어는 서로 바뀔 수 있습니다. 이제는 추가 검토 및 편집을 통해 시스템에서 "순위 지정"을 비교 데이터를 기반으로 한 컴퓨터 기반 순위의 평가로, "점수"를 에세이 품질에 대한 인간 기반 주관적 결정으로도 지칭합니다. 순위 프로세스를 따르는 보통 "등급"이라고합니다. & 당신은 주로 비교 쌍을 배포하는 데 관심이 있습니다 ...
vzn

답변:


7

이 과정에는 두 가지 부분이 있습니다 : (a) 동료 채점 과정에서 학생들이 평가할 에세이 쌍을 결정 하기위한 그래프 ( 실험 설계 ) 선택 및 (b) 학생의 동료 성적에 따라 모든 에세이의 순위를 정합니다. 어느 선생님이 순위를 정해야하는지 결정하십시오. 각각에 대해 몇 가지 방법을 제안합니다.

그래프 선택

문제 설명. 첫 번째 단계는 그래프를 생성하는 것입니다. 다시 말해, 동료 채점 운동 중에 학생들에게 보여줄 에세이 쌍을 선택해야합니다.

제안 된 해결책. 이 작업에서는 모든 3 개의 정규 (단순) 그래프 세트에서 무작위로 무작위로 선택된 랜덤 그래프 를 생성하는 것이 좋습니다 .

정당성과 세부 사항. 랜덤 정규 그래프는 좋은 확장기 인 것으로 알려져 있습니다. 실제로, 정규 그래프는 점진적으로 최적의 확장 계수를 갖습니다. 또한 그래프가 무작위이므로 그레이딩이 기울어 질 위험이 없습니다. 무작위로 그래프를 균일하게 선택하면 모든 학생들에게 당신의 접근 방식이 동등하게 공평하게됩니다. 균일하게 임의의 3 규칙 그래프가 목적에 가장 적합하다고 생각합니다.

이것은 개의 정점에서 무작위로 균일하게 3 개의 정규 (간단한) 그래프를 어떻게 선택 하는가?

다행히도이를 수행하는 알려진 알고리즘이 있습니다. 기본적으로 다음을 수행합니다.

  1. 포인트를 만듭니다 . 이것을 각 정점 의 3 개 사본으로 생각할 수 있습니다 . 이 포인트 에서 무작위로 무작위로 완벽한 일치를 생성하십시오 . 즉, 모든 포인트가 페어링 해제 될 때까지 다음 절차를 반복하십시오 . 페어링되지 않은 포인트를 선택하고 페어링되지 않은 포인트 세트에서 임의로 선택한 다른 포인트와 페어링하십시오.

  2. 일치하는 항목과 일치하는 각 두 점에 대해 해당 정점 사이에 모서리를 그립니다 (복사본 임). 이것은 개의 정점 에 대한 그래프를 제공합니다 .

  3. 다음으로 결과 그래프가 간단한 지 테스트합니다 (즉, 자체 루프가없고 반복되는 모서리가 없음). 단순하지 않은 경우 그래프를 버리고 1 단계로 돌아가십시오. 단순하면 완료된 것입니다. 이 그래프를 출력하십시오.

이 절차는 3 개의 정규 (단순) 그래프 세트에 균일 한 분포를 생성하는 것으로 알려져 있습니다. 또한 3 단계에서 결과 그래프를 수락 할 확률이 일정하다는 것이 알려져 있으므로 평균적으로 알고리즘은 시도를 수행하므로 상당히 효율적입니다 (예 : 다항식 실행 시간).영형(1)

이 접근 방식이 Bollobas, Bender 및 Canfield에 적용되는 것을 보았습니다. 이 접근 방식은 Wikipedia에 간단히 요약되어 있습니다. 이 블로그 게시물 에서 토론 찾을 수도 있습니다 .

엄밀히 말하면 숫자 은 짝수 여야합니다 (그렇지 않으면 꼭짓점 에는 3 개의 정규 그래프가 없습니다 ). 그러나 이것은 다루기 쉽습니다. 예를 들어, 이 홀수 인 경우 하나의 에세이를 무작위로 선택하여 따로 설정하고 나머지 에세이에 대해 임의의 3 정규 그래프를 생성 한 다음 세트 측 에세이에서 3 개의 무작위로 선택한 다른 에세이를 추가 할 수 있습니다. (이것은 실제로 4 번 채점 된 3 개의 에세이가 있지만 아무런 해를 끼치 지 않아야 함을 의미합니다.)

모든 에세이 순위

문제 설명. 자, 이제 그래프가 생겼고, 학생들은 동료 평가 작업 중에 채점 할 수 있도록 학생들에게이 에세이 쌍 (그래프의 가장자리로 표시)을 제시했습니다. 에세이의 각 비교 결과가 있습니다. 이제 과제는 모든 에세이에 대한 선형 순위를 추론하여 교사가 평가해야 할 것을 결정하는 데 도움이됩니다.

해결책. Bradley-Terry 모델 을 사용하는 것이 좋습니다 . 이 문제를 정확하게 해결하는 수학적 접근 방식입니다. 그것은 어떤 선수 쌍 사이의 경기 결과에 기초하여, 일부 스포츠에서 선수의 순위를 정하기 위해 설계되었습니다. 각 플레이어는 (알 수없는) 강도를 가지고 있으며,이 숫자는 실수로 수량화 할 수 있으며, Alice가 Bob을 이길 확률은 강도 차이의 부드러운 기능에 의해 결정됩니다. 그런 다음 페어 별 승 / 패 기록이 주어지면 각 플레이어의 강도를 추정합니다.

이것은 당신에게 완벽해야합니다. 각 에세이를 플레이어로 취급 할 수 있습니다. 두 평가 사이의 각 비교 (동료 등급 매기기 과정 중)는 서로 일치하는 결과와 같습니다. Bradley-Terry 모델을 사용하면 모든 데이터를 가져 와서 각 에세이마다 강점 을 유추 할 수 있습니다. 이제 이러한 강점을 사용하여 모든 에세이의 순위를 정할 수 있습니다.

세부 사항 및 토론. 실제로 Bradley-Terry 모델은 요청한 것보다 훨씬 좋습니다. 선형 순위를 요청했지만 Bradley-Terry 모델은 실제로 각 에세이에 (실수) 등급을 부여합니다. 이것은 당신이 에세이 가 에세이 보다 강한 지 뿐만 아니라 그것이 얼마나 강한 대략적으로 추정 한다는 것을 의미합니다 . 예를 들어,이를 사용하여 순위를 정할 에세이 선택을 알릴 수 있습니다.나는제이

데이터가있는 경우 모든 에세이의 등급 또는 순위를 유추하는 다른 방법이 있습니다. 예를 들어, Elo 방법은 다른 방법입니다. 나는 다른 질문에 대한 대답으로 몇 가지를 요약합니다 . 자세한 내용은 해당 답변을 읽으십시오.

또 다른 의견 : Bradley-Terry 모델은 두 선수 간의 각 비교 결과가 승리 또는 손실 (즉, 이진 결과)이라고 가정합니다. 그러나 실제로는 더 자세한 데이터가있는 것처럼 들립니다. 슬라이더는 동료 그레이더가 한 에세이를 다른 에세이보다 얼마나 잘 평가했는지 대략적으로 추정합니다. 가장 간단한 방법은 각 슬라이더를 이진 결과에 매핑하는 것입니다. 그러나 원하는 경우보다 정교한 분석을 사용하여 모든 데이터를 사용할 수 있습니다. Bradley-Terry 모델에는 로지스틱 회귀 분석이 포함됩니다. ordered logit 을 사용 하도록 일반화 하면 슬라이더의 결과가 이진이 아니라 여러 가능성 중 하나 인 경우 각 슬라이더에서 얻은 추가 정보를 활용할 수 있습니다.

선생님의 효율적인 사용

교사가 모든 에세이의 상위 X % 및 하위 X %를 수동으로 채점하도록 제안합니다 (동료 성적 결과에서 추론 된 순위 사용). 이것은 효과가 있지만 교사의 제한된 시간을 가장 효율적으로 사용하지는 않는 것 같습니다. 대신, 다른 접근법을 제안하고 싶습니다.

선생님이 평가하지 않은 모든 에세이에 대해 가능한 최고의 교정을 제공하기 위해 선별 된 하위 세트를 사용하여 교사에게 에세이의 하위 세트를 채점하도록 제안합니다. 이를 위해 가능한 답변의 범위를 다루는 에세이 샘플을 선택하면 도움이 될 수 있다고 생각합니다 (따라서 모든 에세이마다 너무 멀지 않은 교사가 작성한 에세이가 있습니다). 이를 위해 시도해 볼 수있는 두 가지 접근법을 생각할 수 있습니다.

  • 클러스터링. Terry-Bradley 모델에서 생산 한 등급을 사용하십시오. 이것은 에세이 당 하나의 실수 인 실수 세트입니다 . 이제 클러스터링하십시오. 교사가 에세이를 받고 싶다고 가정 해 봅시다 . 한 가지 방법은 평균 군집화 (이러한 1 차원 데이터 포인트에서)를 사용하여 에세이를 군집으로 클러스터링 한 다음 교사가 채점 할 각 군집에서 하나의 에세이를 무작위로 선택하거나 교사에게 " 각 클러스터의 클러스터 헤드 "케이케이케이

  • 가장 먼 곳부터. 대안은 가능한 한 다른 세이 의 서브 세트를 선택하는 것 입니다. "FPF (Furthest Point First)"알고리즘은이를위한 확실한 접근 방식입니다. 거리 기능이 있다고 가정케이(이자형나는,이자형제이) 두 에세이 사이의 거리를 정량화 할 수 있습니다. 이자형나는이자형제이: 작은 거리는 에세이가 유사 함을 의미하고, 더 큰 거리는 유사하지 않음을 의미합니다. 주어진 세트에스 에세이의 (이자형,에스)=이자형'에스(이자형,이자형') 에서 의 가장 가까운 에세이 까지의 거리 여야합니다 . 가장 먼 점의 첫 번째 알고리즘은 다음과 같이 에세이, 의 목록을 계산 합니다. 은 를 최대화하는 에세이입니다. (모든 에세이에서 와 같은 그 ). 이 알고리즘 은 가능한 한 서로 다른 에세이 세트를 생성합니다. 즉, 나머지 에세이는 개 중 하나 이상과 매우 유사합니다 . 따라서 교사에게 채점하는 것이 합리적입니다.이자형에스케이이자형1,이자형2,,이자형케이이자형나는+1(이자형,{이자형1,이자형2,,이자형나는})이자형이자형{이자형1,이자형2,,이자형나는}케이케이케이 FPF 알고리즘에 의해 선택된 에세이.

이 두 가지 방법 중 하나는 교사가 에세이의 상위 X % 및 하위 X %를 평가하는 것보다 더 정확한 점수를 제공 할 수있을 것입니다. 최고 및 최악의 에세이는 아마도 중간에있는 에세이의 질량을 대표하지 않기 때문입니다.

두 방법 모두 피어 등급을 기반으로 한 강도 추정치뿐만 아니라 에세이에서 파생 된 다른 요소를 고려한보다 정교한 거리 기능을 사용할 수 있습니다. 가능한 가장 간단한 거리 함수는 Terry-Bradley 모델의 결과 만 고려합니다. 즉 여기서 는 동료 채점 결과에 따라 Terry-Bradley 모델에 의해 추정 된 에세이 . 그러나보다 정교한 작업을 수행 할 수 있습니다. 예를 들어, 에세이 과 사이의 정규화 된 Levenshtein 편집 거리를 계산할 수 있습니다.(이자형1,이자형2)=(에스(이자형1)에스(이자형2))2에스(이자형)이자형이자형1이자형2(문자열로 처리하고, 편집 거리를 계산하고, 둘 중 더 큰 길이로 나누는) 거리 함수의 다른 요소로 사용하십시오. 또한 에세이의 단어에 대해 bag-of-words 모델을 사용하여 특징 벡터를 계산하고 거리 함수의 또 다른 요소로 이러한 특징 벡터 사이의 L2 거리 (tf-idf를 사용하여 정규화 된 피처 포함)를 사용할 수 있습니다. (Terry-Bradley 추정값을 기준으로 한) 강도 차이의 가중 평균 인 거리 함수, 정규화 된 편집 거리 및 기타 도움이되는 거리 함수를 사용할 수 있습니다. 이와 같은보다 정교한 거리 함수의 힘 도움이 클러스터링 알고리즘이 가장 적합한 선택 돕는 더 잘 할 교사 등급을 가지고 에세이.케이


원래 문제 진술과 관련하여 따르기가 어렵습니다. 비교를 고르게 분배하는 문제를 해결하고 있습니까?
vzn

2
@ vzn, 명확히하기 위해 답변을 편집했습니다. 문제는 그래프를 선택하는 방법, 즉 학생들이 동료 학년 동안 비교하도록 요구하는 에세이 쌍을 묻는 방법에 대해 묻는 것 같습니다. 내 대답의 전반부는 그 질문에 대한 해결책을 제시합니다. 내 대답의 두 번째 부분은 피어 그레이딩 결과를 사용하여 모든 에세이의 순위를 정하고 교사가 채점 할 에세이를 선택하는 방법을 설명합니다.
DW

0

입력 및 출력에 대한 정확하지 않은 정확한 설명과 계산 대상을 기반으로 한 몇 가지 아이디어 (생각하여 질문을 수정할 수 있음).

분명히 이것은 기본적으로 페이스 북의 창립 (영화 "소셜 네트워크"에 묘사 된)에서 비롯된 "뜨거운 지 아닌지" "페이스 매쉬"문제입니다. 원래의 "게임"에서 사용자는 두 장의 사진을 가지고 더 매력적인 여성 사이에서 선택했습니다. 시스템에서 선택은 두 개의 에세이 사이에서 이루어지며 그중 하나가 더 좋습니다.

사이버-민속 민속에서 분명히 체스 매치 스코어링 시스템에 사용 된 Elo 순위 알고리즘을 사용하여 수렴 솔루션을 계산할 수 있습니다 (이 경우 기본적으로 지시 된 선호도 그래프와 일치하는 에세이의 점수를 추정합니다). 이것에 대한 설명 / 쓰기.

다른 옵션은 Pagerank를 사용하는 것입니다. 직접 링크 된 그래프를 기반으로 페이지의 예상 영향을 계산합니다. 에세이에 대한 기본 설정은 웹 페이지에 대한 링크와 유사합니다.

이 문제는 과학 논문이 다른 논문을 인용하고 논문의 영향이 추정되는 인용 분석과 유사 해 보입니다. [그러나 Pagerank는이 분야에서 최고의 알고리즘입니다.]

[1] 왜 facemash 알고리즘에 Elo 순위를 사용합니까? 스택 오버플로

[2] 위키 백과, 엘로 랭킹 시스템

[3] 랭크 , 위키

[4] 인용 분석 , 위키


Elo 적용 방법 스케치 : 게임 경기는 에세이 비교와 같습니다. 에세이는 점수를 얻었고 더 높은 점수의 에세이는 더 많은 경기에서 이길 것입니다. 알고리즘은 모든 일치 항목과 가장 일치하는 점수를 계산합니다.
vzn December

인용 아이디어는 모든 비교가 모든 에세이에 다소 골고루 분포되어 있다고 가정하는 경향이 있습니다. 그렇지 않으면 하나의 에세이가 더 많은 비교에서 비교 될 경우 상대적 호 의성이 높아질 수 있습니다. 이 접근법의 일부는 또한 비교하는 것의 균형을 맞추는 것인데, 이는 당신이 언급하고있는 것처럼 보이고 모든 플레이어에게 경기를 분배하려는 문제와 유사합니다.
vzn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.