중복 질문 감지
옛날 옛적에 골프장이있었습니다. 문제가있었습니다. 사람들은 유사하거나 동일한 질문을 반복해서 게시 할 것입니다. 당신은선택된 강제 강제 협박 질문은 필요한 방법으로 질문이 기존 질문과 중복되는지 여부를 결정하는 프로세스를 자동화하도록 요청했습니다 (규칙 참조).
입력
프로그램은 단일 URL을 입력으로 승인해야합니다. 이것이 codegolf.stackexchange.com 에 대한 질문으로 이어진다 고 가정 할 수 있습니다 .
산출
비슷한 질문이 있는지 사이트를 검색하십시오. 입력 질문이 기존 질문의 복제본이라고 생각하거나 다른 질문의 URL을 출력하십시오. 새 줄로 구분하여 여러 개의 URL을 출력 할 수 있습니다. 출력이 끝나면 출력 end
(별도의 줄로).
채점
- 출력 한 질문이 실제로 입력 질문의 복제본으로 표시되거나 그 반대의 경우 4 점을 얻습니다. 이것은 "올바른 추측"입니다.
- 각 오 탐지 (일명 "잘못된 추측")에 대해 2 점을 잃습니다.
- 실제로 중복되었지만 출력에 나타나지 않는 각 질문 (일명 "미스 추측")에 대해 1 점을 잃습니다.
32 개의 입력 질문을 처리 한 후 가장 높은 점수가 이깁니다. 이 32 개의 질문은 "라운드"입니다. 각 라운드가 시작될 때 점수는 0으로 재설정됩니다. 며칠에 한 번 라운드가 진행되고 각 라운드 후에 순위표가 업데이트됩니다.
규칙
- 질문 A와 C가 둘 다 B의 복제본으로 닫히면 A는 C의 복제본으로 계산되며 그 반대도 마찬가지입니다.
- 각 라운드가 시작될 때 프로그램은 웹 사이트를 파싱하는 방법을 제외하고는 질문에 대한 데이터를 가지고 있지 않을 수 있습니다 ( 하드 코딩 없음 ).
- 그러나 라운드 중에 외부 파일에 데이터를 보관할 수 있습니다.
- 라운드 사이에 데이터를 유지할 수 없습니다.
- 출력에는 새로운 줄이 있어야합니다.
- 검색 결과 및 질문의 URL, 제목, 태그 및 텍스트를 제외하고 서식이 있거나없는 웹 사이트의 데이터를 사용할 수 없습니다 . 예를 들어, 중복 질문에 나타나는 "foo, bar ...로 중복 표시됨"이라는 텍스트를 사용할 수 없습니다.
- 이 데이터는 사이트, data.SE 또는 API를 통해 직접 검색 할 수 있습니다.
- 각 제출물에는 이름이 있어야합니다.
- 각 제출에는 명확한 버전 번호가 있어야합니다.
- 시간 제한 이후에 제출물이 출력물을 생성하지 않으면 (결정, 제출 시간이 얼마인지 명시) 제출물은 종료되고 8 점을 잃게됩니다.
2
1 분이 주관적이지 않습니까? 네트워크 연결 및 크롤링으로 수많은 웹 요청이 발생합니다. 모두에게 1 분 이상이 걸릴 수 있습니다. :)
—
Optimizer
나는 우리가 그 숫자에 직접 도달 할 수 없다고 생각합니다. 올바른 임계 시간을 결정하기 위해 예제 프로그램을 직접 작성해야하거나 첫 번째 대답을 사용해야 할 수도 있습니다.
—
Optimizer
사이트를 스크랩하는 대신 API를 통해 사용 가능한 필드를 지정해야합니다.
—
Gilles 'SO- 악의를 멈춰라'
이 질문이 중복된다면 너무 재미있을 것입니다 .. oh irony xD
—
Teun Pronk
@professorfish 당신은 실제로 몇 가지 테스트 사례를 사용할 수 있습니다. 이 데이터는 모두 Data.SE에서 가져온 것이므로 신뢰할 수 있어야합니다. 내가 바보처럼 보이고 나를 잘못 증명하게 자유롭게 느끼십시오. 이 질문에는 codegolf.stackexchange.com/q/37737 에 중복이 없습니다. 이 질문 codegolf.stackexchange.com/q/12348 에는이 codegolf.stackexchange.com/q/10465가 있습니다. 이 질문 codegolf.stackexchange.com/q/12498 에는 다음 codegolf.stackexchange.com/q/20006이 있습니다 q / 242
—
PenutReaper