Lovelace Test 2.0은 학업 환경에서 성공적으로 사용 되었습니까?


18

2014 년 10 월 Mark Riedl 박사 는 원래 Lovelace Test (2001 년에 출판)에서 영감을 얻은 후 "Lovelace Test 2.0" 이라는 AI 인텔리전스 테스트 방법을 발표했습니다. Mark는 원래 Lovelace Test를 통과 할 수 없다고 믿었으므로 더 약하고 실용적인 버전을 제안했습니다.

Lovelace Test 2.0은 AI가 지능적이기 위해서는 창의성을 보여야한다는 가정을합니다. 종이 자체에서 :

Lovelace 2.0 테스트는 다음과 같습니다. 인공 에이전트 a는 다음과 같이 도전합니다.

  • a 유형 t의 아티팩트를 작성해야합니다.

  • o ∈ C는 자연어로 표현할 수있는 기준 인 일련의 제약 조건 C를 따라야한다.

  • t 및 C를 선택한 인간 평가자 h는 o가 t의 유효한 예이고 C를 만족한다는 것을 만족 시키며; 과

  • 인간 심판은 평균 인간에게는 비현실적이지 않은 t와 C의 조합을 결정한다.

인간 평가자가 AI를 이길 수있는 매우 쉬운 제약을 만들 수 있기 때문에, 인간 평가자는 AI가 실패 할 때까지 AI에 대한 점점 더 복잡한 제약을 계속 기대할 수 있습니다. Lovelace Test 2.0의 요점은 튜링 테스트처럼 '지능'과 '비 지능'사이에 명확한 구분선을 제공하지 않고 다른 AI의 창의성 을 비교 하는 것입니다.

그러나,이 시험이 실제로 학문적 환경에서 사용되었는지 또는 현재로서는 생각 실험으로 만 보이는지 궁금합니다. Lovelace Test는 학업 환경에서 쉽게 적용 할 수있는 것처럼 보이며 (인공 작용제를 테스트하는 데 사용할 수있는 측정 가능한 제약 조건 만 개발하면되지만) 너무 주관적 일 수도 있습니다 (인간은 특정 제약 조건의 장점에 동의하지 않을 수 있음). 인공 지능에 의해 생성 된 창조적 인 인공물은 실제로 최종 결과를 충족시킵니다).

답변:


5

아니.

TL; DR : Lovelace Test 2.0은 매우 모호하여 지능 평가에 적합하지 않습니다. 또한 독창성을 평가하기 위해 자체 테스트를 이미 수행 한 전산 창의 연구자들은 일반적으로 무시합니다.

더 긴 답변 : Google Scholar에 따르면 "Lovelace Test 2.0"논문에 대한 10 가지 언급이 있습니다. 이러한 참조는 모두 Lovelace Test 2.0이 존재 함을 나타 내기 위해 존재합니다. 실제로, 내가 상담 한 기사 중 2 개 이상 ( 인간과 같은 자기 의식적 행동을 식별하기위한 새로운 접근법FraMoTEC : 적응 형 제어 시스템을 평가하기위한 모듈 식 작업 환경 구축을위한 프레임 워크 )은 자체 테스트를 제안했습니다 .

FraMoTEC 논문을 작성한 저자 중 한 명이 FraMoTEC에 대한 논문을 작성 했으며 Lovelace Test 2.0 및 기타 유사한 테스트를 간접적으로 비판했습니다.

Piaget-MacGyver Room 문제 [Bringsjord and Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] 및 Toy Box 문제 [Johnston, 2010] 모두 매우 모호하게 정의되어야한다는 경고가 있습니다. 이러한 평가 방법은 나올 것입니다 지능에 대한 합리적인 평가를 제공하지만 자체 도메인 별 평가에 참여하는 두 개의 다른 에이전트 (또는 컨트롤러)를 비교하는 것은 매우 어렵습니다. 이는 에이전트가 특정 평가를 통과하도록 조정될 때 자주 발생합니다.

Lovelace Test 2.0의 또 다른 주요 이슈 는 AI의 창의성을 "측정"하기 위해 다른 테스트가 확산된다는 것입니다 . 평가 평가 : 2011 년 Anna Jordanous ( Lovelace Test 2.0의 발명 3 년 전) 에서 출판 한 전산 창의성 연구의 진행 상황 평가 는 AI 창의성에 관한 연구 논문을 분석하고 다음과 같이 썼습니다.

시스템의 창의성을 평가하기 위해 창의성 평가 방법론을 적용한 18 개 논문 중 어느 방법도 커뮤니티 전체에서 표준으로 등장하지 않았습니다. Colton의 창조적 삼각대 프레임 워크 ( Colton 2008 )는 Ritchie의 경험적 기준 ( Ritchie 2007 )을 사용하는 4 개의 논문과 함께 가장 많이 사용되었습니다 (6 가지 용도 ).

그 결과 10 가지의 논문이 기타 창의성 평가 방법으로 남게 됩니다.

"평가 평가"의 목표는 창의력을 평가하는 과정을 표준화하여 창의력 시험의 확산으로 인해 현장이 정체 될 가능성을 피하는 것이 었습니다. Anna Jordanous는 여전히 창의성 테스트 평가에 계속 관심을 갖고 "진보적 인 발전으로의 전진 : 계산 창의성의 메타 평가 표준 설정"계산 창의성에 대한 4 가지 PPPP 관점 .

"평가 평가"는 창의성을 평가하기위한 시스템의 확산을 설명하기위한 주석을 제공합니다.

평가 기준은 정의하기 쉽지 않습니다. 창의성을 평가하는 것은 어렵고 인간의 창의성과 계산적 창의성에서 창의성을 평가하는 방법을 설명하기가 훨씬 어렵습니다. 실제로 창의성의 정의조차도 문제가있다 (Plucker, Beghetto, Dow 2004). '창의적'이라는 것이 무엇인지 파악하기는 어렵 기 때문에 측정 할 벤치 마크 나 근거가 없습니다.

Jordanous가 연구에서 학문적 경력을 쌓을 수있을 정도로 창의성에 대한 많은 테스트가 이미 존재한다는 사실은 새로운 테스트 (Lovelace Test 2.0 등)가 눈에 띄기 어렵다는 것을 의미합니다. ). 대신 사용할 수있는 다른 테스트가 너무 많을 때 왜 Lovelace Test 2.0과 같은 것을 사용하고 싶습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.