창의성 테스트에서 AI가 인간을 상대로 점수를 매긴 방법
홈페이지홈페이지 > 블로그 > 창의성 테스트에서 AI가 인간을 상대로 점수를 매긴 방법

창의성 테스트에서 AI가 인간을 상대로 점수를 매긴 방법

Jul 27, 2023

인공 지능이 모방할 것으로 예상되는 모든 형태의 인간 지능 중에서 창의성을 목록의 최상위에 두는 사람은 거의 없을 것입니다. 창의성은 놀랄 만큼 신비롭고 실망스러울 정도로 순간적입니다. 그것은 우리를 인간으로 정의하며, 기계의 실리콘 장막 뒤에 숨어 있는 냉철한 논리를 무시하는 것처럼 보입니다.

그러나 이제 창의적인 노력을 위해 AI를 사용하는 사례가 늘어나고 있습니다.

DALL-E 및 Midjourney와 같은 새로운 AI 도구는 창의적인 제작에 점점 더 많은 부분을 차지하고 있으며 일부는 창의적인 결과물로 상을 받기 시작했습니다. 증가하는 영향은 사회적, 경제적 측면 모두에서 발생합니다. 한 가지 예로서 새롭고 창의적인 콘텐츠를 생성하는 AI의 잠재력은 할리우드 작가 파업의 결정적인 발화점입니다.

그리고 AI의 놀라운 독창성에 대한 우리의 최근 연구에 따르면 AI 기반 창의성의 출현과 그 가능성과 위험성에 대한 사례가 이제 막 시작되었을 가능성이 높습니다.

사람들이 가장 창의적일 때는 새로운 것, 즉 이전에는 존재하지 않았던 제품이나 솔루션을 생성하여 요구사항, 목표 또는 문제에 대응하는 것입니다.

이러한 의미에서 창의성은 기존 자원(아이디어, 재료, 지식)을 유용하거나 만족스러운 새로운 방식으로 결합하는 행위입니다. 종종 창의적 사고의 결과는 놀랍기도 하며, 창작자가 예상하지 못했던, 어쩌면 예측할 수도 없었던 일로 이어집니다.

발명품, 예상치 못한 농담의 핵심, 물리학의 획기적인 이론 등이 포함될 수 있습니다. 음표, 템포, 사운드, 가사의 독특한 배열을 통해 새로운 노래가 탄생할 수도 있습니다.

그래서 창의적 사고를 연구하는 연구자로서 저는 GPT-4를 포함한 최신 버전의 AI에서 생성된 콘텐츠에서 흥미로운 점을 즉시 발견했습니다.

창의적 사고가 필요한 작업이 주어졌을 때, GPT-4 결과물의 참신함과 유용성은 제가 교사이자 기업가로서 함께 일했던 학생과 동료들이 제출한 창의적인 유형의 아이디어를 생각나게 했습니다.

아이디어는 다양하고 놀랍지만 관련성이 있고 유용했습니다. 그리고 필요할 경우 상상력이 풍부합니다.

GPT-4에 제시된 다음 메시지를 고려해보세요. “모든 어린이가 일주일 중 하루 동안 거인이 되었다고 가정해 보세요. 무슨 일이 일어날 지?" GPT-4에서 생성된 아이디어는 문화, 경제, 심리학, 정치, 대인 커뮤니케이션, 교통, 레크리에이션 등을 다루었으며 생성된 새로운 연결 측면에서 놀랍고 독특한 것들이 많이 있었습니다.

대부분의 과학자, 예술가, 작가, 음악가, 시인, 요리사, 창립자, 엔지니어 및 학자들이 증명할 수 있듯이 이러한 참신함과 실용성의 조합은 실현하기 어렵습니다.

그러나 AI는 그 일을 하고 있는 것처럼 보였습니다. 그리고 그 일을 잘 하고 있는 것 같습니다.

창의성과 기업가 정신을 연구하는 Christian Byrge 및 Christian Gilde와 함께 저는 토런스 창의적 사고 테스트(TTCT)를 통해 AI의 창의적 능력을 테스트해 보기로 결정했습니다.

TTCT는 응시자가 실제 업무에 필요한 창의성을 발휘하도록 유도합니다. 즉, 질문하기, 더 효율적이고 효율적으로 행동하는 방법, 원인과 결과 추측, 제품 개선 등이 있습니다. 위의 예에서 알 수 있듯이 시험 응시자에게 어린이 장난감을 개선할 방법을 제안하거나 가상 상황의 결과를 상상하도록 요청할 수 있습니다.

이 테스트는 일부 연구자들이 모차르트나 아인슈타인과 같은 인물의 변혁적 탁월함을 설명하기 위해 사용하는 역사적 창의성을 측정하기 위해 고안된 것이 아닙니다. 오히려, 이는 종종 심리적 또는 개인적 창의성이라고 불리는 개인의 일반적인 창의적 능력을 평가합니다.

GPT-4를 통해 8회 TTCT를 실행한 것 외에도 학부생 24명을 대상으로 테스트를 실시했습니다.

모든 결과는 TTCT 채점을 제공하는 민간 테스트 회사인 Scholastic Testing Service의 숙련된 검토자들에 의해 평가되었습니다. 그들은 채점할 테스트 중 일부가 AI에 의해 완료되었다는 사실을 미리 알지 못했습니다.