[논문] VOYAGER: An Open-Ended Embodied Agent with Large Language Models

Date:     Updated:

카테고리:

태그:

0.Abstract

VOYAGER는 최초의 LLM 기반 embodied lifelong learning agent로 Minecraft에서 동작한다. 연속적으로 월드를 탐험하고 다양한 기술을 배우고 새로운 것들을 인간의 개입 없이 발견한다.

VOYAGER의 핵심 요소는 다음과 같다.

  1. 탐험을 극대화하는 Automatic Curriculum
  2. 복잡한 행동을 저장하고 불러오기 위한 Skill Library
  3. 환경 피드백, 실행 에러, 자가 검증을 활용한 Iterative prompting Mechanism

VOYAGER는 GPT-4 blackbox query 방식으로 상호작용하고 모델의 파라미터 튜닝 없이도 동작한다. VOYAGER로 개발한 기술들은 temporally extended, interpretable, compositional해서 에이전트의 능력을 빠르게 향상시키고 catastrophic forgetting을 완화한다.

VOYAGER는 in-context lifelong learning에서 뛰어난 능력을 보이며, Minecraft에서도 잘 동작한다. 기존의 SOTA보다 아이템을 3.3배 획득하고, 2.3배 더 먼 거리를 이동하고, 테크트리를 15.3배 빠르게 도달한다. 또한 기존 방법들은 일반화에 어려움을 갖지만, VOYAGER는 새로운 Minecraft 세계에서도 학습된 기술 라이브러리를 활용해 처음 보는 Task를 처음부터 해결할 수 있는 능력을 갖는다.

1. Introduction

오픈형 세계에서 탐험, 계획, 새로운 기술의 개발이 가능한 embodied agents를 만드는 것은 현재 AI 커뮤니티가 직면한 주요 과제 중 하나이다. 기존 접근 방식은 RL과 imitation learning을 활용해 primitive actions을 기반으로 동작하지만 이것은 체계적인 탐험, 해석 가능성, 일반화 측면에서 한계가 있다.

최근에 LLM 기반 에이전트의 등장으로 사전 훈련된 LLM이 가지고 있는 지식을 활용해 일관된 행동 계획 또는 실행 가능한 정책을 생성하게 되었다. 하지만 이것은 lifelong learning이 아니다. lifelong learner는 시간이 지남에 따라 지식을 점진적으로 획득, 갱신, 축적 및 전이할 수 있어야한다.

Minecraft는 무한한 가능성을 가진 공간으로 플레이어가 3D 지형을 탐험하고, 수집한 자원으로 테크트리를 확장할 수 있다. 인간 플레이어는 보통 나무 캐기나 음식 조리 같은 기초 작업부터 시작해, 몬스터와의 전투나 다이아몬드 도구 제작 같은 복잡한 작업으로 발전해 나간다. 이처럼 효과적인 lifelong learning 에이전트는 인간과 유사한 능력을 가져야 한다.

  1. 현재의 Skill level과 world state에 기반해 적합한 작업을 제안할 수 있어야 한다.

    예: 숲이 아닌 사막에 있을 경우 철보다 모래와 선인장을 먼저 수확하는 법을 배운다.

  2. 환경으로부터 피드백을 받아 기술을 개선하고, 숙달한 기술은 기억에 저장하여 유사한 상황에서 재사용할 수 있어야 한다.

    예: 좀비와 싸우는 것은 거미와 싸우는 것과 유사하다.

  3. 월드를 지속적으로 탐험해 자기 주도적으로 새로운 작업을 찾아야 한다

이 논문은 이러한 조건을 만족하는 VOYAGER를 제안한다. LLM 기반 embodied lifelong learning 에이전트로 Minecraft 내에서 인간의 개입 없이 지속적으로 탐험하고, 다양한 기술을 습득하며, 새로운 발견을 해나갈 수 있는 최초의 시스템이다.

VOYAGER는 세 가지 핵심 모듈로 동작한다.

  1. 탐험을 극대화하는 Automatic Curriculum
  2. 복잡한 행동을 저장하고 검색하는 Skill Library
  3. embodied control을 위한 실행 가능한 코드를 생성하는 새로운 Iterative prompting Mechanism

실험 결과 VOYAGER는 강한 in-context lifelong learning 능력을 보여준다.

VOYAGER는 재사용이 가능하고, 해석 가능하고 새로운 작업에 일반화가 가능한 행동 프로그램 스킬 라이브러리를 지속적으로 구축할 수 있다.

우리는 VOYAGER를 MineDojo 라는 오픈소스 Minecraft AI 프레임워크 내에서 다른 LLM 기반 에이전트 기법들과 체계적으로 비교 평가하였다.

또한 기존 방법들은 일반화에 어려움을 갖지만, VOYAGER는 새로운 Minecraft 세계에서도 학습된 기술 라이브러리를 활용해 처음 보는 Task를 처음부터 해결할 수 있는 능력을 갖는다.


4. Limitations and Future Work

그래도 한계점이 존재한다.

  1. Cost

    GPT-4 API는 GPT-3.5 보다 Cost가 15배 더 든다. 그럼에도 VOYAGER는 Coda gerneration quality 때문에라도 GPT4를 사용해야 함.

  2. Inaccuracies

    iterative prompting mechanism에도 불구하고 agent가 실패하는 지점이 존재한다.

  3. Hallucinations

    automatic curriculum이 가끔 불가능한 Task를 요구한다.

그래도 나중에 open-source LLMs가 더 발전해서 이러한 문제를 해결해 줄것이라고 기대.


6. Conclusion

이 논문은 최초의 LLM 기반 embodied lifelong learning agent VOYAGER를 제안한다. VOYAGER는 GPT-4를 활용해 월드를 탐험하고, 더 정교한 기술을 개발하고, 인간의 개입 없이 새로운 발견을 한다. 그리고 다양한 영역에서 좋은 결과를 보였다.

VOYAGER는 모델 파라미터의 튜닝 없이도 강력한 generalist agent를 개발할 수 있는 출발점으로 기대할 수 있다.

맨 위로 이동하기

Papers 카테고리 내 다른 글 보러가기

댓글남기기