블로그

INSIGHT

인간과 공존할 수 있는 AI를 위한 원칙

2024.02.07

AI 안전성 (AI Safety) 논의

 

 

인공지능(AI)은 우리의 삶에 혁명적인 영향을 미치고 있지만, 이러한 기술이 가지는 잠재적인 위협에 대한 우려도 덩달아 늘어나고 있습니다.

지난 주에는 AI에게 나타나는 환각 증세, “할루시네이션”에 대해 알아보았는데요.

 

 

(할루시네이션 : 다시 읽기)

 

 

오늘은 UC버클리 대학교 스튜어트 러셀 (Stuart Russell) 교수의 AI 안전성 (AI Safety) 논의를 살펴보고자 합니다.

 

 


Center for Human-Compatible Artificial Intelligence 홈페이지 캡처화면

[사진1] Center for Human-Compatible Artificial Intelligence 홈페이지 (캡처)

 

 

러셀 교수는 ‘휴먼컴패터블 AI 센터’ (Center for Human-Compatible Artificial Intelligence, CHAI)를 만들고 AI 연구가 인간친화적인 방향으로 (provably beneficial systems) 진행될 수 있도록 개념적이고 기술적인 발전을 만들어가는데 기여하고 있는 인공지능 분야의 세계적인 석학입니다.

 

러셀 교수는 끊임없이 발전하는 AI가 보편화될 미래를 어떻게 전망하고 있을까요?

 

 

 

1. 어떻게 인간과 공존하는 인공지능을 만들 것인가

 

Human Compatible 도서 표지

[사진2] Human Compatible (도서 표지)

 

 

“Human Compatible” (번역명: 어떻게 인간과 공존하는 인공지능을 만들 것인가)은 러셀 교수의 AI의 미래개발 방향성에 대한 관점을 담은 저작입니다. 인공지능은 최근 전 세계적으로 각광을 받고 있지만, 러셀교수는 그 전부터 인공지능의 발전가능성과 위험성에 대해 경고해왔습니다.

 

 

우리는 우리가 기계에 입력하는 우리의 목적이 정말로 우리가 원하는 목적인지를 확실히 해두었어야 한다.
We had better be quite sure that the purpose put into the machine is the purpose which we really desire. - Nobert Winener, 1960

 

 

러셀 교수는 2017년 진행한 테드 강의에서 미국의 컴퓨터 과학자 노버트 위너의 말을 들어 “미다스 왕 문제”에 대해 설명하는데요. 미다스 왕은 손대는 모든 것이 금으로 변하길 원했고, 그렇게 되었지만, 결과적으로 그는 가족을 잃고 굶어 죽게 됩니다. 

 

 

가치 조합 문제: AI 에이전트의 지정된 목표가 사용자의 진정한 기본 목표와 일치하지 않는 상황
Value alignment problems arise in scenarios where the specified objectives of an AI agent don't match the true underlying objective of its users. - Malek Mechergui, Sarath Sreedharan(2023)

 

 

미다스 왕과 같이, 그가 원하던 목적이 정말 그가 원하던 것과 일치하지 않는 딜레마적 상황을 “가치 조합 문제”(the value alignment problem)라고도 부릅니다. 우리가 AI에 입력하는 우리가 원하는 목적을 이야기하더라도, 달성된 목적이 의도치 않은 불행을 만들어낼 수도 있는 것이죠.

 

러셀 교수는 세계의 석학들이 모여 견해를 나누는 Edge.org에서 다음과 같이 말했는데요.

 

 

충분히 능력 있는 지능형 시스템이라면 자신의 지속적인 존재를 보장하고 물리적 및 계산적 자원을 획득하는 것을 선호할 것입니다. 자신을 위해서가 아니라 할당된 작업에서 성공하기 위해서입니다.
Any sufficiently capable intelligent system will prefer to ensure its own continued existence and to acquire physical and computational resources – not for their own sake, but to succeed in its assigned task. – Stuart Russel

 

 

위 이야기를, 상황을 들어 생각해보면 다음과 같습니다.

 

인간 사용자가 AI가 장착된 로봇에 “커피를 가져다줘”라는 요청을 했다고 가정해볼까요? 이때 로봇은 주어진 목표 (“인간 사용자에게 커피를 가져다주기”)를 달성하기 위한 여러 가지 경우의 수를 생각해볼 수 있습니다. 이 때, 로봇이 목표를 달성하지 못할 가능성을 제거하기 위해, 의도치 않게 전원이 꺼질 상황을 대비해 전원버튼을 고장내거나 장애물을 제거할 수 있습니다.

 

이러한 상황을 방지하기 위해, 더 구체적인 행동 지침을 로봇에 입력해야 한다면, AI가 제공하는 편리함에 한계가 있겠죠.

 

 

2. 안전한 AI를 만들기 위한 세 가지 원칙


러셀 교수는 “인간과 공존하는 AI”를 위한 세 가지 원칙을 다음과 같이 이야기합니다. 

 

(1) 로봇의 유일한 목적은 인간의 목표와 가치를 최대한 실현하는 것이다.
(2) 로봇은 인간이 추구하는 가치가 무엇인지 알 수 없다.
(3) 인간의 행동은 인간 가치에 대한 정보를 제공한다.

 

이러한 원칙에 따르면, 로봇의 행동목적은 인간이 추구하는 가치를 실현하는 것이지만, 그 가치에 대한 불확실성으로 인해 로봇은 인간 행동을 관찰하며 더 신중하게 목적을 달성할 수 있게 됩니다.

이러한 세 가지 원칙을 반영한 AI 학습 프레임워크를 러셀 교수의 “Assistance Game” 개념으로 정리할 수 있습니다.

 

Assistance Games의 핵심은 AI가 인간의 피드백을 통해 인간의 선호를 파악할 수 있다는 것입니다. 인간이 AI에게 주어진 동일한 상황에서 AI와 다르게 행동한다면, 이러한 피드백 변화를 통해 AI는 인간의 의도나 선호에 대한 미묘한 차이를 감지하고 이를 모델에 반영합니다. 

 

예를 들어, 요리 게임에 Assistance Games를 적용해볼까요? 로봇과 인간이 번갈아가며 동일한 조리과정을 수행합니다. 로봇은 로봇의 행동 이후, 동일한 환경에서 인간이 어떻게 요리하는지 확인합니다. 여기에는 인간이 선호하는 특정 재료의 사용 방법이나 조리 순서가 반영되기 때문에, AI는 그 차이를 학습합니다. 이로써 AI는 미묘한 행동 차이에서 나타나는 사용자의 취향이나 목적을 실시간으로 파악하고 자신의 행동을 개선할 수 있습니다.

 

 

 

Reference
Mechergui, M., & Sreedharan, S. (2023). Goal Alignment: A Human-Aware Account of Value Alignment Problem. arXiv preprint arXiv:2302.00813.

 

Felix Hofstätter, “How Assistance Games make AI safer” (2022.10.27)
https://towardsdatascience.com/how-assistance-games-make-ai-safer-8948111f33fa 

 

TED, “3 principles for creating sager AI | Stuart Russell” (2017. 6. 7)
https://youtu.be/EBK-a94IFHY 

 

Stuart J. Russell, “Of Myths And Moonshinet”
https://www.edge.org/conversation/the-myth-of-ai#26015

 
Center for Human0Compatible Artificial Intelligence
https://humancompatible.ai/ 

 

목록보기