chatgpt와 같은 대규모 언어 모델을 활용한 생성 AI는 대량의 데이터와 딥러닝 기술을 바탕으로 구축된 언어 모델입이다. 이 AI의 정확성은 점점 더 향상되어 때론 실제 세상을 정확히 이해하고 있는 것처럼 보이기도 한다. 그러나, 정말로 이해하고 있는 걸까?
대규모 언어 모델을 활용한 생성 AI의 문제점
대규모 언어 모델(LLM)은 막대한 "계산량", "데이터 양", "파라미터 수"를 순간적으로 처리하여 인간과 가까운 유창한 대화가 가능해지고, 자연 언어를 이용한 다양한 처리를 높은 정확도로 수행할 수 있게 된다. LLM은 경로 안내(길찾기)나 게임 플레이와 같은 복잡한 작업도 정확하게 해내지만, 예측하기 어려운 현실 세계에서는 문제가 발생할 수 있다.
예를 들어, AI가 운전하는 자율주행차를 타고 있을 때, 통행 금지 상황을 만나게 되었다고 가정해보자. 이때, 정확한 지도를 가지지 않은 AI는 사용자를 엉뚱한 곳으로 안내할 수도 있다.
이번에 진행된 연구에서 조사된 것은 GPT-4와 같은 대규모 언어 모델(LLM)의 기반이 되는 '트랜스포머(Transformer)'라는 생성 AI 모델의 일종이다. 트랜스포머는 대량의 언어 데이터를 기반으로, 문장 내 다음 단어나 문맥에서 이어질 가능성이 높은 단어를 예측할 수 있는 모델이다.
그러나 이러한 AI가 세상을 정말 이해하고 있는지 알기 위해서는 단순히 예측의 정확성만으로는 충분하지 않다. AI는 규칙을 이해하지 못하더라도 정확한 예측을 할 가능성이 있기 때문이다. 이러한 이유로 MIT의 아시슈 람바찬(Ashish Rambachan) 연구원과 팀은 AI에게 '결정적 유한 오토마톤'이라는 문제를 해결하게 하여, 두 가지 기준을 바탕으로 AI의 세계 모델이 얼마나 올바른지를 평가해보았다.
결정적 유한 오토마톤이란 상태와 입력을 기반으로 다음 상태가 결정되는 게임과 같은 구조를 말한다. 예를 들어, 주사위를 던져 목표를 향해 나아가는 윷놀이를 상상해볼 수 있다. 이때 현재의 위치가 상태, 주사위의 결과가 입력이며, 그 결과에 따라 이동해야 하는 위치가 다음 상태에 해당한다. 이번 연구에서는 결정적 유한 오토마톤에 해당하는 문제로 AI에게 '오셀로'와 '뉴욕 시내의 길찾기'를 수행하도록 했다.
이러한 과제는 AI가 그 세계를 얼마나 이해하고 있는지를 시험하기에 적합하다. 그리고 그 결과를 평가하기 위한 지표는 두 가지다. 첫째는 '시퀀스 구별'이라고 불리는 지표로, AI가 오셀로의 서로 다른 두 판을 보았을 때 그 차이를 인식할 수 있는지를 평가하는 것이다.
반면, 완전히 같은 두 판을 보여주었을 때, AI가 동일한 수를 다음 수로 예측하는지를 측정하는 지표를 '시퀀스 압축'이라고 한다.
LLM의 세계 모델에는 일관성이 없다
이번 연구에서는 무작위로 생성된 데이터로 학습한 AI와 일정한 전략에 따라 생성된 데이터로 학습한 AI 두 가지가 과제에 도전했다. 두 AI의 결과를 비교해보니 더 정확한 세계 모델을 가지고 있던 것은 무작위 데이터로 학습한 AI였다. 이 의외의 결과는 무작위 데이터가 더 다양한 선택지를 학습할 수 있기 때문으로 보인다.
예를 들어, 오셀로 세계 챔피언의 수를 학습한 경우, 챔피언이 두지 않는 나쁜 수는 학습하지 못할 가능성이 크다. 반면, 무작위 수에서 학습하는 경우, 이론적으로는 모든 수를 학습할 수 있다. 이 실험에서 두 AI는 거의 매번 정확한 오셀로 수를 예측했다. 그럼에도 불구하고 두 가지 지표로 판단했을 때, 일관된 세계 모델을 가지고 있었던 것은 무작위 데이터로 학습한 AI뿐이었다.
그리고 뉴욕 시내의 길찾기 문제에서는 두 AI 모두 일관된 세계 모델을 가지고 있지 않았다. 이는 AI 자율주행차를 타고 있는 상황에서 운 나쁘게 통행 금지에 직면했을 때 알 수 있다. 길찾기 과제에서 지도에 몇 개의 도로를 폐쇄하고 우회로를 설정하자 AI의 성능이 급격히 저하되었기 때문이다. 폐쇄된 도로가 1%에 불과했음에도 불구하고, 거의 100%에 달하던 길찾기 정확도가 67%로 급락했다.
더구나 그 후 AI에게 지도를 복구하도록 하자, 도로 위에 고가도로가 걸쳐지거나 비현실적으로 뻗어 있는 도로가 생겨나는 등 이상한 뉴욕 시가 생성되었다.
기존 접근 방식으로는 인간 세계를 이해할 수 없다
이러한 결과는 AI가 세계를 이해하지 못하고 있다는 것을 보여준다. 그럼에도 AI는 특정 작업을 놀랍도록 잘 수행한다. 하지만 만약 정확한 세계 모델이 필요한 작업을 시키려면 기존의 접근 방식은 적절하지 않다는 것을 알 수 있다.
AI 모델이 놀라운 성능을 보이는 탓에, 그것이 세계에 대해 무언가를 이해하고 있을 것이라고 생각하기 쉽다. 그러나 이에 대해서는 신중하게 생각해야 하며, 직관에 의존해서는 안 된다. MIT의 아시슈 람바찬 연구원은 "세계에 대해 이해하고 있다"는 직관적인 생각에 의존해서는 안 된다고 언급하며, 이 점에 대해 더 많은 검토가 필요하다고 말했다.
연구팀은 앞으로도 규칙이 부분적으로만 알려진 문제 등 다양한 상황에 대해 검증을 이어나갈 계획이라고 밝혔다. 기타 LLM을 활용한 생성 AI에는 헛소리(환각) 현상이나, 악의적인 프롬프트를 이용해 본래 금지된 기능을 해제하고 부적절한 답변을 얻어내려는 '프롬프트 인젝션(Prompt Injection)' 등의 문제가 지적되고 있다. 아직 해결해야 할 과제가 많지만, 이미 AI는 우리의 일상에 깊이 스며들고 있다. 우리가 사는 세계를 AI가 진정으로 이해하게 만들기 위해서는 또 한 걸음이 필요해 보인다.
관련된 컨텐츠
'TECH & SCIENCE' 카테고리의 다른 글
진정한 핸즈프리 결제, 아니 오히려 손 결제라니… (0) | 2024.11.14 |
---|---|
백색 왜성으로 변한 태양, 태양이 사라진 후 지구는 살아남을 수 있을까? (1) | 2024.11.12 |
왜 우리는 스스로 숨을 멈출 수 없을까?, 숨참기 한계와 이유 (3) | 2024.11.08 |
인간처럼 일하는 로봇, 보스턴 다이내믹스의 신형 아틀라스 등장 (2) | 2024.11.07 |
예수의 갈릴리 호수 기적, 과학적 설명 등장하다 (3) | 2024.11.05 |