챗GPT, LLM의 한계와 일관성 부족 문제, AI가 정말 세계를 이해할 수 있을까?

chatgpt와 같은 대규모 언어 모델을 활용한 생성 AI는 대량의 데이터와 딥러닝 기술을 바탕으로 구축된 언어 모델입이다. 이 AI의 정확성은 점점 더 향상되어 때론 실제 세상을 정확히 이해하고 있는 것처럼 보이기도 한다. 그러나, 정말로 이해하고 있는 걸까?

대규모 언어 모델을 활용한 생성 AI의 문제점

대규모 언어 모델(LLM)은 막대한 "계산량", "데이터 양", "파라미터 수"를 순간적으로 처리하여 인간과 가까운 유창한 대화가 가능해지고, 자연 언어를 이용한 다양한 처리를 높은 정확도로 수행할 수 있게 된다. LLM은 경로 안내(길찾기)나 게임 플레이와 같은 복잡한 작업도 정확하게 해내지만, 예측하기 어려운 현실 세계에서는 문제가 발생할 수 있다.

예를 들어, AI가 운전하는 자율주행차를 타고 있을 때, 통행 금지 상황을 만나게 되었다고 가정해보자. 이때, 정확한 지도를 가지지 않은 AI는 사용자를 엉뚱한 곳으로 안내할 수도 있다.

이번에 진행된 연구에서 조사된 것은 GPT-4와 같은 대규모 언어 모델(LLM)의 기반이 되는 '트랜스포머(Transformer)'라는 생성 AI 모델의 일종이다. 트랜스포머는 대량의 언어 데이터를 기반으로, 문장 내 다음 단어나 문맥에서 이어질 가능성이 높은 단어를 예측할 수 있는 모델이다.

그러나 이러한 AI가 세상을 정말 이해하고 있는지 알기 위해서는 단순히 예측의 정확성만으로는 충분하지 않다. AI는 규칙을 이해하지 못하더라도 정확한 예측을 할 가능성이 있기 때문이다. 이러한 이유로 MIT의 아시슈 람바찬(Ashish Rambachan) 연구원과 팀은 AI에게 '결정적 유한 오토마톤'이라는 문제를 해결하게 하여, 두 가지 기준을 바탕으로 AI의 세계 모델이 얼마나 올바른지를 평가해보았다.

결정적 유한 오토마톤이란 상태와 입력을 기반으로 다음 상태가 결정되는 게임과 같은 구조를 말한다. 예를 들어, 주사위를 던져 목표를 향해 나아가는 윷놀이를 상상해볼 수 있다. 이때 현재의 위치가 상태, 주사위의 결과가 입력이며, 그 결과에 따라 이동해야 하는 위치가 다음 상태에 해당한다. 이번 연구에서는 결정적 유한 오토마톤에 해당하는 문제로 AI에게 '오셀로'와 '뉴욕 시내의 길찾기'를 수행하도록 했다.

이러한 과제는 AI가 그 세계를 얼마나 이해하고 있는지를 시험하기에 적합하다. 그리고 그 결과를 평가하기 위한 지표는 두 가지다. 첫째는 '시퀀스 구별'이라고 불리는 지표로, AI가 오셀로의 서로 다른 두 판을 보았을 때 그 차이를 인식할 수 있는지를 평가하는 것이다.

반면, 완전히 같은 두 판을 보여주었을 때, AI가 동일한 수를 다음 수로 예측하는지를 측정하는 지표를 '시퀀스 압축'이라고 한다.

LLM의 세계 모델에는 일관성이 없다

이번 연구에서는 무작위로 생성된 데이터로 학습한 AI와 일정한 전략에 따라 생성된 데이터로 학습한 AI 두 가지가 과제에 도전했다. 두 AI의 결과를 비교해보니 더 정확한 세계 모델을 가지고 있던 것은 무작위 데이터로 학습한 AI였다. 이 의외의 결과는 무작위 데이터가 더 다양한 선택지를 학습할 수 있기 때문으로 보인다.

예를 들어, 오셀로 세계 챔피언의 수를 학습한 경우, 챔피언이 두지 않는 나쁜 수는 학습하지 못할 가능성이 크다. 반면, 무작위 수에서 학습하는 경우, 이론적으로는 모든 수를 학습할 수 있다. 이 실험에서 두 AI는 거의 매번 정확한 오셀로 수를 예측했다. 그럼에도 불구하고 두 가지 지표로 판단했을 때, 일관된 세계 모델을 가지고 있었던 것은 무작위 데이터로 학습한 AI뿐이었다.

그리고 뉴욕 시내의 길찾기 문제에서는 두 AI 모두 일관된 세계 모델을 가지고 있지 않았다. 이는 AI 자율주행차를 타고 있는 상황에서 운 나쁘게 통행 금지에 직면했을 때 알 수 있다. 길찾기 과제에서 지도에 몇 개의 도로를 폐쇄하고 우회로를 설정하자 AI의 성능이 급격히 저하되었기 때문이다. 폐쇄된 도로가 1%에 불과했음에도 불구하고, 거의 100%에 달하던 길찾기 정확도가 67%로 급락했다.

더구나 그 후 AI에게 지도를 복구하도록 하자, 도로 위에 고가도로가 걸쳐지거나 비현실적으로 뻗어 있는 도로가 생겨나는 등 이상한 뉴욕 시가 생성되었다.

기존 접근 방식으로는 인간 세계를 이해할 수 없다

이러한 결과는 AI가 세계를 이해하지 못하고 있다는 것을 보여준다. 그럼에도 AI는 특정 작업을 놀랍도록 잘 수행한다. 하지만 만약 정확한 세계 모델이 필요한 작업을 시키려면 기존의 접근 방식은 적절하지 않다는 것을 알 수 있다.

AI 모델이 놀라운 성능을 보이는 탓에, 그것이 세계에 대해 무언가를 이해하고 있을 것이라고 생각하기 쉽다. 그러나 이에 대해서는 신중하게 생각해야 하며, 직관에 의존해서는 안 된다. MIT의 아시슈 람바찬 연구원은 "세계에 대해 이해하고 있다"는 직관적인 생각에 의존해서는 안 된다고 언급하며, 이 점에 대해 더 많은 검토가 필요하다고 말했다.

연구팀은 앞으로도 규칙이 부분적으로만 알려진 문제 등 다양한 상황에 대해 검증을 이어나갈 계획이라고 밝혔다. 기타 LLM을 활용한 생성 AI에는 헛소리(환각) 현상이나, 악의적인 프롬프트를 이용해 본래 금지된 기능을 해제하고 부적절한 답변을 얻어내려는 '프롬프트 인젝션(Prompt Injection)' 등의 문제가 지적되고 있다. 아직 해결해야 할 과제가 많지만, 이미 AI는 우리의 일상에 깊이 스며들고 있다. 우리가 사는 세계를 AI가 진정으로 이해하게 만들기 위해서는 또 한 걸음이 필요해 보인다.

관련된 컨텐츠

AI, 잘 모르겠다. '머신러닝'과 '딥러닝'은 무엇이 다른가요?

처음 ChatGPT를 사용했을 때의 놀라움은 이제 사라졌습니다. 이제는 익숙해졌죠. AI가 우리의 일상에 스며들었지만, 정작 AI가 무엇인지 정확히 아는 사람은 많지 않습니다. "멀티모달", "딥러닝", "

ideaex.tistory.com

미래의 나에게 조언을 듣는다? 정신 건강 개선 효과까지 기대되는 AI 챗봇 ‘Future You’

"미래의 나는 어떤 모습일까?" 문득 그런 생각이 떠오른 적이 누구나 한 번쯤 있을 것이다. 그런 소망을 이루어 줄 챗봇이 새롭게 탄생했다. 미국 매사추세츠 공과대학교(MIT)는 최근, 60~70세가 된

ideaex.tistory.com

OpenAI, 샘 알트만 CEO의 연봉은 얼마일까요?

OpenAI의 엔지니어들은 평균 연봉이 약 3,220만 원에서 6,000만 원이며, 보너스와 주식 배당을 포함하면 연간 수입은 약 1억 2,870만 원에서 1억 4,900만 원에 이른다고 합니다. 그렇다면, OpenAI의 CEO이자,

ideaex.tistory.com

VIA

저작자표시 비영리 변경금지

'TECH & SCIENCE' 카테고리의 다른 글

지금까지 달 표면을 걸어본 인류는 총 몇 명이나 될까? (2)	2024.11.16
진정한 핸즈프리 결제, 아니 오히려 손 결제라니… (0)	2024.11.14
백색 왜성으로 변한 태양, 태양이 사라진 후 지구는 살아남을 수 있을까? (1)	2024.11.12
왜 우리는 스스로 숨을 멈출 수 없을까?, 숨참기 한계와 이유 (3)	2024.11.08
인간처럼 일하는 로봇, 보스턴 다이내믹스의 신형 아틀라스 등장 (2)	2024.11.07

아이디어박람회

챗GPT, LLM의 한계와 일관성 부족 문제, AI가 정말 세계를 이해할 수 있을까?

대규모 언어 모델을 활용한 생성 AI의 문제점

LLM의 세계 모델에는 일관성이 없다

기존 접근 방식으로는 인간 세계를 이해할 수 없다

관련된 컨텐츠

'TECH & SCIENCE' 카테고리의 다른 글

티스토리툴바

챗GPT, LLM의 한계와 일관성 부족 문제, AI가 정말 세계를 이해할 수 있을까?

대규모 언어 모델을 활용한 생성 AI의 문제점

LLM의 세계 모델에는 일관성이 없다

기존 접근 방식으로는 인간 세계를 이해할 수 없다

관련된 컨텐츠

'TECH & SCIENCE' 카테고리의 다른 글

관련글

티스토리툴바