본문 바로가기
TECH & SCIENCE

AI 단점, 인간의 역동적인 사회적 상황을 이해하지 못한다

by 아이디어박람회 2025. 5. 9.
반응형

어떤 장면을 마주했을 때, 사람은 그 안에서 일어나는 일을 꽤 빠르게 이해한다. 가령 인도에 나란히 서 있는 두 사람이 있다고 해 보자. 우리는 그들이 친구인지, 아니면 이제 막 신호를 기다리는 낯선 사람들인지, 몇 초도 안 되는 시간 안에 어느 정도 짐작할 수 있다.

 

AI 단점, 인간의 역동적인 사회적 상황을 이해하지 못한다

 

 

하지만 최근 미국 존스홉킨스대학교에서 현재의 인공지능은 정지된 장면은 잘 분석하지만, 움직이고 변화하는 역동적인 사회적 상황에서는 사람처럼 판단하지 못한다는 AI 단점이 드러났다.

 

사람 곁에 있으려면, 사람을 먼저 읽어야 한다

 

AI가 사람 곁에서 함께 살아가는 존재가 되려면, 사람을 이해해야 한다. 예를 들어 자율주행차를 떠올려 보자. 사람 대신 운전대를 쥔 AI가 도심을 달릴 때, 가장 중요한 건 ‘주변 사람’이다. 다른 운전자는 지금 차선을 바꾸려는 걸까, 아니면 그냥 비틀거린 걸까? 횡단보도 앞에 선 사람은 건널 생각이 있는 걸까, 친구를 기다리는 걸까? 이걸 제대로 분간하지 못하면, 큰 사고로 이어질 수밖에 없다.

 

사람과 AI, 누가 더 사회적 장면을 잘 읽을까

 

실험을 통해 사람과 AI가 같은 장면을 보고 어떻게 다르게 이해하는지 비교했다. 먼저 사람에게 3초 분량의 짧은 영상 클립을 보여줬다. 영상은 세 가지 유형으로 구성되어 있었다. 사람들이 직접 대화를 나누며 상호작용하는 장면 가까이 있지만 별다른 교류는 없는 장면 서로 무관한 사람들이 따로따로 행동하는 장면 피험자들은 영상 속 사회적 상호작용 정도에 따라 1~5점으로 평가했다.

 

그리고 그다음에는 350개가 넘는 AI 영상 기반 모델, 이미지 기반 모델, 텍스트 기반 모델을 모두 활용해 인간이 이 장면을 어떻게 판단할지, 혹은 인간의 뇌가 어떻게 반응할지를 예측하게 했다.

 

AI가 사람의 판단을 유사하게 예측할 수 있다면, 움직이는 장면 속 사회적 상호작용도 사람처럼 인식할 수 있다고 말할 수 있을 것이다.

 

아직 ‘움직이는 사람’을 읽지 못한다 AI 단점

 

AI는 전반적으로 ‘동적인 인간 행동’을 정확히 해석하지 못했다. 영상 기반 모델은, 장면 속 사람들의 행동을 제대로 평가하지 못했고, 이미지 기반 모델은, 정지된 프레임조차 “이들이 대화 중인가?”라는 질문에 명확한 답을 내놓지 못했다. 언어 모델은 상대적으로 나았지만, 이것도 사람이 작성한 짧은 설명문을 읽고 판단했을 뿐이었다.

 

연구진은 이 결과를 보며, 이렇게 말했다.

 

“AI가 물체나 사람 얼굴을 인식하는 능력은 분명 진전입니다. 하지만 현실은 멈춰 있지 않아요. 지금 여기에서 무슨 일이 일어나고 있는지를 이해하는 것 그게 다음 단계입니다.”

 

‘관계’, ‘맥락’, ‘사회적 상호작용의 흐름’ 같은 것은 아직 AI에게 낯설고 어려운 과제라는 것이다.

 

AI가 이 부분에 약한 건, 설계부터 달랐기 때문이다

 

왜 이런 문제가 생길까? 연구진은 그 원인을 AI의 기본 설계, 즉 뉴럴 네트워크(신경망)의 구조에서 찾고 있다. 지금의 AI는 대체로 인간의 뇌 중에서도 ‘정지 이미지’를 처리하는 영역을 본뜬 구조를 바탕으로 만들어진다. 하지만 사람들 사이의 관계나 상황의 흐름 같은 사회적 정보는 다른 뇌 영역에서 처리된다.

 

그러니까 ‘정지된 장면’을 다루기 위해 만들어진 AI에게, ‘움직이는 세상’은 아직 낯설고 어려운 것이다. 이 연구는 2025년 4월 24일, 국제 학술대회 ‘ICLR 2025(International Conference on Learning Representations)’에서 발표되었다.

 

REFERENCE

반응형