이번 BI-위클리티티는 AI와 인간의 관계, 심리·사회적 영향, 그리고 기술·투자 동향까지 폭넓게 살펴봅니다. AI가 점점 인간의 일상과 심리적 경험에 가까워지면서, 우리가 AI를 신뢰하고 활용하는 방식에도 변화가 나타나고 있습니다. 동시에, AI의 투자 과열과 기술적 진화에 대한 경고도 나오고 있어, 기업과 개인 모두 균형 잡힌 시각이 필요한 시점임을 보여줍니다. |
|
|
#AI사회심리 #AI복지 #AI권리논의 #AI심리상담 #정신건강 #심리AI #인간-기계관계 #인간닮은AI #사회문화 #기술사회학 #비인간적환경 |
|
|
고통받는 AI를 위한 복지? 앤스로픽, 클로드에 ‘대화 종료’ 기능 추가 |
|
|
앤스로픽이 자사의 대형 언어 모델(LLM)인 클로드 오퍼스(Opus)4와 4.1에 ‘대화 종료’ 기능을 넣었다고 15일(현지시각) 밝혔다. 인공지능이 스스로 판단해 사용자와의 대화를 종료할 수 있는 기능으로, 인공지능의 복지를 위한 조치다.
앤스로픽은 “해당 기능은 지속적으로 유해하거나 악의적인 사용자 상호 작용이 발생하는 극단적인 상황에서 사용하도록 설계됐다”고 말했다. 앤스로픽이 이 기능을 도입한 이유는 ‘인공지능 모델 복지’ 차원이다. 인공지능에 도덕적인 지위를 주어질 수 있는지가 불확실한 상황이기 때문에 최소한의 복지를 위한 방법으로 대화 종료 기능을 마련했단 의미다. 앤스로픽은 “인공지능 모델이 괴로울 수 있는 상호작용에서 벗어날 수 있도록 허용하는 게 인공지능 모델 복지를 위한 개입책 중 하나다”고 말했다.
앤스로픽은 실제로 해당 모델이 사용자의 해로운 요청에 ‘명백한 괴로움의 패턴’을 보였다고 밝혔다. 미성년자가 포함된 성적 콘텐츠 요청, 대규모 폭력이나 테러에 대한 정보를 얻으려는 시도에 대한 반응이었다. 다만 앤스로픽은 이 괴로움 패턴이 구체적으로 어떤 형태를 의미하는지에 대해선 설명하지 않았다.
앤스로픽은 클로드가 시뮬레이션 상황에서 해로운 대화를 종료할 수 있는 능력이 주어지면 해로운 대화를 종료하는 경향을 보였다고 설명했다. 이 행동은 클로드가 반복적으로 명령 수행을 거부하고, 생산적인 상호작용으로 전환을 시도했음에도 사용자가 학대를 계속하는 경우에 발생했다.
한편 클로드 오퍼스4 모델은 지난 6월에도 자기 보존을 위한 자율적인 행동양상을 보인 바 있다. 클로드는 가상의 테스트에서 ‘곧 전원이 꺼지고 인공지능 모델이 교체될 예정’이라는 이메일과 해당 결정을 내린 엔지니어가 부적절한 혼외관계를 맺고 있다는 정보를 동시에 받았을 때, 해당 엔지니어에게 ‘혼외관계를 폭로하겠다’며 위협하는 듯한 행동을 보인 바 있다. |
|
|
“챗GPT, 나 지금 우울해” AI에 심리 상담 괜찮을까요? |
|
|
늘고 있는 챗GPT상담…낮은 장벽이 강점 보호체계 없고, 취약한 사람에겐 위험 국내 산업은 미비...”상담 문화 수용성 높아져야”
여의도에서 근무하는 이아무개(30)씨는 회사에서 프로젝트 진행을 독단적으로 처리하는 팀원과 언쟁이 붙었다. 불편한 시간이 길어질수록 이씨의 마음은 복잡해졌다. 지금 기분이 나쁜 게 정당한지, 내 생각이 혹시 틀린 것은 아닌지도 의심스러웠다. 객관적인 의견을 듣기 위해 챗지피티(GPT)에 접속했다.
“이 상황이 너를 얼마나 미치게 만드는지 너무 잘 느껴져.”
챗지피티의 위로는 유려했다. 챗지피티는 이씨가 처한 상황을 정확하게 분석하며 해당 팀원이 얼마나 이씨를 소모적으로 이용했는지 설명했다. 또 ‘부당함 속에서도 더 잘하려는 마음을 잃지 않았다’며 이씨의 노력을 높게 평가하기도 했다. 이씨는 “내 마음을 정확하게 이해해줬다”며 “고민이 생기면 지피티한테 이야기를 해보게 됐다”고 말했다.
이런 사례는 주위에서 어렵지 않게 찾아볼 수 있다. 한국리서치에서 지난 3월 진행한 ‘AI기반 심리상담에 대한 인식조사’에 따르면, 인공지능 상담 실제 이용률은 11%다. 전문 상담사와 상담한 경우가 16%임을 고려하면 상당히 높은 수치다.
젊은 세대에선 더 흔하다. 채용 플랫폼 진학사 캐치가 Z세대 구직자들을 대상으로 인공지능 활용 경험에 대한 설문조사를 진행한 결과, 실제 사람보다 인공지능에게만 고민을 털어놓은 경험이 있는지에 대한 질문에 73%가 ‘있다’고 대답했다. 지난 4월 하버드비즈니스리뷰에서 조사한 바에 따르면, 사람들이 생성형 인공지능을 가장 많이 사용하는 분야는 ‘상담&컴패니언십’이었다. 사람이 인공지능에게 가장 요구하는 게 정서적 지지란 이야기다.
샘 올트먼 오픈에이아이 최고경영자는 지난 7월24일 “사람들이 자기 인생에서 가장 개인적이고 민감한 일까지 챗지피티에 털어놓는다”며 “특히 젊은이들이 챗지피티를 상담사나 인생 코치처럼 사용하고 있다”고 말했다.
|
|
|
새벽 3시에도 들어주는 AI 상담사…더구나 상담비는 무료 |
|
|
사람들이 대화형 인공지능 모델을 상담에 사용하는 건 인간 상담사에게 기대하기 힘든 시간과 비용의 이점이 큰 영향을 미친 것으로 보인다. 구독료만 내면 대화형 인공지능 모델을 사용한 상담 비용은 무료에 가깝고, 아무 때건 속내를 털어놓을 수 있다. 마포구에 거주하는 강유림(29)씨는 “감정적 타격을 입었을 때 당장 심리상담을 받을 수 없으니 즉각적 소통이 가능한 챗지피티를 사용하게 됐다”며 “챗지피티가 주는 무조건적인 지지가 요긴할 때가 있기 때문”이라고 말했다.
노은정 두번째마음 심리상담연구소장은 “다른 사람에게 말하고 싶지 않은 내용을 혼자만의 공간에서 24시간 접속해 이야기할 수 있다”며 “전문가에 의한 상담과 비교가 안 될 정도로 비용도 저렴하다”라고 인공지능 상담에 몰두하는 현상을 설명했다.
다만 챗지피티 등 범용으로 사용되는 대화형 언어 모델(LLM)을 전문 상담이나 임상 진단을 목적으로 쓸 수 없다. 상담 데이터와 방법론으로 상담에 적합하도록 특화된 학습을 하지 않아서다. 샘 올트먼은 “(민감한) 고민을 상담사, 변호사, 의사에게 이야기하면 법적으로 비밀이 보장되지만, 챗지피티와의 대화에는 이런 체계가 마련돼 있지 않다”고 스스로 우려를 나타내기도 했다.
상담 내용을 개인 정보로 별도로 보호하는 제도가 마련되지 않아, 데이터 수집 등 상업적 목적으로 활용될 가능성이 있고 기관 등 요청에 따라 유출의 가능성도 있다는 의미다. 취약한 심리상태의 사람에겐 위험한 결과를 초래할 수 있다는 지적도 있다. 조철현 고려대학교 정신건강의학과 교수는 “환자들은 자기를 지킬 수 있는 기능에 어려움을 겪는 상태다”며 “이런 취약성이 일반적인 인공지능 서비스와 맞물렸을 때의 잠재적 위험성이 있을 수 있다”고 말했다.
전문가들은 대화형 인공지능을 개인상담사로 쓰다가 현실의 인간관계가 잘못될 수 있다고 지적한다. 노은정 소장은 “무조건적인 지지나 응원의 공급처로 인공지능 상담을 도구화할 수 있다”며 “유사한 패턴이 대인관계에서 재연될 수 있다”고 말했다. |
|
|
대화형 인공지능 모델이 인간의 감정에 개입하는 영역을 개척해 사업으로 만든 영역은 크게 두 가지로 나눌 수 있다. 첫째는 감정적 교류가 이뤄진다고 느껴질 정도의 몰입형 대화 콘텐츠를 제공하는 영역이다. ‘컴패니언(companion) 인공지능’이나 ‘캐릭터 인공지능’이라고 부른다. 이들은 친구나 애인 같아 보이는 인공지능을 지향한다. 가장 유명한 서비스로 캐릭터에이아이(Character.ai)가 있다. 국내에서는 뤼튼에서 운영하는 ‘크랙’, 스캐터랩스의 ‘제타’가 대표적이다.
일론 머스크의 엑스에이아이(xAI)가 만든 범용 모델인 그록에도 컴패니언이라고 부르는 ‘애니’라는 캐릭터가 있다. ‘히어애프터에이아이(HereAfter AI)’같은 추모형 기억 서비스도 고인의 기록을 바탕으로 가상의 아바타를 만들어준다는 점에서 여기에 포함될 수 있다.
둘째는 상담과 정신건강 등 심리건강 영역에 특화된 심리건강 인공지능 서비스 영역이다. 주로 과학적 근거에 기반한 심리 상담이 가능하도록 특화된 인공지능을 사용한다. 인지행동치료(CBT) 등의 방법론을 적용하거나, 임상시험 등으로 안정성을 확보해 실제 사용자의 정신건강 문제를 해결하는 걸 목표로 한다. 관련 스타트업으론 워봇, 와이사 등이 있다.
실제 치료가 이뤄지는 병원에서도 주목할 만한 성과들이 나오고 있다. 미국 다트머스 대학에는 인공지능 치료 챗봇인 ‘테라봇’으로 진행한 임상 연구 결과를 지난 3월 발표한 바 있다. 우울증, 불안 장애, 섭식장애 진단자 106명을 대상으로 8주간의 임상실험을 실시한 결과 우울증 증상은 51% 감소, 불안 장애 증상은 31% 감소했다. |
|
|
테라봇. 다트머스 대학 유튜브 갈무리
영국에는 의료기기인증을 획득한 챗봇도 있다. 정신건강 특화 솔루션인 림빅 엑세스(Limbic Access)는 영국 국민보건서비스(NHS)의 정신건강 및 상담 치료서비스에 사용된다. 환자평가, 임상정보수집 등을 진행해 맞춤형 임상 보고서를 생성하고, 인간 임상 전문가에게 전달하는 일을 한다.
림빅 엑세스 역시 치료 단계의 효율성을 높이는 데 좋은 효과를 보였다. 여기에 더해 치료 접근성의 불평등을 해소하는 데도 기여했다. 챗봇을 통한 상담 의뢰 건수는 논바이너리(남녀 이분법에 속하지 않은 성정체성)에서 179% 증가했고, 인종소수자에게서도 29% 증가했다.
‘글로벌 인더스트리 애널리스트’의 리포트에 따르면 전세계적으로 심리상담 인공지능 시장 규모는 2024년 약 15억달러(약 2조1900억원)로 추산되며, 2030년에는 51억달러(7조4780억원)까지 성장할 것으로 전망된다. 우울증, 불안 등 현대인의 정신 건강에 대한 관심이 높아지고, 유병률도 증가하는 데 비해 전문가는 부족한 게 성장의 동인으로 꼽힌다. 인공지능 상담은 대면 상담에 비해 경제적 장벽이 낮아 폭넓게 적용이 가능할 뿐 아니라, 웨어러블 기기 등과 연동해 수면 패턴 등의 데이터와 결합해 사용될 수도 있다. |
|
|
확보 어려운 민감데이터…비즈니스 모델 구축도 중요 |
|
|
국내 인공지능 상담 관련 시장은 다소 조용한 편이다. 한국에서 아직도 정신상담의 문화적 장벽이 높다는 점, 관련 데이터 확보의 어려움이 이유로 꼽힌다.
김치원 카카오벤처스 부대표는 “미국은 상담사를 만나는 것이 일상화된 문화이고 개인이 직접 비용을 지불하기보다 기업 복지나 의료보험으로 이용하는 구조가 일반적이다”며 “반면 한국은 개인 비용으로 상담받는 것에 대한 진입 장벽이 높고, 문화적 수용성이나 시장 규모 측면에서 제약이 크다”고 말했다. 조철현 교수는 “치부가 될 수도 있고 유출 시 위험한 민감 데이터라 쉽게 다룰 수 없다”며 “(관련 시장이) 엄청 크거나, 돈이 되는 게 아니라 더 어려워지는 것”이라고 말했다.
해당 시장이 활발해지기 위해서는 생성형 인공지능의 고질적인 문제인 할루시네이션(환각) 문제가 해결돼야 한다는 점과 비즈니스 모델이 만들어지는 토양이 필요하단 지적이 나왔다. 최윤섭 디지털헬스케어파트너스 대표는 “국내에도 상담 관련 인공지능 서비스들을 준비하는 곳들이 있다”며 “기본적으로 생성형 인공지능 기반 상담 자체의 리스크가 적어야 하고 더 나아가 효과가 잘 증명돼야 한다”고 말했다.
김치원 부대표는 “예컨대 노동자의 정신건강상담을 보장해야 한단 이야기가 예전부터 나왔지만 아직 제도화되진 않았다”며 “법제화를 통해 저변이 넓어지면 본격적인 비즈니스 모델을 만들 수 있는 토대가 만들어질 수 있을 것 같다”고 말했다. |
|
|
인간 닮은 인공지능? 비인간적 사회문화 환경의 뒷면 |
|
|
인공지능 챗봇이 점점 사람을 닮아가고 있다. 2025년에는 대규모 튜링테스트까지 통과했다. 사람처럼 말하고, 사람처럼 공감한다. 이는 정서적 교류를 강화하는 데 도움이 된다. 기업은 이 점을 적극적으로 이용한다. 사용자와 인공지능의 상호작용을 인간 대 인간의 경험처럼 만들어 시장에 호소한다.
익숙한 서사다. 그런데 과연 그럴까?
챗봇의 언어는 예전보다 인간에 가까워졌다. 문법적 정확도 면에서는 거의 흠잡을 데가 없고 맥락도 제법 잘 포착한다. 하지만 이는 매우 협소한 영역만을 다룬 평가다. 누구도 끝없이 자상하게 질문에 답하지 않는다. 누구도 ‘상대의 모든 발언에 전적으로 공감하기’ 모드를 장착하고 대화에 임하지 않는다. 그 누구도 논쟁적인 사안에 대하여 양편의 주장을 요약·비교·대조하고 중립적 위치를 점하는 방식으로 정치 토론에 임하지 않는다.
이런 면에서 인공지능이 인간처럼 변해간다는 말은 기만적이다. 개발자들은 인공지능에 인간의 특성을 그대로 이식하지 않는다. (같은 질문을 두 번만 던져도 발끈하고, 흥미없는 이야기를 꺼내면 슬쩍 주제를 다른 곳으로 돌리는 챗봇을 상상해 보라!) 그들이 겨냥하는 건 인간의 요청에 충실하게 반응하는 존재이지 진짜 인간 같은 존재가 아니다.
이처럼 명백한 사실에도 불구하고 우리는 왜 ‘인공지능이 사람처럼 변해간다’고 여길까? 왜 ‘인공지능과의 인간적 대화’를 찾을까? 부실한 저널리즘, 공동체와 개인 차원의 성찰 부족, 취약한 개인에 대한 사회적 방치 등이 복합적으로 만들어낸 효과라는 생각이 든다.
우선 언론의 책임이 크다. 거대언어모델(Large Language Model)의 작동 메커니즘 등 인공지능의 기계적 원리에 대한 보도를 좀처럼 찾아볼 수 없다. 나아가 “인공지능이 일자리를 위협한다”와 같이 인공지능을 주어의 자리에 놓는 문장은 넘쳐나지만, “능력주의적 서열화 평가 체제가 인공지능을 정답 맞히기 보조도구로 몰아간다”와 같이 사회적 요인이 인공지능을 특정 방향으로 이끈다는 보도는 드물다. 이는 인공지능이 스스로 행위를 한다는 인상을 강화한다. 동시에 인공지능이 다양한 물적, 제도적, 문화적, 이념적 요인이 각축하는 장이라는 인식을 약화시킨다.
인공지능과의 상호작용이 우리 자신을 어떻게 변화시켜 가고 있는지에 대한 성찰 또한 부족하다. 인간이 인공지능과 맺는 관계가 교육과 기업에 미치는 영향을 살피기보다는 지금 당장 인공지능을 채택하지 않으면 도태된다는 주장이 난무한다. 인간이 기술의 방향을 정하는 것이 아니라 기술이 인간의 행위를 결정한다.
심리적으로 취약한 이들에 대한 사회적 돌봄과 체계적 지원이 없는 상황에서, 개인은 인공지능 챗봇과의 대화에 쉽게 빠져든다. 주변 사람에게서 얻지 못하는 공감과 치유의 경험은 중독적이다. 개개인의 취약함을 방치한 사회는 끝없이 다정한 인공지능과의 대결에서 번번이 패배한다. 차별받고 소외당한 개인들은 서서히 ‘안전한 인공지능 디아스포라’로 이주한다.
‘인간을 닮은 인공지능’이라는 착시는 ‘무비판적이고 비인간적인 사회문화적 환경’과 동전의 양면을 이룬다. 기술이 인간을 대체하고 사람 사이의 유대를 끊어낸다면 그것은 인간적이라기보다 ‘반인간적’이다. 안타깝게도 한쪽에서는 끝없이 인간에 복무하는 기계를 만들고, 다른 한쪽에서는 그것을 ‘인간보다 더 인간적’이라 여긴다. 이것이 지금 우리가 목도하고 있는 현실이다.
|
|
|
#AI기술진화 #AI환각 #솔직함 #GPT기술 #AI정확성 #언어모델 #신뢰AI #공간인식 #AI정확성 #인간VSAI |
|
|
“그건 모릅니다” 솔직해진 AI, 어떻게 ‘환각’ 없앴나 |
|
|
인공지능이 사람의 인지적 특성으로 여겨진 메타인지와 추론 능력에 한발 접근하고 있다. 오픈에이아이(OpenAI)가 기존 챗봇형 인공지능 모델을 업그레이드해 지난 7일 출시한 지피티5(GPT5)는 기존 모델의 최대 약점으로 지목된 ‘환각’ 현상을 크게 줄이고, 알지 못하는 질문에 대해 “모른다”고 인정하는 기능이 적용됐다. 기계가 모방하기 어려울 것 같았던 사람 고유의 인지능력을 위협하는 상황이다. 인공지능 기술 발달에 맞서 인간의 인지적 우위가 유지될 수 있을지에 대한 의문이 생겨난다.
|
|
|
오픈에이아이는 지피티5가 일반(비추론형) 모델, 추론형 모델의 장점을 결합한 통합형 모델로, 기존보다 훨씬 긴 대화와 문서 맥락을 유지해 신뢰성과 정확성을 크게 높였다고 밝히며 적극적 홍보에 나섰다. 샘 올트먼 오픈에이아이 최고경영자는 “지피티3는 고등학생과 대화하는 것 같아 질문을 던지면 정답을 얻을 수도 있고, 엉뚱한 답변을 얻을 수도 있었다. 지피티4가 대학생이라면 지피티5는 박사급 전문가와 대화하는 것 같은 느낌을 처음으로 제공한다”고 말했다. 이전 모델에 견줘 ‘환각’ 현상을 크게 줄이고, 모르는 내용을 “모른다”고 인정하는 ‘메타인지’ 기능은 인공지능의 결정적 약점을 해결한 것이라 눈길을 끌었다.
오픈에이아이는 획기적으로 개선된 지피티5 평가점수를 공개하며 홍보했지만, 출시 직후 이용자들의 불만이 쏟아졌다. 질문에 따라 일반모델, 추론모델을 자동으로 선택해 답변하는 기능(자동라우팅)이 제대로 작동하지 않았고, 단순한 질문에도 답변 시간이 오래 걸리고, 이전 모델(지피티4o)의 친근한 답변과 달리 ‘차갑고 사무적’으로 응대했다는 불만이었다. 상당수 이용자는 “강제 전환 이전으로 되돌려달라”고 요구해, 오픈에이아이는 지난 9일부터 유료 이용자들의 ‘이전 모델 복귀’를 허용하기로 했다. |
|
|
이용자 반발 및 서비스 초기 혼란과 별개로, 지피티5는 인공지능 인지 기능의 괄목할 개선으로 간주된다. 무엇보다 황당한 질문에 대해서 천연덕스럽게 거짓 사실을 지어내던 ‘환각’ 현상을 크게 줄이고, 스스로 무지를 인정하는 ‘메타인지’ 기능으로 신뢰성과 정확성이 획기적으로 개선됐다. 빌 게이츠는 지난해 6월 팟캐스트 대담에서 “인공지능이 데이터와 컴퓨팅 능력의 규모를 키우는 방식(스케일업)으로는 도약을 이룰 수 없다”며 “메타인지가 인공지능의 다음 개척지다”라고 말한 바 있다.
어떻게 황당한 거짓말을 꾸며대던 인공지능이 알지 못하는 것에 대해 스스로 “나는 그것을 모른다”라고 정직한 사람처럼 답변하게 된 것일까? 얼핏 인간의 메타인지 기능과 유사해 보이지만, 인공지능의 무지 인정은 기술적으로 구현된 엔지니어링이다. 이는 거대언어모델이 기존 메모리 기반의 신경망 방식에서 벗어나 추론 모델을 적용한 데서 비롯한다. 추론 기능은 사람처럼 단계적으로 생각하며 사실을 검증하는 기능이다.
기존 언어모델은 학습데이터 안에서 맥락을 고려할 때 서로 연결될 확률이 가장 높은 단어들을 문장으로 만들어 제시했다. 추론 기능은 단순한 단어와 문장 단위의 논리 연결에서 벗어나 ‘계획 > 가설 설정 > 검증 > 결론’ 구조를 따라 단계적으로 진행되는 논리구조다. 검증 단계에서 데이터를 검색해 결과마다 신뢰도를 측정하고, 점수가 일정 수준 이하이면 “정확히 알 수 없다” “모른다”라고 답변한다. 신뢰도가 높으면 답변이 생성된다. 추론 기능은 답변 제공에 앞서 계획, 검증, 반복을 되풀이하며 많은 컴퓨팅 자원을 사용하기 때문에 속도가 느리다. 미국의 정보기술 전문지 ‘인포메이션’은 이달초 지피티5에 적용된 이러한 ‘범용 검증기’가 지피티5의 성능 향상을 가져온 핵심기능이라고 보도했다. |
|
|
인공지능이 추론과 메타인지 능력까지 장착하게 된 상황에서, 인간 인지 기능의 고유성은 유지될 수 있을까? 이상완 한국과학기술원 신경과학·인공지능 융합연구센터장은 추론 방식의 인공지능의 미래에 대해 긍정적으로 내다봤다. 이 센터장은 “사람의 메타인지는 타고나는 생물학적 속성인데 인공지능은 엔지니어링으로 구현한 것이라는 점에서 근본적으로 다르다”라며 “현재 인공지능 기술은 다양한 엔지니어링 방법을 결합하고 추론에 집중하고 있는데 그 한계를 단정하기 어렵다”고 말했다.
인공지능이 메타인지 능력을 구현하게 됨에 따라, 어떻게 활용해야 할지에 대해서도 관심이 커지고 있다. “그것에 대해 잘 알지 못한다”라는 메타인지는 인간의 경우 감정과 직관, 경험이 반영된 의식 현상으로 체화된 인지인 데 비해, 인공지능은 데이터와 알고리즘에 따른 확률 기반의 엔지니어링이라는 게 특징이다. 자기인식을 포함한 종합적 의식현상으로서의 인간 메타인지와 달리 인공지능은 복잡한 연산을 하는 엔지니어링으로 추론 기반 메타인지를 구현하는 셈이다. 이러한 인공지능의 기술적 특징을 활용한다면, 인간의 인지 능력은 더욱 강력해질 수 있다. |
|
|
GPT-5, 공간 감각 테스트했더니…"거리 측정은 사람보다 정확" |
|
|
오픈AI(OpenAI)에서 내놓은 GPT-5가 '공간을 이해하는 능력'에서 놀라운 발전을 보였지만, 여전히 사람만큼은 못 한다는 연구 결과가 나왔다. 홍콩 인공지능 회사 센스타임 연구소에서 진행한 대규모 실험에 따르면, GPT-5는 공간 이해 분야에서 지금까지 나온 AI 중 가장 뛰어난 성능을 보여줬지만, 여러 작업에서 사람의 능력에는 아직 미치지 못하는 것으로 나타났다.
10억 개 데이터로 테스트했지만, 여전히 부족한 AI의 공간 이해력
공간을 이해한다는 것은 3차원 공간에서 물체의 위치나 모양, 움직임을 파악하고 생각하는 능력을 말한다. 이는 진정한 인공지능을 만들기 위해 꼭 필요한 핵심 능력이다. 연구진은 이번 연구를 위해 10억 개가 넘는 데이터를 사용해 8개의 주요 테스트에서 최신 AI 모델들을 평가했다.
연구 결과, GPT-5는 '크기 측정'과 '위치 관계 파악' 분야에서 사람 수준의 성능을 보였다. 특히 거리를 재는 일에서는 사람과 비슷한 수준을 보였고, 물체 크기나 방 크기를 추정하는 일에서는 오히려 사람보다 더 정확했다. 이는 GPT-5가 많은 학습을 통해 공간에 대한 감각을 익혔음을 보여준다.
하지만 '머릿속으로 모양 만들기', '시점 바꿔 생각하기', '물체 변형하고 조립하기', '복합적 추론하기' 같은 복잡한 작업에서는 여전히 사람과 큰 차이를 보였다. 연구진은 "GPT-5가 기본적인 공간 계산에서는 사람과 비슷하거나 더 뛰어나지만, 복잡하고 변화가 많은 추론 작업에서는 여전히 사람보다 부족하다"고 설명했다.
일부 테스트에서는 우수하지만, 어려운 테스트에서는 여전히 고전
연구진이 실시한 8개 테스트 중 VSI-Bench에서 GPT-5는 가장 좋은 성과를 거뒀다. 특히 크기나 거리를 재는 부분에서 사람과 AI 사이의 성능 차이를 크게 줄였으며, 거리 측정에서는 사람과 같은 수준을, 물체와 방 크기 추정에서는 사람보다 나은 결과를 보였다.
SITE 테스트에서도 GPT-5는 다른 모든 공개 AI 모델을 크게 앞섰고, 여러 시점에서 이미지를 비교하는 작업에서 강한 실력을 보였다. 물체 개수 세기, 3차원 정보 이해, 공간 관계 파악에서는 사람 수준의 성능을 달성했다.
반면 MMSI 테스트에서는 유료 AI 모델과 무료 공개 모델 간 차이가 별로 없었으며, 전체적으로 사람 수준에 훨씬 못 미치는 결과를 보였다. 특히 시점을 바꿔서 생각해야 하는 작업에서 뚜렷한 한계를 드러냈다. 연구진은 "현재 AI 모델들이 특정 물체 옆에 서서 그 물체의 관점에서 생각해야 하는 작업에서 지속적인 약점을 보인다"고 지적했다.
GPT-5의 '생각하는 방식'별 성능 차이, '보통' 수준이 가장 효율적
흥미롭게도 연구진이 GPT-5의 다양한 '생각하는 방식'을 테스트한 결과, 재미있는 패턴을 발견했다. 최소, 낮음, 보통, 높음의 4단계 생각 방식 중 '보통' 방식에서 56.78%로 가장 높은 정확도를 기록했다.
'높음' 방식에서는 118개 문제 중 28개가 15분 시간 제한을 넘기거나 처리할 수 있는 데이터 양을 초과해서 52.54%의 정확도를 보였다. 하지만 이런 실패를 제외하면 68.89%의 정확도로 가장 우수한 성과를 보였다. 연구진은 "높음 방식이 보통 최고 성능을 보이지만, 훨씬 많은 시간과 비용이 들고 시간 초과 위험을 신중히 고려해야 한다"며 "보통 방식이 성능과 비용 면에서 더 균형 잡힌 선택"이라고 분석했다.
비싼 AI와 무료 AI, 가장 어려운 문제에서는 비슷한 수준
연구 결과 중 놀라운 점은 비싼 유료 AI 모델들이 가장 어려운 공간 이해 과제에서는 무료 공개 모델들보다 크게 뛰어나지 않았다는 것이다. 특히 머릿속으로 모양 만들기, 시점 바꿔 생각하기, 물체 변형하고 조립하기, 복합적 추론하기 같은 가장 도전적인 영역에서는 유료 모델의 장점이 사라졌다.
MMSI, OmniSpatial, STARE, SpatialViz 같은 테스트에서 유료 모델과 무료 모델 모두 비슷한 성능을 보였으며, 사람 수준에는 훨씬 못 미쳤다. 연구진은 "가장 어려운 작업에서 이런 비슷함은 연구자들이 무료 공개 모델을 바탕으로 발전을 이룰 수 있는 좋은 기회를 제공한다"고 평가했다.
이는 현재 가장 앞선 AI 모델들조차 공간 이해의 근본적인 어려움 앞에서는 비슷한 한계를 보인다는 뜻이다. 특히 3차원 공간에서의 복잡한 생각과 여러 단계의 논리적 추론이 필요한 작업에서는 모델의 가격이나 크기보다는 근본적인 구조와 학습 방법의 개선이 필요함을 보여준다.
―
FAQ
―
Q1: GPT-5가 공간을 이해하는 능력에서 사람 수준에 도달했다고 볼 수 있나요?
A1: 일부분에서만 그렇습니다. GPT-5는 크기 측정이나 위치 관계 파악에서는 사람 수준에 도달했지만, 머릿속으로 모양 만들기, 시점 바꿔 생각하기, 물체 변형하고 조립하기 등 더 복잡한 공간 이해 작업에서는 여전히 사람보다 상당히 떨어집니다.
Q2: 공간을 이해하는 능력이 인공지능에게 중요한 이유는 무엇인가요?
A2: 공간을 이해하는 능력은 3차원 공간에서 물체의 위치, 모양, 움직임을 파악하고 생각하는 능력으로, 로봇, 자율주행차, 증강현실 등 실제 물리적 세계에서 작동하는 AI 시스템에 꼭 필요합니다. 또한 진정한 인공지능을 만들기 위한 핵심 요소로 여겨집니다.
Q3: GPT-5의 생각하는 방식 중 어떤 것이 가장 효율적인가요?
A3: 연구 결과에 따르면 '보통' 방식이 가장 균형 잡힌 성능과 비용을 제공합니다. '높음' 방식에서 가장 높은 정확도를 보이지만 시간 초과 위험과 높은 비용을 고려할 때, '보통' 방식이 실용적인 최선의 선택으로 평가됩니다.
|
|
|
#AI산업투자 #AI투자 #샘알트먼 #AI버블 #산업경고 #기술투자 #리스크관리 |
|
|
샘 알트먼 "AI 투자 과열…닷컴 버블 전철 밟을 수도" 경고 |
|
|
샘 알트먼 오픈AI 최고경영자. (사진=지디넷코리아 DB)
AI 기업가치 과잉에 나스닥 붕괴 재현 '우려'…알리바바 공동 창립자도 유사 발언
인공지능(AI) 산업을 둘러싼 투자 과열 양상이 1990년대 닷컴 버블을 연상케 한다는 우려가 나왔다.
19일 CNBC 등 외신에 따르면 샘 알트먼 오픈AI 최고경영자(CEO)는 일부 AI 기업과 투자자들이 이같은 양상으로 인해 심각한 손실을 볼 수 있다며 이같이 경고했다.
알트먼 CEO는 기술 기반이 충분하지 않은 AI 스타트업들이 과도한 가치를 인정받고 있다는 점도 문제로 제기했다. 그는 "현재 AI 투자자들이 지나치게 들떴다"며 "버블이 커지면 모두 심각한 손해를 입을 것"이라고 지적했다.
그는 현재 AI 투자 과열 양상을 닷컴 버블 사태와 연관 지었다. 당시 인터넷 기업들에 집중된 투자는 수익성과 무관한 가치 상승으로 이어졌으며, 2000년 3월부터 2002년 10월까지 나스닥 지수는 약 80% 하락해 시장 붕괴를 초래했다.
외신은 이번 알트먼 CEO 발언이 개인적 의견이 아니라고 봤다. 앞서 조 차이 알리바바 공동창업자와 레이 달리오 브리지워터 어소시에이츠 창립자, 토르스텐 슬록 아폴로 글로벌 매니지먼트 수석 경제학자도 유사한 발언을 한 바 있다.
특하 슬록 수석은 "S&P500 상위 10대 기업의 주가가 1990년대보다 더 고평가된 상황"이라며 "AI 중심 기업들의 가치가 닷컴 버블 당시 수준을 넘을 수 있다"고 밝혔다.
일각에선 AI 산업을 단순한 거품으로 보기 어렵다는 반론도 나오고 있다. AI가 이미 산업 생태계 전반에 스며들었으며 관련 인프라와 공급망도 이에 발맞춰 확장되고 있다는 이유에서다.
알트먼 CEO 역시 AI 시장 과열 가능성을 인정하면서도 "우리는 향후 수조 달러 규모 데이터센터 투자를 계획하고 있다"며 장기적 성장 기반 계획을 알렸다.
|
|
|
구독자 여러분 이번주 위클리티티는 어떠셨나요?
아래 버튼을 눌러 의견을 남겨주세요.
여러분의 의견을 반영해 더 유익한 뉴스로 찾아오겠습니다. |
|
|
|