
지이코노미 유주언 기자 | 한국 AI 스타트업 디노티시아가 한국 문화유산을 반영한 멀티모달 데이터셋 연구로 세계 최고 권위의 멀티미디어 학회 ‘ACM Multimedia 2025’ Dataset Track에 논문이 채택됐다. 단순 번역을 넘어 사회·문화적 맥락을 담아낸 이 데이터셋은 글로벌 AI 편향 문제를 극복하는 새로운 해법으로 평가받는다.
장기기억 인공지능(AI)과 반도체 통합 솔루션 전문기업 디노티시아(대표 정무경)가 참여한 한국 문화유산 기반 데이터셋 연구가 세계 최고 수준의 멀티미디어 학회 ‘ACM Multimedia 2025’ Dataset Track에서 공식 논문으로 채택됐다.
ACM Multimedia는 매년 수천 편의 논문이 몰리지만 채택률이 낮아, 논문 채택만으로도 세계적 연구 성과로 인정받는다. 올해 행사는 10월 27일부터 31일까지 아일랜드 더블린에서 열린다.
이번에 채택된 연구는 ‘HAN(Heritage Augmented Narrative)’ 데이터셋으로, 단순 번역이 아닌 한국 사회의 정서와 문화적 배경, 맥락적 의미를 반영한 내러티브 방식 캡션을 구축했다.
HAN 데이터셋은 7,822편의 한국 방송 영상에서 추출한 4만1천 장 이미지와 41만 개의 한·영 캡션을 기반으로 한다. 이를 통해 영어 중심 데이터셋이 가진 불균형과 편향을 보완하며, 다국어·다문화 환경에서도 학습 가능한 AI 모델 개발에 기여할 것으로 기대된다.
HAN 데이터셋은 멀티모달 AI, 자연어 처리, 문화유산 디지털 아카이빙 등 다양한 분야에서 활용 가능하다. 연구진의 후속 검증에서도 기존 모델 대비 성능이 향상돼, 단순 구축을 넘어 실제 응용 단계에서도 효과가 입증됐다.

정무경 디노티시아 대표는 “K-pop과 K-drama가 세계인의 일상이 됐듯, 이제는 AI 모델에도 한국 문화가 스며들어야 한다”며 “HAN은 글로벌 AI 생태계에서 다양성과 공정성을 보장하는 첫걸음이 될 것”이라고 말했다.
세계 AI 연구의 최전선에서 한국 기업이 던진 화두는 단순한 ‘데이터셋 구축’이 아니다. 디노티시아가 보여준 성과는, 글로벌 AI가 서구 중심의 언어·문화에 치우친 현실을 정면으로 겨냥했다는 점에서 의미가 크다. 데이터 편향을 줄이고, 한국적 맥락이 반영된 인공지능이 세계 무대에서 작동할 수 있는 가능성을 제시한 것이다.
AI 경쟁은 더 이상 기술력만으로 판가름 나지 않는다. 어떤 데이터를 학습시키느냐가 그 나라의 문화와 가치까지 반영하는 시대다. 한국 문화가 세계 AI의 ‘언어’ 속에 자리 잡을 수 있을지, 이번 HAN 데이터셋은 그 가능성을 묻는 상징적 첫걸음이다.