核心概念
본 논문에서는 최첨단 멀티모달 대규모 언어 모델(MLLM)을 활용하여 웹페이지의 인터랙션 디자인을 기능적인 UI 코드로 자동 변환하는 'Interaction-to-Code' 과제의 가능성과 한계점을 실험적으로 분석합니다.
摘要
Interaction2Code: 웹페이지 자동 생성 기술의 현주소와 미래 전망
본 연구 논문에서는 웹페이지의 인터랙션 디자인을 기능적인 UI 코드로 자동 변환하는 기술, 즉 'Interaction-to-Code' 과제의 현황과 미래 전망에 대해 심층적으로 다룹니다.
웹사이트 개발에서 디자인을 실제 작동하는 UI 코드로 변환하는 과정은 필수적이지만, 상당한 시간과 노력을 요구하는 작업입니다. 이러한 디자인-코드 변환 과정을 자동화하기 위해 최근 멀티모달 대규모 언어 모델(MLLM) 기반의 다양한 자동화 방법이 제안되었습니다. 하지만 기존 연구들은 정적 웹페이지에만 국한되어 실제 웹사이트에서 사용되는 동적 인터랙션 요소를 고려하지 못하는 한계를 보였습니다.
본 연구는 MLLM을 활용하여 인터랙티브 웹페이지를 생성하는 데 있어 현 기술 수준을 정확히 평가하고, 실제 웹 개발 환경에 적용 가능성을 높이기 위한 연구의 토대를 마련하고자 합니다.
본 연구에서는 현실적인 웹페이지 인터랙션 데이터셋인 'Interaction2Code' 벤치마크를 구축했습니다. 15개 유형의 웹페이지와 30개 범주의 인터랙션을 포함하는 97개의 웹페이지와 213개의 인터랙션으로 구성되어 있으며, 다양한 인터랙션 유형을 포괄적으로 다루어 MLLM의 동적 웹페이지 생성 능력을 현실적인 시나리오에서 평가할 수 있도록 했습니다.
본 연구에서는 Gemini 1.5, GPT-4o, Claude-3.5 등 최첨단 MLLM을 사용하여 실험을 진행했으며, Direct Prompt, Chain-of-Thought Prompt, Mark Prompt 등 세 가지 프롬프트 방식을 설계하여 모델의 성능을 비교 분석했습니다. 또한, 생성된 웹페이지의 품질을 평가하기 위해 시각적 유사도, 구조적 유사도, 텍스트 유사도, 위치 유사도, 기능적 유용성 등 다양한 평가 지표를 사용했습니다.