이 연구는 대형 언어 모델(LLM)의 화학 분야 지식과 추론 능력을 체계적으로 평가하기 위해 "ChemBench"라는 자동화된 평가 프레임워크를 소개한다. 연구팀은 7,000개 이상의 문제-답변 쌍을 다양한 화학 분야에서 수집하고, 최신 오픈 및 폐쇄형 LLM을 평가했다. 그 결과 최고의 LLM이 연구에 참여한 화학 전문가들을 평균적으로 능가하는 것으로 나타났다.
그러나 LLM은 화학 전문가들에게 쉬운 일부 추론 과제에서 어려움을 겪었고, 화학 물질의 안전성 프로필 등에 대해 과도하게 자신감 있는 오해를 불러일으키는 경우가 있었다. 이는 LLM이 화학 분야에서 상당한 능력을 보이지만, 안전성과 유용성을 높이기 위한 추가 연구가 필요함을 시사한다. 또한 화학 교육과정의 변화와 LLM 평가 프레임워크 개발의 중요성을 강조한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Adrian Mirza... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01475.pdfYêu cầu sâu hơn