Основные понятия
該文提出了一種基於檢索增強生成(RAG)和大型語言模型(LLM)的系統,用於將用戶的自然語言問題轉換為針對生物資訊學知識圖譜的精確 SPARQL 查詢,並透過知識圖譜中繼資料和查詢驗證步驟來提高查詢生成準確性和減少錯誤。
Аннотация
文章摘要
這篇研究論文介紹了一個創新的系統,旨在協助使用者在生物資訊學知識圖譜(KGs)中進行查詢。該系統特別關注於瑞士生物資訊學研究所(SIB)的聯邦知識圖譜,例如 UniProt、Bgee 和 OMA。
研究背景
在生物資訊學領域,查詢複雜的知識圖譜對於獲取有意義的見解至關重要。然而,手動創建 SPARQL 查詢,尤其是跨越多個互聯知識圖譜的聯邦查詢,即使對專家來說也是一項耗時且具有挑戰性的任務。因此,對於能夠將自然語言查詢轉換為 SPARQL 的知識圖譜問答(KGQA)系統的需求日益增長,以彌合用戶問題與可用結構化數據之間的差距。
系統設計與功能
該系統利用大型語言模型(LLMs)和端點中繼資料來生成 SPARQL 查詢,同時解決了動態整合不斷發展的數據集的挑戰,而無需持續重新訓練。透過提供一個可擴展的系統來適應生物資訊學知識複雜多變的環境,該系統旨在顯著減少跨聯邦知識圖譜查詢所需的時間和專業知識。系統的主要功能包括:
- 基於嵌入的相似性搜索: 使用嵌入技術根據用戶問題檢索相關上下文。
- 利用檢索到的上下文構建提示: 利用檢索到的上下文信息構建有效的 LLM 提示。
- 使用端點架構驗證和校正查詢: 透過端點架構驗證生成的 SPARQL 查詢,並在必要時進行校正。
- 向用戶呈現查詢和相關上下文: 向用戶提供生成的查詢以及相關的上下文信息,以幫助理解和解釋結果。
系統評估
初步測試結果顯示,較大的 LLMs 在整體表現上明顯更好,能夠有效地從提供的示例中推斷出查詢。相比之下,查詢驗證對於較小的 LLMs 特別有價值,不僅提高了準確性,還確保系統生成的查詢至少能檢索到一些相關結果。
總結
該研究提出了一個利用 LLMs 生成聯邦 SPARQL 查詢的系統,以響應用戶提出的自然語言問題。該系統目前處理 SIB 語義網數據中生物資訊學知識圖譜的查詢,但可以輕鬆地重複使用於其他感興趣的知識圖譜。該系統是完全開源的,可以在 chat.expasy.org 上訪問演示。
Статистика
該系統使用 BAAI/bge-large-en-v1.5 模型和 fastembed 庫生成文本嵌入。
該系統使用 Qdrant 向量數據庫來存儲嵌入向量並執行餘弦相似性搜索。
該系統使用 OpenAI 模型,但也測試了 LLaMA 和 Mixtral 等模型。
較大的 LLMs 在查詢生成方面表現更好,而查詢驗證對較小的 LLMs 特別有價值。
Цитаты
"LLMs present an exciting opportunity to address this challenge, offering the potential to automatically generate accurate SPARQL queries from natural language inputs."
"By offering a scalable system that adapts to the complex and changing landscape of bioinformatics knowledge, we aim to significantly reduce the time and expertise needed to query across federated KGs."