這篇研究論文介紹了一個創新的系統,旨在協助使用者在生物資訊學知識圖譜(KGs)中進行查詢。該系統特別關注於瑞士生物資訊學研究所(SIB)的聯邦知識圖譜,例如 UniProt、Bgee 和 OMA。
在生物資訊學領域,查詢複雜的知識圖譜對於獲取有意義的見解至關重要。然而,手動創建 SPARQL 查詢,尤其是跨越多個互聯知識圖譜的聯邦查詢,即使對專家來說也是一項耗時且具有挑戰性的任務。因此,對於能夠將自然語言查詢轉換為 SPARQL 的知識圖譜問答(KGQA)系統的需求日益增長,以彌合用戶問題與可用結構化數據之間的差距。
該系統利用大型語言模型(LLMs)和端點中繼資料來生成 SPARQL 查詢,同時解決了動態整合不斷發展的數據集的挑戰,而無需持續重新訓練。透過提供一個可擴展的系統來適應生物資訊學知識複雜多變的環境,該系統旨在顯著減少跨聯邦知識圖譜查詢所需的時間和專業知識。系統的主要功能包括:
初步測試結果顯示,較大的 LLMs 在整體表現上明顯更好,能夠有效地從提供的示例中推斷出查詢。相比之下,查詢驗證對於較小的 LLMs 特別有價值,不僅提高了準確性,還確保系統生成的查詢至少能檢索到一些相關結果。
該研究提出了一個利用 LLMs 生成聯邦 SPARQL 查詢的系統,以響應用戶提出的自然語言問題。該系統目前處理 SIB 語義網數據中生物資訊學知識圖譜的查詢,但可以輕鬆地重複使用於其他感興趣的知識圖譜。該系統是完全開源的,可以在 chat.expasy.org 上訪問演示。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Vincent Emon... о arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.06062.pdfГлибші Запити