แนวคิดหลัก
事前学習済みコードモデルのファインチューニング段階において、クエリとコード間のトークンレベルの相互作用を効果的にモデル化することで、コード検索の精度と効率を向上させることができる。
บทคัดย่อ
概要
本論文は、事前学習済みコードモデルを用いたコード検索における、ファインチューニング段階の改善に関する研究論文である。
事前学習済みコードモデルのコード検索精度向上
大規模コードベースにおける検索効率の維持
クロスエンコーダアーキテクチャの導入:
クエリとコードを連結してエンコードすることで、トークンレベルの相互作用をより効果的にモデル化する。
Retriever-Ranker (RR) フレームワークの提案:
デュアルエンコーダ (Retriever) で候補コードを絞り込み、クロスエンコーダ (Ranker) でランキングすることで、効率と精度のバランスを取る。
ランキングベース困難ネガティブサンプリング (PS) 手法の提案:
デュアルエンコーダの類似度スコアに基づき、困難なネガティブサンプルを選択することで、クロスエンコーダの学習を促進する。