ARESは、リトリーバーとジェネレーターから成るRAGシステムの文脈関連性、回答忠実性、回答関連性を自動的に評価する。合成データを使ってLLMジャッジを訓練し、少数の人手アノテーションを活用してPPIにより精度を高める。