构图:…

👇

分析:代码token和graph token之间的关键

RQ1:图数据对于大模型解决缺陷检测任务的提升效果如何

base:general-info+expertise

**数据集:**bigvul、reveal、devign

**图数据:**code、cfg、dfg、ast、cpg

**评价指标:**Accurancy、Precision、Recall、F1 Score、pariwise acc、Error Localization Accuracy

bigvul、Devign、reveal数据集

bigvul(code、code+cfg、code+dfg、code+ast) Accurancy Precision Recall F1 Score pariwise acc Error Localization Accuracy
qwen-2.5-coder-7B-Instruct xxx xxx xxx xxx xxx xxx
qwen-2.5-coder-32B-Instruct xxx xxx xxx xxx xxx xxx
CodeLlama-7b-Instruct-hf xxx xxx xxx xxx xxx xxx
CodeLlama-34b-Instruct-hf xxx xxx xxx xxx xxx xxx
deepseek-coder-6.7b-instruct xxx xxx xxx xxx xxx xxx
deepseek-coder-33b-instruct xxx xxx xxx xxx xxx xxx
gpt4 xxx xxx xxx xxx xxx xxx

RQ2:图数据怎么喂给大模型能够让大模型的效果实现更好

graph喂法:dot、graphml、随机游走、nlp翻译

0-shot、2-shot、4-shot dot graphml 随机游走 nlp翻译 解析树
qwen-2.5-coder-7B-Instruct xxx xxx xxx xxx xxx
qwen-2.5-coder-32B-Instruct xxx xxx xxx xxx xxx
CodeLlama-7b-Instruct-hf xxx xxx xxx xxx xxx
CodeLlama-34b-Instruct-hf xxx xxx xxx xxx xxx
deepseek-coder-6.7b-instruct xxx xxx xxx xxx xxx
deepseek-coder-33b-instruct xxx xxx xxx xxx xxx

RQ3:如何简化code-graph,使效果更好

(graph simplification)

  1. 通过度数来进行graph简化