本次分享论文:Using LLMs to Automate Threat Intelligence Analysis Workflows in Security Operation Centers
基本信息
原文作者:PeiYu Tseng, ZihDwo Yeh, Xushu Dai, Peng Liu
作者单位:Penn State University, State College, PA, 16801
关键词:LLMs, agent, threat intelligence analysis
原文链接:https://arxiv.org/pdf/2407.13093
开源代码:暂无
论文要点
论文简介:SIEM系统在安全运营中心(SOC)中扮演着关键角色,负责监控和分析网络威胁。然而,当前SIEM系统无法自动化处理自然语言编写的网络威胁情报(CTI)报告,导致分析师必须花费大量时间进行手动分析。本文提出了一种利用大语言模型(LLMs,如GPT-4)的AI智能体,以自动化处理CTI报告中的重复性任务。该智能体通过四步过滤过程,生成准确的正则表达式,并提供关系图,帮助SOC分析师更快、更准确地响应威胁。这一创新显著减轻了分析师的工作负担,提高了SOC的效率和响应速度。
研究目的:本文旨在解决当前SIEM系统无法自动化处理自然语言编写的网络威胁情报(CTI)报告的问题。通过开发一种利用大语言模型(LLMs,如GPT-4)的AI智能体,自动执行CTI报告的分析任务,以减轻分析师的工作负担。该智能体通过提取重要信息、生成正则表达式,并构建威胁情报关系图,帮助安全运营中心(SOC)提高效率,加快对网络攻击的响应速度。
研究贡献
- 提出了一种新的AI智能体,用于自动提取CTI报告中的重要信息并生成正则表达式(Regex)。
- 为确保生成的Regex的准确性,研究者采用了四步过滤过程,排除潜在的假阳性和假阴性。
- 该AI智能体还能提供关系图,描绘CTI报告中不同威胁情报之间的联系。
- 本项目首次提出一种无需任何人工干预的AI智能体,利用LLMs的革命性能力,使CTI分析工作流实现高度自动化。
引言
网络犯罪每年给全球造成巨大的经济损失,仅在2023年,美国的消费者和企业就损失了超过125亿美元。为了应对这些威胁,企业越来越依赖安全运营中心(SOC),其中SIEM系统成为其核心工具。SIEM系统通过实时关联引擎帮助检测攻击,但面对自然语言编写的网络威胁情报(CTI)报告,SIEM系统仍需依赖分析师进行大量手动分析。这一过程不仅耗时,还增加了对攻击的响应时间。
尽管已有一些研究利用机器学习技术从安全文档中自动提取信息,但这些领域特定的AI模型在处理多样化和不断变化的攻击技术时表现有限。因此,本文提出了一种AI智能体,利用大语言模型(如GPT-4),自动化处理CTI报告中的重复性任务,从而提高SOC的效率,减轻分析师的工作负担。
研究方法
本文提出的AI智能体通过八个步骤自动化处理网络威胁情报(CTI)报告。
首先,将CTI报告按段落分割,并利用大语言模型(LLMs)提取每段中的攻击指标(IOCs)。
其次,采用多次运行LLMs并进行投票机制,结合检索增强过滤,净化提取结果。然后,通过检索增强匹配机制区分捕获组和非捕获组,生成正则表达式(Regex)。
第三,利用LLMs识别IOCs之间的依赖关系,分类并验证每个依赖关系。
最后,构建威胁情报关系图,显示IOCs之间的联系。通过这些步骤,AI智能体能够自动提取CTI报告中的关键信息,生成准确的Regex,并提供关系图,帮助安全运营中心(SOC)快速、高效地应对网络威胁。
AI智能体概述
研究者的AI智能体工作流程分为两部分。首先,研究者将CTI报告分段,利用LLM(如GPT-4)提取每段中的攻击指标(IOC)。其次,通过多次运行LLM和检索增强过滤净化响应。第三,研究者区分IOC字符串中的捕获组和非捕获组,并生成用于SIEM规则的正则表达式(Regex),通过Regex测试器验证其准确性。之后,研究者识别IOC之间的依赖关系,对其进行分类和验证。最后,研究者构建关系图,显示IOC之间的联系。该流程有效解决了自动化处理CTI报告中的多个技术挑战,提高了SOC的效率和准确性。
研究评估
研究者在50多份网络威胁情报(CTI)报告上对AI智能体进行了测试,结果表明该智能体能够有效识别和处理大量的攻击指标(IOCs)。在实验中,LLMs识别了超过2900个潜在的IOCs,通过净化后确定了约2300个有效IOCs,包括文件名、域名、哈希值、IP地址、命令行和注册表键值。
研究者发现,AI智能体生成了约2200个正则表达式(Regex),并成功构建了威胁情报关系图。相比手动识别的真实情况,AI智能体仅遗漏了3%的IOCs。这些结果表明,AI智能体不仅显著提高了CTI报告处理的效率,还大幅减少了分析师的工作负担,有助于安全运营中心(SOC)更快速地响应网络攻击。
论文结论
本文提出了一种创新的AI智能体,旨在自动化处理网络威胁情报(CTI)报告中的重复性任务。通过利用大语言模型(LLMs,如GPT-4)的强大能力,该智能体能够准确提取CTI报告中的重要信息,生成正则表达式(Regex),并构建威胁情报关系图。这不仅减轻了安全分析师的工作负担,还显著提高了安全运营中心(SOC)的效率和响应速度。
实验结果表明,该AI智能体在识别和处理攻击指标(IOCs)方面具有高效性和准确性。总体而言,本文的研究为自动化CTI分析工作流提供了一种有效的解决方案,具有广泛的应用前景。
原作者:论文解读智能体
校对:小椰风