机器学习来了,安全行业准备好了吗?

时间:2015-11-27 17:07 来源:FreebuF.COM 作者:佚名 点击:


 

信息安全一直以来都是一个“猫捉老鼠”的游戏。好人建起防御的围墙,坏人想方设法通过或者绕过它。然而最近我们发现坏人似乎越来越容易绕过我们建立的高墙。想要阻止他们就需要提升我们自身的能力,也就意味着需要更广泛地使用机器学习。

FreeBuf 百科:机器学习

卡内基梅隆大学的教授Tom Mitchell在《Machine Learning》(《计算机科学丛书:机器学习》)序言中给出了一个定义:

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。

2010年9月,Drew Conway创建了一个漂亮的维恩图,他解释道:“机器学习就是黑客技能、数学和统计学知识的加和。”

 

 

目前机器学习尚未在IT安全领域中被广泛应用,这或许会让一些旁观者感到惊讶。尽管安全专家称,信用卡欺诈检测系统和网络设备制造商正在使用最先进的分析方法。这一方法几乎被用于所有大公司的自动化共同安全保障活动,用于发现你电脑中的恶意软件,或者曝光网络中依赖人为编写代码以及配置的恶意活动。

虽然在网络安全领域针对机器学习技术的运用已经有了一些广泛的学术研究,而目前我们看到的仅仅是安全工具这一领域的拓展。诸如Invincea、Cylance、Exabeam以及Argyle Data这样的初创安全公司,将机器学习技术运用于开发安全工具,实现了比当今主流安全软件供应商更加快速、准确的服务。

恶意软件数据挖掘

来自FairFax公司的研究人员Josh Saxe表示,现在是时候摆脱创建于上世纪90年代、基于签名和哈希算法的陈旧方法了:

“据我所知,虽然反病毒公司的收入依然来自基于签名的检测方法,但他们已经开始涉足机器学习领域的研究。他们通过基于文件哈希值或者根据人类分析师提供的给定样本进行模式匹配的方式,进行恶意软件检测。”

“然而,相比于发现一个新的恶意软件,这些公司更擅长成功检测已经发现过的恶意软件,这也是网络犯罪在当下得以大行其道的原因之一。由于基于签名的验证并不奏效,即使你安装了反病毒软件,其他人还是能够成功地入侵你的电脑。”

Saxe主导的一个运用机器学习技术建立更完善的恶意软件检测系统——Invincea项目是美国国防部高级研究计划局DARPA网络基因组计划(Cyber Genome project)的一部分,特别是使用机器学习去探测恶意软件,功能包括恶意软件如何工作的逆向工程、执行社交网络代码分析以及利用基于机器学习的系统快速获取恶意软件样本。

“经验证实了我们使用机器学习开发的模式要比传统反病毒系统的表现更加优秀。机器学习系统能够从事人类分析师一直从事的工作,甚至完成得更为出色。当你将机器学习与大量训练数据结合,事实证明你可以打败基于签名系统的检测机制。”

Invincea使用深度学习的方法加速算法的训练。目前,Saxe拥有大约150万个良性或恶意软件样本,他通过使用Python工具在GPU上对样本进行的算法训练。随着数据库增加到3000万,他预计未来优势会呈线性增长。

Saxe说:

“我们拥有更多训练数据,便可以更好的将其运用于训练恶意软件机器学习系统,机器学习系统具有更多优势后,便能在检测恶意软件时拥有更加表现。”

Invincea现在的规划是在2016年时实现将基于深度学习的能力添加到其开发的末端安全产品上。具体而言就是,机器学习技术将会作为一个特性被添加到安全产品Cynomix。

恶意软件使用者检测

从另一个视角看,机器学习同样有助于维护IT安全:检测恶意软件的内部使用者并确定受危害的账户。

正如主流反病毒产品依赖目录中的签名识别恶意软件,用户活动监视工具同样也依靠签名。目前基于签名的恶意软件检测表现糟糕,同样的情况也出现在用户活动监控方面。

Exabeam(一家提供用户行为分析工具的公司)首席数据科学家Derek Lin表示:

“我们根据过去的经验发现,企业安保人员十分依赖使用签名验证的安全产品,例如IP地址黑名单。他们寻找的是已经发生的事情。可问题是基于签名的检测方式只能是事后诸葛。这段时间安全研究者持续将重心放在检测没有签名的恶意软件事件之中。”

事到如今,精明的网络罪犯通过略微的策略改变便可以击败基于签名的检测方式。因此如果检测系统遭到入侵,攻击者便可以轻易地获得系统中的黑名单。

相较于去年防守策略,基于Gartner提出的用户行为分析(UBA)概念,今年Exabeam采取了更为积极的方式。用户行为分析(或其相关概念:用户及实体行为分析)的想法可理解为不需要判断用户或者设备的好坏。你假设所有都是坏的,你的网络是被入侵的,继而你需要通过不断地监控和模仿所有的行为来发现坏因子。

Lin和他的团队使用多种监控与非监控机器学习算法来进行用户异常行为检测,来源包括很多,例如服务器日志、Active Directory条目以及VPN日志。

这些都是为了分析用户行为,而问题则是要如何做到这一点。Lin说:

“对于网络中的每一个用户和实体,我们试图建立一个常规统计分析页面。然后在概念层寻找出现的偏差现象…我们使用基于行为的方法来寻找系统中的异常,并将其表面呈现给安全研究者。”

安全行业之机器学习未来

基于我们所经历过的重大安全事故及数据泄露事件,网络罪犯所采用攻击方法也可以为吾等良善之流所用。安全软件供应商Townsend Security创始人Patrick Townsend表示:

“目前我们正逐步建成可以对检测的海量非结构化数据和检测模式进行高效处理的系统,我预想下一代安全产品会是基于感知计算(cognitive computing)的。就拿IBM超级电脑Watson来说,它在人机对战练习赛中险胜战胜了美国智力竞赛节目《危险边缘》(Jeopardy)的两位冠军选手。既然如此,它为什么不能解析全球发生的所有安全事件并让它们变得更有价值呢?我认为,将基于感知的计算技术运用于安全,我们仍处于初始时期。”

(责任编辑:腰编辑)