[摘要] 原标题:【DEF CON 18】:靠机器学习就能准确分辨程式出自何人之手 图片来源: Def△Con 美国卓克索大学(Drexel△University)电脑科学系副教授Rachel△Greenstadt与乔治华盛顿大学(George△Wa
原标题:【DEF CON 18】:靠机器学习就能准确分辨程式出自何人之手
图片来源: Def△Con 美国卓克索大学(Drexel△University)电脑科学系副教授Rachel△Greenstadt与乔治华盛顿大学(George△Washington△University)电脑科学系助理教授Aylin△Caliskan上周在Def△Con骇客大会上公布...
图片来源:Def△Con
美国卓克索大学(Drexel△University)电脑科学系副教授Rachel△Greenstadt与乔治华盛顿大学(George△Washington△University)电脑科学系助理教授Aylin△Caliskan上周在Def△Con骇客大会上公布了一项研究成果,展示如何通过机器学习技术,利用程式码与二进位程式的风格分辨出程式的作者。
Greenstadt与Caliskan先借由程式作者通过GitHub公开的程式码建立了抽象语法树,这些语法树反映了程式码的底层架构,而能用来分辨作者的风格。Caliskan的另一项研究还能自经过编译的二进位程式中分辨出作者。
根据Wired的报道,Caliskan是以Google的Code△Jam程式设计大赛的程式作为样本,显示其机器学习演算法在100名作者中,能找出其中96名作者,若把样本扩大至600名,分辨率也有83%。
尽管研究人员认为该成果能够用来确认学生是否抄袭,或开发人员是否违反竞业条款,还是让安全社交用来找出病毒的作者,但较令人担忧的是,威权政府也能用它来分辨撰写规避审查等程式的作者。
研究也发现,有经验的开发人员比新手的作品更容易分辨,那些用来解决复杂问题也比简单问题的程式码更容易找到主人。其实现在有些开发人员已经开始利用工具来模糊化自己的程式撰写风格,以避免身份曝光,但未来这些程式或者也逃不过机器学习系统的法眼。
橙山网(Csnd.net)简评:Greenstadt与Caliskan先借由程式作者通过GitHub公开的程式码建立了抽象语法树,这些语法树反映了程式码的底层架构,而能用来分辨作者的风格。Caliskan的另一项研究还能自经过编译的
网友评论