图片型垃圾邮件(Image Spam)急速成长,预测将在2007年开始大行其道。为此资安业者纷纷祭出辨识这类垃圾信的防范机制,与垃圾邮件发送者展开一场技术大战。 根据资安公司统计垃圾邮件约佔所有传送讯息的90%,而图片式垃圾邮件则佔了所有垃圾邮件类型的40%,而未来数年内将以扭曲影像垃邮(Wrap image spam)将成未来主流。
- 图像式垃圾邮件的比重约佔整体垃圾邮件流量的 40% , 2007年来自SMTP应用层的垃圾邮件比例略升至 70% 。
- 图像式垃圾邮件出现模煳手法新型技术:加入倾斜扭曲式文字(Slant and warp text)档案技巧。
- 扭曲式图像式垃圾邮变形大法: 利用影像扭曲、倾斜、交错、对比、切割、加噪、位移、比例、色彩或是特效等的扭曲影像垃邮。
- 目前Antispam面临的问题与解决之道为何? 针对内容过滤的Image Spam该如何防范呢?
- 图像式垃圾邮件(Image Spam)的由来:
倾斜与扭曲文字(Slanted and Warped text)的新手法,藉由倾斜或扭曲图片中的全部文字,以逃过光学文字辨识技术(Optical Character Recognition、OCR)等垃圾邮件过滤机制的检查,降低垃圾邮件被拦截的机会。图像式垃圾邮件倾斜与扭曲文字的作法,其原始idea来自网路上常见用来避免Bot程式大量自动注册帐号、留言的CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)技术。CAPTCHA的做法是,藉由显示一张含有文字,但却被加入杂讯(Noise)或扭曲、倾斜的图片,并要求使用者输入图片所显示的文字,由于目前的技术尚难以自动辨识出这些被「干扰」的文字,使得CAPTCHA技术得以避免程式自动判读,进而能确保其使用者真的是「Human」而非「Machine」。▲ 网路应用上常见的CHPTCHA▲ Image spam 的范例
- OCR对抗Image Spam有用吗?
越来越多图像式邮件藉由加入杂讯、改变文字颜色、对比、扭曲变形等方式,提高了判读难度,为因应图像垃圾邮件泛滥,资安公司也先后推出「特徵比对侦测」、「光学字元辨识」、「边缘侦测手法」 (Edge detection) ,「图片空间侦测」等多项防堵机制,不过一些垃圾邮件散发者,开始将图像式的垃圾邮件内容,放到一些既有的商业新闻讯息(Newsletter)或是合法广告中,或夹入一段格言或圣经,并以这多种格式发布,企图蒙骗spam filter的侦测。例如修改一些现成的新闻EDM中,加入卖药或非法软体的广告,藉此〝愚弄〞(fool) filter对垃圾邮件的内容或特徵比对侦测,使垃圾邮件过滤器将这种垃圾邮件误判为合法邮件。「根据调查,对于图像式垃圾邮件,泰半以上的资安厂商多半採OCR(光学文字辨识)技术来处理,」一般做法即利用OCR软体把图像转成文字,再依文字内容进行比对,利用OCR法除对系统会造成很大的负担、效率太差;况且只要简单加入一些Noise或扭曲内容,如当前氾滥的扭曲图像(利用影像扭曲、倾斜、交错、对比、切割、加噪、位移...)垃圾邮件,我们不禁质疑「OCR辨视后判读得出来吗?」,「OCR辨视判读正确就有效吗?▲ 网路应用上常见的CHPTCHA▲ Image spam 的范例
- Contents filter(内容过滤)的问题 VS. Spammer变形大法:
其实回到最原点去看,这个应该是目前市场一般以贝式分析(Bayesian filter)等内容过滤(Contents filter)为主流的Antispam 所产生的问题,我们看看以下Spammer 变形大法的发展举例说明:我们简单从Viagra 一个字举例,聪明的spammer为了躲过一些Spam filter(尤其以内容为主)的拦截开始对内容变形(愚弄机器:人读文章,机器读的是Code)
VIAGRA! 以下开此变形-----> V1agra! 以相似字型骗过 spam filters Via<!--hi-->gra 用HTML comments (人看不到<!--hi--> ,机器却看得到,用来愚弄spam filter) V1agr@! 多重相似字型(带符号)骗过 spam filters Vi<asdf>ag<asdf>ra 用 Bad HTML (人眼看不见,用来愚弄filter again!) V’ 1ag^r”a (或V.i.a.gr.a 或 V-i-aGr.a 或 V/i/a/g/ra ......等) 关键字中加入Noise 以愚弄filter Vi <b>ag</b> ra 用 HTML語法夹带方式让Viagra(看起来是 Vi ag ra ) 躲过filter 文字模式下的愚弄contents filter的变形大法从上述的例子我们可以简单看出,Spammer的技术发展就是针对藉着『愚弄』内容过滤(Contents Filter)式的spam filter 的行为方法,因为其最大的问题是抵挡Spam的技术是用『内容』来过滤,从上例我们可以简单发现若以"内容"过滤为主要核心技术来抵挡Spam的话,只要将内容扭曲变形 - 将内容『我变、我变、我变变变』,无论你的contents filter加入千百条rule都无法抵档spammer的内容扭曲变形! - Image Spam的变形技术:
随着技术的进步,虽然spam filter可以透过学习(machine learning)可以慢慢看懂上述技俩,但所谓道高一尺,魔高一丈,spammer也在思考如何避开过滤成功渗透(其实多为闪躲内容过滤),聪明的spammer发现内容过滤的盲点-“滤内容” ,于是乎用『以子之矛,攻子之盾』的方法,乾脆把所有内容里的文字改成图像吧,看看你怎麽滤? 于是乎图片式垃圾邮件产生。因为邮件的广告内容全部做成图片,这样一来就能避开那些使用内容过滤文本内容的防堵软体的侦测,这也算是一种视破吧?! (内容过滤的罩门被视穿因此就破功了...)于是乎使用内容过滤技术的防堵软体厂商,纷纷出来为自家的产品解套,为内容过滤找寻一个让人可以接受的出路-OCR,厂商宣称可以将图片内容使用OCR(光学辨识技术)将图片内的文字图形转换成文字,再进一步加以过滤。这个推论看似没错(实际上谬误百出),但实质上只是製造话题来误导了大众针对问题核心的注意,当垃圾邮件内容改以图片表示时,笔者相信图片裡的文字并不会"规规矩矩"的放在图片裡,让OCR很精准的辨识出文字,多加几个简单的步骤,比如将影像扭曲、倾斜、交错、对比、切割、位移、比例、色彩或是特效,就能让OCR的辨识效果大为下降,这些步骤并不难,影像处理软体几个命令就解决了。再看看下面的例子吧....以下列出几种图片式文字(graphical images of text)的应用还有一种方式是,放在邮件本文裡的图片非一整张,而是加以切割成各小图片,再用HTML table拼起来,当然切割的单位愈小,就愈能避开OCR的辨识。影像切割后再用HTML table 组合的image spam除了以上举例,还有编排、背景...等因素,将所有变因加在一起,就可以产生出超过百万种的组合效果,那麽如果仍想藉由内容过滤来侦测,相信对于过滤效果没有太大助益。如以Viagra与下列image spam为例,透过上述技术就可以变形。更容易内容扭曲的Image spam-我变,我变,我变变变
- 剖析Spammer的特性与Image spam的诡计:
综合以上论述,使用OCR技术真的能解决图片式垃圾邮件的问题??? 各位看倌到此是否不禁会心一笑呢? 如果真的用OCR技术去对抗Image Spam的话 ,最后MIS会不会搞到变成 Orz ? 被公司同仁骂到 囧rz ??.........垃圾邮件最折煞人的地方,在于它会不断变形,以适应各种新的拦阻方法。资安业者每推出一种打击垃圾邮件的方式,Spammer业者就能找到一种避开攻击的方法。这种垃圾邮件军备竞赛,使得双方不断共同演化,而且变得越来越加複杂。在国外的一份研究报告指出-『95%的spammer使用造假行为发信,90%恶意信件是使用造假行为发送,70%的垃圾信是属于first spam(one time spam)』新型态的spammer利用绕道、跳板或伪造等等造假技术或甚至透过Zombie(僵尸网路)发动大规模的image spam,发了就跑(让你抓不到) ,不断变形(内容变形、行为造假等…) ,一变再变,用一般的传统的antispam技术(ORBL、RBL、黑名单、DNS反查、DCC、内容过滤等..),是难以阻拦的。简言之,Spammer特徵归纳:
造假,发了就跑,内容不断变形,透过hacked 的ZombieNet 发信。
简单一句话就是造假:来源造假、行为造假、内容造假就传统坊间的antispam技术来看,不外乎几类『查表法-RBL、ORBL 、Safelist 、黑白名单、IP blocklist』, 『溯源法-DNS正反查、sendback challenge、SPF,Domainkey』,『比对法-关键字、Spam signature 、fingerprint 、FuzzyOCR,』, 『贝式分析法-Rule based scoring 、SCL、SRL等…』…笔者长期跟一些MIS人员谈即到有关antispam的议题,不禁感叹目前的防垃邮解决方案真是治标不治本的作法,比如说:
『查表法』、『溯源法』-对来源造假,发了就跑的one time spam跟本无可奈何。
『比对法』、『内容过滤,贝式法』-对内容不断变形造假的spam也无法抵挡。所谓『Image spam』不过也就是使用spammer最擅长的造假行为之一种:『内容造假』吧,spammer 发明这种image spam不外乎是针对坊间的spam filter ,90%多为内容过滤式设计的吧,也就是针对『内容过滤』这个大盲点(内容一直变,看你如何滤)而攻击的。 - 目前已知可有效阻挡Image Spam的方法介绍:
最后看倌不禁会问,那要如何有效抵挡Image Spam的攻击呢? 所谓『百变不离其心,万法不离其宗』-我们可以发现一个天律就是- 『垃圾邮件与正常邮件最大的分野在『行为』不在『内容』,其特徵是『造假』』。根据垃圾信件这个最主要特徵-『造假』,一般垃圾信发信软体为躲避过滤软体的侦测,多会用各种造假的技术,甚至同一垃圾信造假成多个不同版本,但彼此仍存有相当程度的相似度,因此,只要设计一个过滤软体可把垃圾信集合起来,比较其来源、送信者、内容、标题、是否大量发送、相似度,就可以发现其是否造假,再把造假的垃圾信拦截起来就很安全。目前有业者利用其在搜寻引擎、近似比对、multi-pattern比对,Similarity Clustering Analysis、Relational analysis 等研究专长与成果,利用搜寻引擎技术,以近似比对、相似性分析与造假分行为分析提出『Anti-Faking technology』、来侦测垃圾邮件,并发展出「个人邮际关係分析」(relational closure analysis)技术来保护使用者正常邮件免于误杀的困扰,并将误杀率降至最低,相较目前Bayesian Filter的内容过滤技术,实为更安全、崭新而有效率的过滤技术。
- 未来Antispam发展的技术方向与结论:
不管垃圾邮件技术如何进展(从关键字、内文->文字扭曲->图型->图型扭曲),我们可以发现spammer,百变不离其心是其从『内容扭曲』上发展(也就是针对内容过滤的spam filter发展的),所以这也是目前市面上90%以上的产品以内容过滤、贝式分析(Bayesian filter)等contents filter之antispam产品最大的问题所在,若吾辈对抗spam 还是从内容上去作研究,如OCR、图型特徵码(image signature),边缘侦测手法 (Edge detection)、图片空间侦测、Fingerprint、三度空间分析等等……这无疑是被image spam导入万劫不復生的死胡同裡,只要透过上述的变形技术-将内容『我变,我变,我变变变』,无论你的contents filter加入千百条rule都无法抵档spammer的内容扭曲变形,怎麽拦也拦不掉啊!要解决spam mail常治久安的方法唯有洞悉Spammer的特徵-『造假』,并从造假分析着手,除上述介绍的『Anti-faking technology』外,尚有业者提出『Spoofing intention analysis』、『Sender spoofing predicting』等等…,以统计Internet上发信者的行为,如分析滥发邮件的单一IP,寄送大量无效信件的sender,分析大量攻击瘫痪性行为等….以『侦假-Faking intention detection』行为去防范spam mail,才是真正预防与有效阻拦spam的技术方向。
原文出处:网管人Netadmin 7月号
作者:陈兆宁larry@green-computing.com
任职于绿色运算