技术文章

2019-05-01Image Spam的诡计与阻挡技术

从Image Spam洪潮看目前Antispam产品的问题

图片型垃圾邮件（Image Spam）急速成长，预测将在2007年开始大行其道。为此资安业者纷纷祭出辨识这类垃圾信的防范机制，与垃圾邮件发送者展开一场技术大战。根据资安公司统计垃圾邮件约佔所有传送讯息的90%，而图片式垃圾邮件则佔了所有垃圾邮件类型的40%，而未来数年内将以扭曲影像垃邮(Wrap image spam)将成未来主流。

图像式垃圾邮件的比重约佔整体垃圾邮件流量的 40% ， 2007年来自SMTP应用层的垃圾邮件比例略升至 70% 。
图像式垃圾邮件出现模煳手法新型技术：加入倾斜扭曲式文字(Slant and warp text)档案技巧。
扭曲式图像式垃圾邮变形大法: 利用影像扭曲、倾斜、交错、对比、切割、加噪、位移、比例、色彩或是特效等的扭曲影像垃邮。
目前Antispam面临的问题与解决之道为何? 针对内容过滤的Image Spam该如何防范呢?

图像式垃圾邮件(Image Spam)的由来：
倾斜与扭曲文字(Slanted and Warped text)的新手法，藉由倾斜或扭曲图片中的全部文字，以逃过光学文字辨识技术(Optical Character Recognition、OCR)等垃圾邮件过滤机制的检查，降低垃圾邮件被拦截的机会。图像式垃圾邮件倾斜与扭曲文字的作法，其原始idea来自网路上常见用来避免Bot程式大量自动注册帐号、留言的CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)技术。

CAPTCHA的做法是，藉由显示一张含有文字，但却被加入杂讯(Noise)或扭曲、倾斜的图片，并要求使用者输入图片所显示的文字，由于目前的技术尚难以自动辨识出这些被「干扰」的文字，使得CAPTCHA技术得以避免程式自动判读，进而能确保其使用者真的是「Human」而非「Machine」。

▲ 网路应用上常见的CHPTCHA

▲ Image spam 的范例
OCR对抗Image Spam有用吗?
越来越多图像式邮件藉由加入杂讯、改变文字颜色、对比、扭曲变形等方式，提高了判读难度，为因应图像垃圾邮件泛滥，资安公司也先后推出「特徵比对侦测」、「光学字元辨识」、「边缘侦测手法」 (Edge detection) ，「图片空间侦测」等多项防堵机制，不过一些垃圾邮件散发者，开始将图像式的垃圾邮件内容，放到一些既有的商业新闻讯息(Newsletter)或是合法广告中，或夹入一段格言或圣经，并以这多种格式发布，企图蒙骗spam filter的侦测。例如修改一些现成的新闻EDM中，加入卖药或非法软体的广告，藉此〝愚弄〞(fool) filter对垃圾邮件的内容或特徵比对侦测，使垃圾邮件过滤器将这种垃圾邮件误判为合法邮件。

「根据调查，对于图像式垃圾邮件，泰半以上的资安厂商多半採OCR（光学文字辨识）技术来处理，」一般做法即利用OCR软体把图像转成文字，再依文字内容进行比对，利用OCR法除对系统会造成很大的负担、效率太差；况且只要简单加入一些Noise或扭曲内容，如当前氾滥的扭曲图像(利用影像扭曲、倾斜、交错、对比、切割、加噪、位移...)垃圾邮件，我们不禁质疑「OCR辨视后判读得出来吗?」，「OCR辨视判读正确就有效吗?

▲ 网路应用上常见的CHPTCHA

▲ Image spam 的范例

Contents filter(内容过滤)的问题 VS. Spammer变形大法：

其实回到最原点去看，这个应该是目前市场一般以贝式分析(Bayesian filter)等内容过滤(Contents filter)为主流的Antispam 所产生的问题，我们看看以下Spammer 变形大法的发展举例说明：

我们简单从Viagra 一个字举例，聪明的spammer为了躲过一些Spam filter(尤其以内容为主)的拦截开始对内容变形(愚弄机器:人读文章，机器读的是Code)

VIAGRA!
以下开此变形----->
V1agra!
以相似字型骗过 spam filters
Via<!--hi-->gra
用HTML comments (人看不到<!--hi--> ，机器却看得到，用来愚弄spam filter)
V1agr@!
多重相似字型(带符号)骗过 spam filters
Vi<asdf>ag<asdf>ra
用 Bad HTML (人眼看不见，用来愚弄filter again!)
V’ 1ag^r”a (或V.i.a.gr.a 或 V-i-aGr.a 或 V/i/a/g/ra ......等)
关键字中加入Noise 以愚弄filter
Vi <b>ag</b> ra
用 HTML語法夹带方式让Viagra(看起来是 Vi ag ra ) 躲过filter

文字模式下的愚弄contents filter的变形大法

从上述的例子我们可以简单看出，Spammer的技术发展就是针对藉着『愚弄』内容过滤(Contents Filter)式的spam filter 的行为方法，因为其最大的问题是抵挡Spam的技术是用『内容』来过滤，从上例我们可以简单发现若以"内容"过滤为主要核心技术来抵挡Spam的话，只要将内容扭曲变形 - 将内容『我变、我变、我变变变』，无论你的contents filter加入千百条rule都无法抵档spammer的内容扭曲变形！

Image Spam的变形技术：
随着技术的进步，虽然spam filter可以透过学习(machine learning)可以慢慢看懂上述技俩，但所谓道高一尺，魔高一丈，spammer也在思考如何避开过滤成功渗透(其实多为闪躲内容过滤)，聪明的spammer发现内容过滤的盲点-“滤内容” ，于是乎用『以子之矛，攻子之盾』的方法，乾脆把所有内容里的文字改成图像吧，看看你怎麽滤? 于是乎图片式垃圾邮件产生。

因为邮件的广告内容全部做成图片，这样一来就能避开那些使用内容过滤文本内容的防堵软体的侦测，这也算是一种视破吧?! (内容过滤的罩门被视穿因此就破功了...)于是乎使用内容过滤技术的防堵软体厂商，纷纷出来为自家的产品解套，为内容过滤找寻一个让人可以接受的出路-OCR，厂商宣称可以将图片内容使用OCR(光学辨识技术)将图片内的文字图形转换成文字，再进一步加以过滤。这个推论看似没错(实际上谬误百出)，但实质上只是製造话题来误导了大众针对问题核心的注意，当垃圾邮件内容改以图片表示时，笔者相信图片裡的文字并不会"规规矩矩"的放在图片裡，让OCR很精准的辨识出文字，多加几个简单的步骤，比如将影像扭曲、倾斜、交错、对比、切割、位移、比例、色彩或是特效，就能让OCR的辨识效果大为下降，这些步骤并不难，影像处理软体几个命令就解决了。

再看看下面的例子吧....以下列出几种图片式文字(graphical images of text)的应用

还有一种方式是，放在邮件本文裡的图片非一整张，而是加以切割成各小图片，再用HTML table拼起来，当然切割的单位愈小，就愈能避开OCR的辨识。

影像切割后再用HTML table 组合的image spam

除了以上举例，还有编排、背景...等因素，将所有变因加在一起，就可以产生出超过百万种的组合效果，那麽如果仍想藉由内容过滤来侦测，相信对于过滤效果没有太大助益。如以Viagra与下列image spam为例，透过上述技术就可以变形。

更容易内容扭曲的Image spam-我变，我变，我变变变
剖析Spammer的特性与Image spam的诡计：
综合以上论述，使用OCR技术真的能解决图片式垃圾邮件的问题??? 各位看倌到此是否不禁会心一笑呢? 如果真的用OCR技术去对抗Image Spam的话，最后MIS会不会搞到变成 Orz ? 被公司同仁骂到囧rz ??.........

垃圾邮件最折煞人的地方，在于它会不断变形，以适应各种新的拦阻方法。资安业者每推出一种打击垃圾邮件的方式，Spammer业者就能找到一种避开攻击的方法。这种垃圾邮件军备竞赛，使得双方不断共同演化，而且变得越来越加複杂。

在国外的一份研究报告指出-『95%的spammer使用造假行为发信，90%恶意信件是使用造假行为发送，70%的垃圾信是属于first spam(one time spam)』新型态的spammer利用绕道、跳板或伪造等等造假技术或甚至透过Zombie(僵尸网路)发动大规模的image spam，发了就跑(让你抓不到) ，不断变形(内容变形、行为造假等…) ，一变再变，用一般的传统的antispam技术(ORBL、RBL、黑名单、DNS反查、DCC、内容过滤等..)，是难以阻拦的。

简言之，Spammer特徵归纳：
造假，发了就跑，内容不断变形，透过hacked 的ZombieNet 发信。
简单一句话就是造假：来源造假、行为造假、内容造假

就传统坊间的antispam技术来看，不外乎几类『查表法-RBL、ORBL 、Safelist 、黑白名单、IP blocklist』，『溯源法-DNS正反查、sendback challenge、SPF，Domainkey』，『比对法-关键字、Spam signature 、fingerprint 、FuzzyOCR，』，『贝式分析法-Rule based scoring 、SCL、SRL等…』…笔者长期跟一些MIS人员谈即到有关antispam的议题，不禁感叹目前的防垃邮解决方案真是治标不治本的作法，比如说：
『查表法』、『溯源法』-对来源造假，发了就跑的one time spam跟本无可奈何。
『比对法』、『内容过滤，贝式法』-对内容不断变形造假的spam也无法抵挡。

所谓『Image spam』不过也就是使用spammer最擅长的造假行为之一种：『内容造假』吧，spammer 发明这种image spam不外乎是针对坊间的spam filter ，90%多为内容过滤式设计的吧，也就是针对『内容过滤』这个大盲点(内容一直变，看你如何滤)而攻击的。
目前已知可有效阻挡Image Spam的方法介绍：
最后看倌不禁会问，那要如何有效抵挡Image Spam的攻击呢? 所谓『百变不离其心，万法不离其宗』-我们可以发现一个天律就是- 『垃圾邮件与正常邮件最大的分野在『行为』不在『内容』，其特徵是『造假』』。

根据垃圾信件这个最主要特徵-『造假』，一般垃圾信发信软体为躲避过滤软体的侦测，多会用各种造假的技术，甚至同一垃圾信造假成多个不同版本，但彼此仍存有相当程度的相似度，因此，只要设计一个过滤软体可把垃圾信集合起来，比较其来源、送信者、内容、标题、是否大量发送、相似度，就可以发现其是否造假，再把造假的垃圾信拦截起来就很安全。

目前有业者利用其在搜寻引擎、近似比对、multi-pattern比对，Similarity Clustering Analysis、Relational analysis 等研究专长与成果，利用搜寻引擎技术，以近似比对、相似性分析与造假分行为分析提出『Anti-Faking technology』、来侦测垃圾邮件，并发展出「个人邮际关係分析」（relational closure analysis）技术来保护使用者正常邮件免于误杀的困扰，并将误杀率降至最低，相较目前Bayesian Filter的内容过滤技术，实为更安全、崭新而有效率的过滤技术。
未来Antispam发展的技术方向与结论：
不管垃圾邮件技术如何进展(从关键字、内文->文字扭曲->图型->图型扭曲)，我们可以发现spammer，百变不离其心是其从『内容扭曲』上发展(也就是针对内容过滤的spam filter发展的)，所以这也是目前市面上90%以上的产品以内容过滤、贝式分析(Bayesian filter)等contents filter之antispam产品最大的问题所在，若吾辈对抗spam 还是从内容上去作研究，如OCR、图型特徵码(image signature)，边缘侦测手法 (Edge detection)、图片空间侦测、Fingerprint、三度空间分析等等……这无疑是被image spam导入万劫不復生的死胡同裡，只要透过上述的变形技术-将内容『我变，我变，我变变变』，无论你的contents filter加入千百条rule都无法抵档spammer的内容扭曲变形，怎麽拦也拦不掉啊！

要解决spam mail常治久安的方法唯有洞悉Spammer的特徵-『造假』，并从造假分析着手，除上述介绍的『Anti-faking technology』外，尚有业者提出『Spoofing intention analysis』、『Sender spoofing predicting』等等…，以统计Internet上发信者的行为，如分析滥发邮件的单一IP，寄送大量无效信件的sender，分析大量攻击瘫痪性行为等….以『侦假-Faking intention detection』行为去防范spam mail，才是真正预防与有效阻拦spam的技术方向。

原文出处：网管人Netadmin 7月号
作者：陈兆宁larry@green-computing.com
任职于绿色运算