圖片型垃圾郵件(Image Spam)急速成長,預測將在2007年開始大行其道。為此資安業者紛紛祭出辨識這類垃圾信的防範機制,與垃圾郵件發送者展開一場技術大戰。 根據資安公司統計垃圾郵件約佔所有傳送訊息的90%,而圖片式垃圾郵件則佔了所有垃圾郵件類型的40%,而未來數年內將以扭曲影像垃郵(Wrap image spam)將成未來主流。
- 圖像式垃圾郵件的比重約佔整體垃圾郵件流量的 40% , 2007年來自SMTP應用層的垃圾郵件比例略升至 70% 。
- 圖像式垃圾郵件出現模糊手法新型技術:加入傾斜扭曲式文字(Slant and warp text)檔案技巧。
- 扭曲式圖像式垃圾郵變形大法: 利用影像扭曲、傾斜、交錯、對比、切割、加噪、位移、比例、色彩或是特效等的扭曲影像垃郵。
- 目前Antispam面臨的問題與解決之道為何? 針對內容過濾的Image Spam該如何防範呢?
- 圖像式垃圾郵件(Image Spam)的由來:
傾斜與扭曲文字(Slanted and Warped text)的新手法,藉由傾斜或扭曲圖片中的全部文字,以逃過光學文字辨識技術(Optical Character Recognition、OCR)等垃圾郵件過濾機制的檢查,降低垃圾郵件被攔截的機會。圖像式垃圾郵件傾斜與扭曲文字的作法,其原始idea來自網路上常見用來避免Bot程式大量自動註冊帳號、留言的CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)技術。CAPTCHA的做法是,藉由顯示一張含有文字,但卻被加入雜訊(Noise)或扭曲、傾斜的圖片,並要求使用者輸入圖片所顯示的文字,由於目前的技術尚難以自動辨識出這些被「干擾」的文字,使得CAPTCHA技術得以避免程式自動判讀,進而能確保其使用者真的是「Human」而非「Machine」。▲ 網路應用上常見的CHPTCHA▲ Image spam 的範例
- OCR對抗Image Spam有用嗎?
越來越多圖像式郵件藉由加入雜訊、改變文字顏色、對比、扭曲變形等方式,提高了判讀難度,為因應圖像垃圾郵件氾濫,資安公司也先後推出「特徵比對偵測」、「光學字元辨識」、「邊緣偵測手法」 (Edge detection) ,「圖片空間偵測」等多項防堵機制,不過一些垃圾郵件散發者,開始將圖像式的垃圾郵件內容,放到一些既有的商業新聞訊息(Newsletter)或是合法廣告中,或夾入一段格言或聖經,並以這多種格式發布,企圖蒙騙spam filter的偵測。例如修改一些現成的新聞EDM中,加入賣藥或非法軟體的廣告,藉此〝愚弄〞(fool) filter對垃圾郵件的內容或特徵比對偵測,使垃圾郵件過濾器將這種垃圾郵件誤判為合法郵件。「根據調查,對於圖像式垃圾郵件,泰半以上的資安廠商多半採OCR(光學文字辨識)技術來處理,」一般做法即利用OCR軟體把圖像轉成文字,再依文字內容進行比對,利用OCR法除對系統會造成很大的負擔、效率太差;況且只要簡單加入一些Noise或扭曲內容,如當前氾濫的扭曲圖像(利用影像扭曲、傾斜、交錯、對比、切割、加噪、位移...)垃圾郵件,我們不禁質疑「OCR辨視後判讀得出來嗎?」,「OCR辨視判讀正確就有效嗎?▲ 網路應用上常見的CHPTCHA▲ Image spam 的範例
- Contents filter(內容過濾)的問題 VS. Spammer變形大法:
其實回到最原點去看,這個應該是目前市場一般以貝式分析(Bayesian filter)等內容過濾(Contents filter)為主流的Antispam 所產生的問題,我們看看以下Spammer 變形大法的發展舉例說明:我們簡單從Viagra 一個字舉例,聰明的spammer為了躲過一些Spam filter(尤其以內容為主)的攔截開始對內容變形(愚弄機器:人讀文章,機器讀的是Code)
VIAGRA! 以下開此變形-----> V1agra! 以相似字型騙過 spam filters Via<!--hi-->gra 用HTML comments (人看不到<!--hi--> ,機器卻看得到,用來愚弄spam filter) V1agr@! 多重相似字型(帶符號)騙過 spam filters Vi<asdf>ag<asdf>ra 用 Bad HTML (人眼看不見,用來愚弄filter again!) V’ 1ag^r”a (或V.i.a.gr.a 或 V-i-aGr.a 或 V/i/a/g/ra ......等) 關鍵字中加入Noise 以愚弄filter Vi <b>ag</b> ra 用 HTML語法夾帶方式讓Viagra(看起來是 Vi ag ra ) 躲過filter 文字模式下的愚弄contents filter的變形大法從上述的例子我們可以簡單看出,Spammer的技術發展就是針對藉著『愚弄』內容過濾(Contents Filter)式的spam filter 的行為方法,因為其最大的問題是抵擋Spam的技術是用『內容』來過濾,從上例我們可以簡單發現若以"內容"過濾為主要核心技術來抵擋Spam的話,只要將內容扭曲變形 - 將內容『我變、我變、我變變變』,無論你的contents filter加入千百條rule都無法抵檔spammer的內容扭曲變形! - Image Spam的變形技術:
隨著技術的進步,雖然spam filter可以透過學習(machine learning)可以慢慢看懂上述技倆,但所謂道高一尺,魔高一丈,spammer也在思考如何避開過濾成功滲透(其實多為閃躲內容過濾),聰明的spammer發現內容過濾的盲點-“濾內容” ,於是乎用『以子之矛,攻子之盾』的方法,乾脆把所有內容裡的文字改成圖像吧,看看你怎麼濾? 於是乎圖片式垃圾郵件產生。因為郵件的廣告內容全部做成圖片,這樣一來就能避開那些使用內容過濾文本內容的防堵軟體的偵測,這也算是一種視破吧?! (內容過濾的罩門被視穿因此就破功了...)於是乎使用內容過濾技術的防堵軟體廠商,紛紛出來為自家的產品解套,為內容過濾找尋一個讓人可以接受的出路-OCR,廠商宣稱可以將圖片內容使用OCR(光學辨識技術)將圖片內的文字圖形轉換成文字,再進一步加以過濾。這個推論看似沒錯(實際上謬誤百出),但實質上只是製造話題來誤導了大眾針對問題核心的注意,當垃圾郵件內容改以圖片表示時,筆者相信圖片裡的文字並不會"規規矩矩"的放在圖片裡,讓OCR很精準的辨識出文字,多加幾個簡單的步驟,比如將影像扭曲、傾斜、交錯、對比、切割、位移、比例、色彩或是特效,就能讓OCR的辨識效果大為下降,這些步驟並不難,影像處理軟體幾個命令就解決了。再看看下面的例子吧....以下列出幾種圖片式文字(graphical images of text)的應用還有一種方式是,放在郵件本文裡的圖片非一整張,而是加以切割成各小圖片,再用HTML table拼起來,當然切割的單位愈小,就愈能避開OCR的辨識。影像切割後再用HTML table 組合的image spam除了以上舉例,還有編排、背景...等因素,將所有變因加在一起,就可以產生出超過百萬種的組合效果,那麼如果仍想藉由內容過濾來偵測,相信對於過濾效果沒有太大助益。如以Viagra與下列image spam為例,透過上述技術就可以變形。更容易內容扭曲的Image spam-我變,我變,我變變變
- 剖析Spammer的特性與Image spam的詭計:
綜合以上論述,使用OCR技術真的能解決圖片式垃圾郵件的問題??? 各位看倌到此是否不禁會心一笑呢? 如果真的用OCR技術去對抗Image Spam的話 ,最後MIS會不會搞到變成 Orz ? 被公司同仁罵到 囧rz ??.........垃圾郵件最折煞人的地方,在於它會不斷變形,以適應各種新的攔阻方法。資安業者每推出一種打擊垃圾郵件的方式,Spammer業者就能找到一種避開攻擊的方法。這種垃圾郵件軍備競賽,使得雙方不斷共同演化,而且變得越來越加複雜。在國外的一份研究報告指出-『95%的spammer使用造假行為發信,90%惡意信件是使用造假行為發送,70%的垃圾信是屬於first spam(one time spam)』新型態的spammer利用繞道、跳板或偽造等等造假技術或甚至透過Zombie(僵屍網路)發動大規模的image spam,發了就跑(讓你抓不到) ,不斷變形(內容變形、行為造假等…) ,一變再變,用一般的傳統的antispam技術(ORBL、RBL、黑名單、DNS反查、DCC、內容過濾等..),是難以阻攔的。簡言之,Spammer特徵歸納:
造假,發了就跑,內容不斷變形,透過hacked 的ZombieNet 發信。
簡單一句話就是造假:來源造假、行為造假、內容造假就傳統坊間的antispam技術來看,不外乎幾類『查表法-RBL、ORBL 、Safelist 、黑白名單、IP blocklist』, 『溯源法-DNS正反查、sendback challenge、SPF,Domainkey』,『比對法-關鍵字、Spam signature 、fingerprint 、FuzzyOCR,』, 『貝式分析法-Rule based scoring 、SCL、SRL等…』…筆者長期跟一些MIS人員談即到有關antispam的議題,不禁感嘆目前的防垃郵解決方案真是治標不治本的作法,比如說:
『查表法』、『溯源法』-對來源造假,發了就跑的one time spam跟本無可奈何。
『比對法』、『內容過濾,貝式法』-對內容不斷變形造假的spam也無法抵擋。所謂『Image spam』不過也就是使用spammer最擅長的造假行為之一種:『內容造假』吧,spammer 發明這種image spam不外乎是針對坊間的spam filter ,90%多為內容過濾式設計的吧,也就是針對『內容過濾』這個大盲點(內容一直變,看你如何濾)而攻擊的。 - 目前已知可有效阻擋Image Spam的方法介紹:
最後看倌不禁會問,那要如何有效抵擋Image Spam的攻擊呢? 所謂『百變不離其心,萬法不離其宗』-我們可以發現一個天律就是- 『垃圾郵件與正常郵件最大的分野在『行為』不在『內容』,其特徵是『造假』』。根據垃圾信件這個最主要特徵-『造假』,一般垃圾信發信軟體為躲避過濾軟體的偵測,多會用各種造假的技術,甚至同一垃圾信造假成多個不同版本,但彼此仍存有相當程度的相似度,因此,只要設計一個過濾軟體可把垃圾信集合起來,比較其來源、送信者、內容、標題、是否大量發送、相似度,就可以發現其是否造假,再把造假的垃圾信攔截起來就很安全。目前有業者利用其在搜尋引擎、近似比對、multi-pattern比對,Similarity Clustering Analysis、Relational analysis 等研究專長與成果,利用搜尋引擎技術,以近似比對、相似性分析與造假分行為分析提出『Anti-Faking technology』、來偵測垃圾郵件,並發展出「個人郵際關係分析」(relational closure analysis)技術來保護使用者正常郵件免於誤殺的困擾,並將誤殺率降至最低,相較目前Bayesian Filter的內容過濾技術,實為更安全、嶄新而有效率的過濾技術。
- 未來antispam發展的技術方向與結論:
不管垃圾郵件技術如何進展(從關鍵字、內文->文字扭曲->圖型->圖型扭曲),我們可以發現spammer,百變不離其心是其從『內容扭曲』上發展(也就是針對內容過濾的spam filter發展的),所以這也是目前市面上90%以上的產品以內容過濾、貝式分析(Bayesian filter)等contents filter之antispam產品最大的問題所在,若吾輩對抗spam 還是從內容上去作研究,如OCR、圖型特徵碼(image signature),邊緣偵測手法 (Edge detection)、圖片空間偵測、Fingerprint、三度空間分析等等……這無疑是被image spam導入萬劫不復生的死胡同裡,只要透過上述的變形技術-將內容『我變,我變,我變變變』,無論你的contents filter加入千百條rule都無法抵檔spammer的內容扭曲變形,怎麼攔也攔不掉啊!要解決spam mail常治久安的方法唯有洞悉Spammer的特徵-『造假』,並從造假分析著手,除上述介紹的『Anti-faking technology』外,尚有業者提出『Spoofing intention analysis』、『Sender spoofing predicting』等等…,以統計Internet上發信者的行為,如分析濫發郵件的單一IP,寄送大量無效信件的sender,分析大量攻擊癱瘓性行為等….以『偵假-Faking intention detection』行為去防範spam mail,才是真正預防與有效阻攔spam的技術方向。
原文出處:網管人Netadmin 7月號
作者:陳兆寧larry@green-computing.com
任職於綠色運算