11/16/2006

HTML Filter

一般來說,通常使用者 input 的 field 都會作一些 filter 的動作,避免你塞一些危險的 HTML code (script之類)進去。而這部份 Ruby on Rails 作法很簡單,就是在前面加上一個 h() 即可。h 在Ruby on Rails 作什麼事情呢?他是 html_escape 的 alias ,他會將所有的 < 還有 > 變成 & lt; ,& gt;,比如 <sctipt>alert('a'); </sctipt> 會變成
& lt;sctipt& gt;alert('a'); & lt;/sctipt& gt;
這樣你就完全作不了亂啦,因為所有 tag 都不見了。但是這樣通常嫌太過嚴格一點了,有時候我們會希望開放一些字型大小,顏色的tag 給你用,這時候 h() 通殺的特性會讓一切都變得很麻煩。所以這時候 Ruby on Rails 就出現 sanitize() 這個 function,根據 Ruby on Rails 的api 上面解釋
Sanitizes the given HTML by making form and script tags into regular text, and removing all "onxxx" attributes (so that arbitrary Javascript cannot be executed). Also removes href attributes that start with "javascript:".
他會砍掉 script 這個 tag ,以及 onClick onLoad 之類的 attribute ,你沒有機會執行 javascript ,那就會讓你 key-in 任何東西都如 sanitize 字面上一樣『完全無害』。但是,Ruby on Rails 預設的 sanitize 管制方式又有點大方,你還是可以塞一些 div 或是 iframe 之類的 tag 讓你的網站版面爛掉。

所以我們需要一個可以自訂的 HTML Filter ,可以自由指定我們放行那些 tag 。這時候我發現了這個網頁,這是 Brad Choate's 寫的 perl 函式 sanitize_html 的 Ruby porting,你可以到這裡下載 Ruby 的版本。這只有一個函式,請將這個函式放在任何可以 loading 的地方,然後使用
sanitize( HTML 程式碼 )
即可。我們來仔細研究一下怎麼使用,他的第一行
def sanitize( html, okTags='a href, b, br, i, p' )
okTags 代表的意思是就是他允許的 tag ,目前有 a ,b , br , i , p 之類的 tag 。如果你輸入 <iframe>aaa</iframe>之類的不允許的 code ,他會出現
aaa
這樣的結果,所有不被允許的 tag 一律被濾掉。如果你想加入 span,font 這個兩個 tag ,那就將他變成
def sanitize( html, okTags='a href, b, br, i, p, span, font' )
以此類推,很簡單吧。至於第一個的 a href 代表什麼意思呢?第一個 a 代表 sanitize 允許 a 這個 tag ,第二個 href 跟第一個 a 中間沒有逗號分開,代表 sanitize 允許 a 這個 tag 使用 href 這個 attribute。你要是不信的話,打入 <a href="http://lightyror.blogspot.com" target="_blank">Haha</a>之類的程式,他只會出現
<a href="http://lightyror.blogspot.com">Haha</a>
只有 href 這個 attribute 會被保留,其他的刪無赦 XD。如果你想讓 a 這個 tag 加入 target attribute ,那麼就這樣寫吧。
def sanitize( html, okTags='a href target, b, br, i, p' )
如此他就會保留 href 跟 target 這兩個 attribute。最後,當我們輸入這樣的 HTML <a href="http://lightyror.blogspot.com">Haha 有頭無尾的 html code ,神奇的是他居然會補齊 tag 成
<a href="http://lightyror.blogspot.com">Haha</a>
恩,這個東西實做相當完整,看起來十分有用。

沒有留言: