User Icon

 /  ENG

單元1.1,單元2.4

AI年代:應科院推AI文件防偽方案 助金融業

29-12-2025

「朱雀AI檢測助手」提供一個「AI濃度」作參考,不會有肯定的結論。圖為以「朱雀AI檢測助手」檢測流浪黑貓向上飛撲,救回墮樓嬰兒性命視頻的結果。

應科院首席科技官黃莹展示的月結單,其實整頁都是以AIGC軟件生成,放大多倍之後可以看到,內裏的中文字明顯比英文字模糊得多。(曾憲宗攝)

【明報專訊】生成式人工智能技術(GenAI)的出現,為內容創作者提供了很大方便。但另一方面,這亦大大拉低造假的門檻,令到很多圖片和視頻真假難分。考慮到金融機構的需求,應用科技研究院最近研發出一個「AI圖像文件防偽方案」,已交給超過一間機構試用,未來還希望擴大適用的文件種類。

明報記者 薛偉傑

應科院首席科技官黃莹、首席總監(人工智能及可信技術)張偉倫表示,他們一年半前就覺得,人工智能(AI)技術的影響很大,若有人將之用來偽造文件,會對社會造成很大的困擾,所以有需要以AI來剋制AI,研發一個「AI圖像文件防偽方案」。走訪一些金融機構之後,更加確認了這個需求,於是便展開研發工作。

應科院:要以AI剋制AI

應科院的「AI圖像文件防偽方案」,乃專門針對jpeg、tiff和pdf等圖像檔案格式的文件。因為現時很多金融機構為了搶奪貸款服務的市場佔有率,都會標榜處理速度快,通常都接受申請者以圖像方式來提交各種證明文件。這個AI圖像文件防偽方案結合了多種模型和技術,包括:

1)多模型架構:「卷積神經網絡」(convolutional neural network,CNN)可以檢測圖像的局部紋理和異常,而基於注意力機制的深度學習模型架構Transformer,則用來理解全局的語義和結構,以提升整體的判斷力;

2)人工智能生成圖像偵測:識別是否存在AI合成或者AI生成的圖像特徵;

3)篡改圖像偵測:檢查圖片是否被修改過,找出不自然的痕迹;

4)相對版面比例比較:分析文件版面的佈局和比例,判斷是否符合真實文件的常規模式;

5)還有通用規則式文件資料擷取技術。

因此,它能夠從內容、結構、圖像特徵等三方面來交叉檢測,從而提升防偽的準確率。上面的技術詞彙可能較艱澀,但舉一些例子,會較容易理解其運作原理。

舉例說,如果有一些交易的入帳日期並非完全順序;或者所有收入和開支抵消之後,並非等於文件上的結餘,都屬於極度可疑。這是從會計的角度來檢測內容。又例如,如果有個別位置的數目字或英文字的大小或字體,與整份文件的其餘部分顯得不一致,就很可能是被人工修改過。

準確率料約90%

至於以人工智能生成內容(AIGC)軟件來生成整份文件圖像,現時其中一個主要破綻是,若將之放大多倍,會看到文件內的中文字明顯比英文字模糊得多,線條沒有那麼銳利。當然,AIGC軟件進步很快,或許再過一段時間,就會克服這個缺點。但即使如此,每套AIGC軟件生成的檔案都有它獨特的「紋理」,就好像雜噪(Noise)般,仍然有殘留的痕迹可尋。

暫時來說,這個「AI圖像文件防偽方案」主要針對一些和申請貸款相關的文件,例如帳目、帳單、身分證明文件等。在訓練過程中,研發團隊一共使用了100多萬份真假文件,部分文件由合作的金融機構提供,部分假文件則是故意用AIGC軟件來生成。

估計這個方案現時的準確率大約是90%。一般來說,每檢測一頁文件真偽,只需要大約1分鐘。這聽起來好像比較慢。但以他們所知,現時有些金融機構靠人眼來詳細檢測(除了AIGC生成檔案的「紋理」,上述幾個例子都可以用人眼檢測),每頁文件就至少花幾分鐘,甚至超過10分鐘都有。

未來擬擴適用文件種類

應科院早前已經將這個方案交給超過1家金融機構試用,預料很快就有機構正式採用。此外,應科院還正在和某些政府部門商討。兩人估計,外國和內地的機構其實亦有需要,只是還未有時間去接觸。

應科院未來還計劃擴大這個方案針對的文件種類,例如包括:月結單、電費單、水費單、各種發票、土地查冊文件、屋契等。希望除了金融機構之外,房地產機構、地產代理、業主、保險公司甚至某些大公司也適合使用,因為有些大公司每月都需要處理很多員工提交的發票。

理論上,這個方案針對的文件性質並沒有限制。就算是學歷證書、檢測認證機構的報告等,只要經過足夠樣本訓練(需要相關機構提供),這個方案也能辨別真偽。