新聞、謊言、假影片

人工智慧讓每一個人都能輕易篡改影音，最大的威脅將是我們不再相信任何事。

撰文／波瑞爾（Brooke Borel）
翻譯／鍾樹人

　　2018年4月，網路上出現一段美國前任總統歐巴馬的新影片，背景裡有美國的國旗與總統旗，看起來就像他以前的諸多談話影片。穿著平整的白襯衫與深色西裝，歐巴馬面對攝影機，伸出雙手來強調自己說的話：「川普總統是不折不扣的笨蛋。」

　　沒有露出一絲笑容，他繼續說：「嘿，你們知道，我從來不說這些話，至少不會是公開演說，但其他人會。」這時畫面分割成兩半，演員皮爾（Jordan Peele）出現了，歐巴馬沒有說任何話──這段影片是融合皮爾的模仿與歐巴馬的實際演說而成。兩人並列的畫面繼續傳遞著訊息，這時皮爾就像數位時代的腹語師，把更多話假借歐巴馬的嘴說出。

　　在假新聞肆虐的這個年代，這段影片是BuzzFeed新聞所製作的公共服務宣導，展示了應用人工智慧（artificial intelligence, AI）新技術的應用程式，它修改影音的方式就像Photoshop處理數位影像一樣：可讓人們篡改事實。

　　影片還相當粗略。仔細觀看並聆聽，會發現歐巴馬的聲音帶有鼻音，他的嘴（融合了皮爾的嘴）在幾個短暫片刻會偏離中心晃動。但是這項技術（為了好萊塢電影剪輯師和電玩廠商所設計）快速進展，已讓一些國家安全專家和媒體專家想到科技黑暗面。這些工具或許有一天能憑空創造出令人信服的假影片──並非像歐巴馬的談話那般修改自既有的影片，而是精心安排且從未發生過的情節。

　　假影片對大眾認知與公共論述可能造成深遠的影響。例如美國今年11月舉行的期中選舉，假如勢均力敵的選戰中有一部假影片抹黑了某位政治人物，試想所造成的衝擊；或者某企業公開發行股票的前一晚，執行長遇襲；或是一群人假裝發動恐怖攻擊，欺騙新聞媒體報導，進而引發人們本能般的報復。儘管某部瘋傳的影片後來證實是假的，大眾會不會依舊相信影片內容為真？或許最令人困擾的是：如果造假成為常態，讓我們不再相信多數看到或聽到的事物，包括真相，那該怎麼辦？

　　很多科技專家體認到AI生成影片技術可能大量濫用。美國史丹佛大學法律教授波西利（Nate Persily）表示，科技專家把焦點放在「偵測假影音的解決方案時，反倒很少花時間釐清這些方案是否讓人們不再相信假影片。」波西利研究的一項主題是網路如何影響民主，他和一群研究人員主張，單靠技術方面的解決方案，無法成功遏止瘋傳的假資訊（disinformation）。遏止假資訊需要心理學家、社會科學家和媒體專家共同出力，協助思索這項AI技術如何在真實世界中落實。

　　波西利說：「我們現在就必須做到這一點，因為科技專家此時（必然會）主導AI生成影片可能導致後果的討論。」我們對於政府和新聞業這類民主機制的信任已經減弱。既然社群媒體是假資訊的主要傳播管道，今天發佈假新聞的人更可輕易利用我們了。沒有適當的解決方案來因應漸趨成熟的技術，我們脆弱的集體信任將面臨更大的危機。

電腦虛構場景

　　假影片的發展可追溯到1960年代，人們第一次想到可以利用電腦製作影像。1980年代，這些特效成為主流，影迷看著這項技術與時俱進，從科幻電影到1994年「阿甘正傳」（Forrest Gump）主角阿甘跟美國總統甘迺迪握了手，2016年「星際大戰外傳：俠盜一號」（Rogue One）則是讓已過世的演員庫興（Peter Cushing）和費雪（Carrie Fisher）身影重現。南加州大學的資訊科學助理教授黎顥（Hao Li）是擴增實境（AR）新創公司Pinscreen執行長，他表示，這項技術的目標一直是「創造可以上演任何故事的數位世界。我們如何能創造看似真實的東西，但實際上都是虛擬的？」

　　早期，這些圖像大多出自藝術家，他們使用電腦建立3D模型，然後手工繪製紋路與其他細節；這個過程冗長，無法擴大規模。大約20年前，一些電腦視覺研究人員開始以不同方式思考圖像：與其花時間在個別模型上，何不教電腦根據資料建立模型？1997年，美國區間研發公司（Interval Research Corporation）的科學家開發出「影片重寫」（Video Rewrite）軟體，能把既有影片分割成片段，然後重新編排。研究人員製作了一小段影片，內容是甘迺迪說：「我從未跟阿甘見過面。」不久之後，德國馬克士普朗克生物模控研究所的科學家教導電腦從200張人臉的3D掃描資料集裡抓取特徵，然後製作新的臉孔影像。

　　近來隨著一種名為深度學習（deep learning）的AI進展，電腦視覺、資料與自動化之間最大的突破應該是在2012年。1990年代晚期的研究是使用靜態資料，而且並未改善；深度學習則不同，不但可調整功能，而且會漸入佳境。德國馬克士普朗克科學史研究所的博士後研究員李曉昌（Xiaochang Li，音譯）表示，這項技術把臉孔影像這類物件簡化成位元資料，「這時工程師會說，我們不再依據某物建立模型。我們對某物一無所知，只是運算資料來了解模式、建立模型。」

　　深度學習使用一道道簡單的數學方程式，其數學模型稱為類神經網路（neural network），深度學習隨著時間精通任務。例如資訊科學家可以教深度學習工具辨識人臉，方法是輸入成千上萬張影像，而且逐次說明「這是一張臉」或「這不是一張臉」。之後，當這種工具接收到新的人臉影像，就能辨識出構成人臉特徵的模式，然後（從統計上）回應「這也是一張臉」。

　　接續推出的新技術能夠虛構出看起來像真人臉孔的影像，其深度學習工具就是所謂的生成網路（generative network）。運用的是相同邏輯：資訊科學家以成千上萬張影像來訓練生成網路，但生成網路是根據從範例中蒐集的模式來製作新臉孔影像。現在有些公司使用相同的策略來處理音檔。今年稍早，Google發表Duplex，它是基於WaveNet軟體的AI助理；Duplex能撥打電話，聽起來像真人說話，還會加上語氣停頓，例如「呃」、「嗯」。將來，製作政客的假影片或許就不需要皮爾這類演員。去年4月時，加拿大新創公司Lyrebird發表了音檔範例，聽起來就像歐巴馬、川普、希拉蕊在說話，令人不寒而慄。

　　但生成網路需要巨量資料集進行訓練，這可能耗費大量人力。改善虛構內容的下一步是教AI訓練自己。2014年，加拿大蒙特婁大學的研究人員以生成對抗網路（generative adversarial network, GAN）做到這一點，方法是讓兩個類神經網路進行對抗。其一是生成網路，負責製作假影像，另一是鑑別網路，學習辨別影像的真偽。在幾乎沒人監督的情況下，GAN透過對抗方式訓練彼此；鑑別網路辨別生成網路所製作越來越逼真的假影像，而生成網路不斷想騙過鑑別網路。GAN可以製作任何數位內容。加州大學柏克萊分校的科學家發展出一種GAN，可以把馬的影像變成斑馬影像，或是把莫內這類印象派藝術家的畫作變成如相片般真實的景色。

　　今年5月，德國馬克士普朗克資訊學研究所的研究人員和同事發表了「深度影片」（deep video），也是使用某種GAN。深度影片能讓演員控制錄製影片裡其他人的嘴、眼和臉部動作，目前只能在肖像姿態（也就是一個人直視攝影機）下運作；如果演員頭部擺動的幅度太大，影片會有明顯的瑕疵，例如人臉影像周圍出現模糊的像素。

　　GAN還無法在影片中建構複雜的場景，一如影片所呈現的真實場景。有時，GAN會在影像中虛構出奇怪的東西，例如人的額頭有眼珠。不過今年2月，輝達（NVIDIA）公司的研究人員找到方法，讓GAN能製作出高解析度的臉孔影像；他們先以解析度相對較小的相片訓練GAN，然後由GAN逐步提高解析度。南加州大學的黎顥團隊已經使用GAN製作出逼真的皮膚、牙齒和嘴巴影像，這些都是數位方法難以重建的部位。

假資訊瘋傳

　　業餘人士無法輕易駕馭這些技術，但BuzzFeed的實驗揭示了我們日後可能看見的景象。歐巴馬的那段假影片出自名為FakeApp的自由軟體，它使用深度學習，而非GAN。FakeApp產出的影片稱為深度造假（deepfake），結合了兩個詞「深度學習」與「造假」，是以Reddit網站的某個用戶來命名。此用戶和其他人早期使用這項技術把色情影片裡的人臉換成名人，在那之後，網路上的業餘人士已經用FakeApp製作無數影片。多數影片是無傷大雅的惡作劇，例如演員尼可拉斯凱吉的臉出現在一堆他沒演出的電影裡，或是把美國總統川普的臉放在德國總理梅克爾身上。更令人擔心的是其中的隱憂，既然這項技術已經眾所周知，基本上任何有電腦的人都可以使用它。

　　長久以來，專家擔心因電腦而生的編輯工具會毀了現實。2000年時，《麻省理工科技評論》（MIT Technology Review）的一篇文章討論了「影片重寫」這類產品，警告「眼見不再為憑」，而且「晚間新聞上的影像也可能是假的，是進展快速的影片篡改新技術的產物。」18年後，假影片似乎沒有在新聞節目上泛濫成災，原因之一是製作出精良的假影片依舊困難重重。BuzzFeed製作歐巴馬短片（約一分鐘）不但需要影片剪輯人員協助，還耗費了56小時。

　　然而，我們消化資訊的方式已經改變。根據皮尤研究中心的資料，美國如今只有大約半數成人觀看電視新聞，反之有2/3是透過社群媒體獲知一些新聞。網路讓迎合特定觀眾的新聞媒體大幅增長，包括具強烈政黨傾向的網站，這些網站煽動憤怒，完全不受傳統新聞業的規範。波西利表示，我們能比以前更快分享訊息，網路變相鼓勵了瘋傳的訊息。而且比起客廳裡的電視機，我們在手機小小的螢幕上看不清假影片的瑕疵。

　　現在的問題是，一旦有個會對社會或政治造成重大衝擊的「深度造假」影片遭到瘋傳，會發生什麼事？倫理學與新興科學小組在加州州立理工大學聖路易奧比斯波分校進行研究，專研人機互動，研究員卡本特（Julie Carpenter）表示，這是幾乎沒人研究的新領域，答案是我們不知道。美國與其他國家在今年秋天舉行重要的選舉，我們可能很快就會找到答案。

　　我們已經目睹當網路遇上假資訊時產生的後果。2016年美國總統大選期間，有很多人探討假新聞；假新聞是精心編造的文字故事，為的是看起來像傳統新聞報導，得以廣為傳播。根據普林斯頓大學、達特茅斯學院和英國艾克斯特大學的合作研究，在2016年10月7日~11月14日，五個星期內大約有1/4的美國人造訪假新聞網站，管道多半是臉書（Facebook）的動態消息。再者，2016年美國大眾對新聞的信任度達到低點，據估計，只有51%的民主黨員和14%的共和黨員表示信任大眾媒體。

　　目前針對假新聞的研究甚少。加拿大里賈納大學的組織行為學助理教授潘尼庫克（Gordon Pennycook）說，某些研究指出，只要看過假資訊一次，稍後再看到假資訊，就會信以為真。他表示，目前還不了解原因，但可能是因為「流暢度」或「閱讀假資訊的簡易度」。如果我們聽到歐巴馬咒罵川普，稍後又聽到歐巴馬嘲笑川普，我們或許就會認為這些假資訊是真的，因為兩者十分相似。

　　根據美國麻省理工學院（MIT）針對2006~2017年推特上12萬6000則推文的研究，比起真實的新聞，我們更輕易分享假新聞，尤其是假的政治報導，傳播的廣度與速度都勝過金融、天然災害或恐怖主義的假報導。這項研究結果顯示，大眾渴求新奇。假新聞通常迎合我們的情緒和個人認同，在我們有機會檢視資訊、判斷資訊是否值得傳播之前，誘使我們做出反應。內容越教人意外、驚嚇或憤怒，我們就越有可能分享它。

　　有些令人不安的線索顯示，影片對煽動恐懼可能特別有效。布朗大學的認知、語言和心理學助理教授阿米特（Elinor Amit）梳理了我們在理解文字和影像上的差異，她說：「當你用視覺處理資訊，你會相信這件事在空間、時間或社會團體上離你比較近。」她假設這項差異是演化而來；我們的視覺發育早於文字書寫，而且我們比較依賴感官來偵測立即的危險。

　　事實上，假影片已經衝擊政治活動。今年7月時，「保守評論」（Conservative Review）媒體公司的電視節目主持人史塔基（Allie Beth Stuckey）在臉書上發佈了一段訪問影片，受訪者是紐約市的民主黨國會議員候選人歐加修－科提茲（Alexandria Ocasio-Cortez）。這段影片並非「深度造假」影片，而是經剪輯手法處理：把新的提問片段剪接到原本的真實訪問片段上，讓歐加修－科提茲看起來像答非所問。視你的政治立場而定，這段影片要嘛是抹黑，要嘛就如史塔基所辯稱，是諷刺影片。無論如何，這段影片在一星期內有340萬觀看人次、超過5000則留言，有些觀眾似乎認為歐加修－科提茲真的有這一次糟糕的受訪，某則留言是：「我的天！她不知道要如何回答或回答什麼。她真笨。」

　　這些令人擔憂的情況，僅是問題的一部份。對社會而言，我們對影片的臆測心態可能會比影片本身還糟糕。例如攝影機拍到政治人物真正的惡行時，他們可以宣稱影片是造假，散播懷疑言論。路易斯安那州立大學的大眾傳播副教授平格里（Raymond J. Pingree）表示，知道自己看到的影片是真假難辨，可能會腐蝕我們對所有媒體的信任。平格里研究人們評估真偽的自信心，以及這會如何影響人們參與政治的意願；當人們失去這種自信心，更容易受人蒙蔽，而「這會讓人們不想再追尋真相。」

【本文轉載自科學人2018年11月號】

本期精彩推薦

普高龍騰

技高龍騰

數位產品

App

Resources

教學資源

新聞、謊言、假影片