假新聞長怎樣?文大郭文平藉語料庫分析,破譯「假新聞關鍵字」

臺灣已經連續10年蟬聯全球「受境外假消息影響」最嚴重國家。針對這現況,中國文化大學傳播學院院長郭文平長年投入相關研究。
拍攝/林俊孝
 

「新冠病毒害怕高溫,所以趕快提醒你的家人:多蓋被子、喝薑湯,就能提升體內熱能,預防感染!」──這是2022年1月臺灣事實查核中心經多方求證,判定「內容錯誤」的一則假消息,然而在此之前,這則消息早已流竄於LINE、Facebook等各大社群平臺。

我們生活在一個「假消息(disinformation)」俯拾皆是的時代,就連做為「第四權」的新聞媒體上,也不乏看似真實的「假新聞(fake news)」,混淆我們對這世界的認知與判斷。根據瑞典民主多樣性中心V-DEM(Varieties of Democracy)調查,臺灣超過連續10年蟬聯全球「受境外假消息影響」最嚴重國家。從政策謠言、醫療偏方、飲食禁忌、颱風假、大選消息到軍事演習,幾乎所有大眾關心的議題,都能成為假消息進攻的目標。

想要辨認消息真偽,最直接的方式當然是對「內容」仔細查證,但並非人人都有專業求證的技術、人脈和時間。既然如此,我們有沒有可能光從語言的「特徵」、「風格」就看出一些端倪,透過語言文字的運用方式來偵測假消息?

長期投入媒體文本分析研究的中國文化大學新聞學系郭文平教授指出,假新聞的語言特徵,還真的跟一般新聞有所不同!以第一段提到的「蓋被子、喝薑湯」為例,當你讀到訊息裡出現「趕快提醒」、「你」、「所以…就能」這些字眼,這則訊息就有更高的機率是假消息,必須謹慎求證。

為什麼是這些詞彙呢?它們可以引發哪些傳播效果與心理歷程?研究者又如何從網路上的海量新聞文本中,辨識出假新聞的語言特徵?郭文平從COVID-19「疫情假新聞」的分析開始談起。

質/量分析雙管齊下,剖析疫情假新聞

郭文平提醒,當媒體訊息裡出現「趕快提醒」、「你」、「所以…就能」等字眼,這些有高機率是假消息。
圖片來源/chatgpt(AI). Prompt: Please create a hand-drawn style image of a magnifying glass reflecting various media such as television screens, web pages, newspapers, and mobile phone screens. Please leave the area inside the magnifying glass blank. Use simple, warm colors.

「集體注目的重大事件,特別是充滿未知與不確定性的事件,常是假新聞孳生的溫床。」郭文平指出,2020年起侵襲全球各國的COVID-19新冠肺炎疫情便催生了大量假新聞,主題跨及病毒源頭、防疫措施、療法到疫苗陰謀論。「畢竟攸關生命安全,大家都非常關心這場疫情,期盼獲得更多資訊,更渴望從這些資訊中獲取一份確定感。」

現在回頭來看,伴隨COVID-19疫情爆發的假新聞浪潮,正提供豐富的分析材料,可用以探討假新聞與正常新聞報導的差異。郭文平首先運用「爬蟲技術」,蒐集了大量網路文本資料,包括:COVID-19疫情期間共18萬(186,139)篇相關新聞報導,以及最重要的:由臺灣兩大查核單位,事實查核中心與MyGoPen(麥擱騙)判定為假新聞的580則文章。建立好「疫情假新聞語料庫」後,經過資料清洗、斷詞等前置程序,展開一系列分析。

郭文平採取「語料庫輔助的論述分析(corpus-assisted discourse analysis)」,這套研究方法同時結合了語料庫方法的量化優勢,以及論述分析的質性深度。「早期媒體文本研究都要仰賴人工蒐集、編碼資料,分析的文章量能達到50、100篇就很多了。」他解釋,「在語料庫方法輔助下,我們能進一步以量化且系統化的統計技術,一次分析數百、甚至數萬篇文章的語言特徵,作為深度詮釋的切入點。」

從詞頻(每個詞彙被使用的頻率)、共現詞(collocation;經常共同出現的詞彙組合)到主題模型(topic modeling;根據詞彙機率分布推估文本中的潛在主題),基於語料庫的量化內容分析能從繁雜文字資料中抽取關鍵資訊,讓研究者有所依據,並按圖索驥,根據這些詞彙或主題,回到文本進一步剖析其間暗含的論述觀點或修辭話術。

郭文平採取「語料庫輔助的論述分析」,從詞頻、共現詞到主題模型等,回到文本進一步剖析。
圖片來源/chatgpt(AI). Prompt:The person is using a magnifying glass to examine the information on the computer, mobile phone, and tablet, but without displaying any text. The images are in a childlike, watercolor-style, horizontal format.

疫情關乎你、我、他:假新聞裡的「代名詞」

一個詞彙多常被提及,這有什麼大不了?郭文平發現,光在「人稱代名詞」的使用上,疫情假新聞就和一般媒體報導有所差異:假新聞在行文中會用到更多「第一人稱代名詞」,也就是「我」。

你可能也看過不少這麼開頭的短文:「我舅舅是醫生,他親口跟我說…」、「以下是我的親身經歷…」。像是這類第一人稱的分享,往往缺乏真正可靠且可追溯的正式消息來源,卻反而能有效引起人的好奇心,並製造出一股莫名的說服力,彷彿這種「偷偷告訴你」、「私下報明牌」的情境,能讓所傳達的資訊顯得更有價值、更該聽信。相較之下,一般新聞報導多避免使用第一人稱代名詞,便少了這種「私密」的說服力。

郭文平笑著說:「文化大學有很多鬼故事,大家聽歸聽,不一定會當真。但如果是醫療保健相關的假訊息,人們卻很容易信以為真。」

另一方面,假新聞運用其他人稱代名詞的方式也與一般新聞不同。郭文平指出,假新聞特別愛用「呼籲」相關的字眼,連帶便會提及第二人稱代名詞的「你」,例如:「提醒你的家人」、「請分享給你愛的人」、「如果你家有小朋友,就要當心了」。這些語句有效利用了人們對於親朋好友的關心,加速假訊息本身的散播。

郭文平也發現,疫情新聞無論真、假,都常不假思索地套用「戰爭隱喻」的框架:病毒與疫情被視為人類要「對抗」的「敵人」。這組隱喻延伸下去,容易演變成也把人區分敵我陣營,進而將特定族群「他者化」的情況。舉例來說,在疫情最緊張的時期,從外國人到不遵守防疫規範的人,都常被描述成和「我們」對立、且可能帶來威脅的「他們」,就像是與病毒一同位於敵方陣線的他者。這樣的傾向,在善於編織生動故事的假新聞中尤為明顯。

「這樣做就對了!」──切勿輕信

為什麼假新聞總在重大事件發生時特別猖狂?郭文平指出,在未知與慌亂的時刻,假新聞正好可扮演「定心丸」的角色,儘管有或小或大的副作用,人們仍常常急於服用。如前面提到的「蓋被子、喝薑湯」,這些迅速可及且乍看無害的偏方,恰巧能幫助民眾在從所未有的全球疫情消磨中,稍微重獲控制感。

「假新聞最厲害的地方,在於它往往準確打在我們既有的認知觀點上。」郭文平分析,臺灣社會長期熱愛「養生」的概念,疫情偏方假新聞正利用這點,將我們習以為常的觀點(養生小秘訣)結合當下情境(疫情來襲),編織出誘人的謠言。但是從公共衛生角度來看,如果誤信或高估了這些做法的效果,反而可能不利集體防疫。

郭文平從假新聞語料庫抽取的數個主題中觀察到,許多文章都牽涉「魔法般的小妙招」,包括:吃或喝了什麼即可抗疫的飲食偏方;泡澡、曬太陽可以殺死病毒;如果你能憋氣十秒,就代表尚未染疫……。雖然看似無傷大雅,但這些訊息有時參雜「不必施打疫苗」等說法,再搭配「疫苗只是另一種病毒」、「mRNA疫苗會使接種者變成轉基因生物體」等陰謀論訊息,形同引導群眾從錯誤管道尋求防疫方式。

假新聞提供人們「缺乏根據的信心」,這一點也體現於語言特徵上。郭文平分析發現,疫情假新聞比起一般報導更常用到「建立因果解釋」的連接詞:比起單純呈現事件時序,假新聞更傾向直接提出「因為…所以…」的因果關係,在一切還渾沌未明的時候,立刻端出一套易於理解當下情境的錯誤框架。這些假新聞也常偽裝成有科學權威的背書,編造出學者教授不曾說過的發言內容,或者乾脆偽造一個不存在的學者,這些問題在AI時代可能只會愈加嚴重。

臺灣人重視養生、健康,近來除了假消息外,詐騙人士更創造AI假醫師,甚至冒充真實醫師的影像,來宣導假消息、假新聞。
圖片來源/chatgpt(AI). Prompt:AI-generated fake doctors with devil horns on their heads deceive the public on TV and mobile phone screens. They should not display any text and should be presented in a childlike watercolor hand-drawn style in a horizontal format.

危險「已經」來臨,「現在」立刻「转发(轉發)」

成語「道聽塗說」指的是:在路上聽見毫無根據的傳言,接著又在途中繼續說給其他人聽。郭文平感嘆,假新聞之所以難以防範,正因為多是網路社群私下流傳。分析顯示,假新聞更常利用「時間」詞彙,製造令人欲分享轉傳的急迫感,例如強調嚴重的態勢「已經」發生,必須「馬上」行動,壓縮訊息接收者的反思空間。

所幸,假新聞有時也會出現明顯破綻。考量臺灣境外假消息的主要源頭,郭文平也從語料庫觀察到:「在臺灣,一個最容易辨認的假新聞語言特徵,就是簡體字、繁體字夾雜。」

要特別注意的是,許多正確的報導文章也會大量使用第一人稱、呼籲字眼或時間詞彙;所謂的假新聞「語言特徵」,並非鐵口直斷的二分法,而是機率差異。儘管如此,我們還是可以善用這些資訊,對來源不明的訊息進行初步偵測。

郭文平提醒,假新聞常以「科學」包裝,或用「聽說」與受眾拉近距離,無論如何,假新聞利用的是人在親臨未知時的焦慮與恐懼,以及隨之衍生的資訊需求。他笑著舉例:「你幾乎不會看到『黑洞』研究的假新聞,因為平常沒幾個人關心這件事情,相關消息難以挑動我們的情緒。」相反的,當重大事件發生時,可以縮小(或放大)負面情緒的資訊,最容易受到青睞,也最令人急於分享,「正因為這樣,越是讓你想要立刻轉傳的消息,就越要小心謹慎,做一個耳聰目明的閱聽人。」

假消息在AI的突飛猛進的發展下,將以各種形式出現在你我身邊。郭文平提醒,遇到重大事件,或者看見希望你立刻轉發的訊息,都需要先冷靜思考,再複製、轉發與分享,避免成為假消息的幫兇,一起做耳聰目明的閱聽人。
拍攝/林俊孝
 

採訪撰稿/林義宏
編輯/林俊孝
攝影/林俊孝、W. Xiang

研究來源
郭文平(2021)。假新聞在瘟疫蔓延時:新冠肺炎假新聞的語言風格分析。國科會專題研究計畫(一般研究計畫)。
Winping Kuo (2023). Infodemic in the era of the pandemic: Analyzing thelanguage use and discourse of COVID-19 fake news. International Review of Pragmatics (scopus), 15(2): 189-220.
Winping Kuo & Sumei Wang (2023). Fake News in the Field of COVID Communication: Investigating the ‘Infodemic’ in Taiwan. critical Criminology (SSCI).