國立臺灣大學語言學研究所教授謝舒凱,長年來探究電腦與人們語言的連結。但破解任務的過程不止迂迴曲折且充滿驚奇,又可能因為新技術的出現而產生革命性轉變。
攝影/林俊孝
如果時間跳回2022年以前,我們可能很難想像,「和電腦聊天」很快就要成為一件稀鬆平常的事。自從ChatGPT問世,各式各樣AI工具也如雨後春筍般跟著出場,從寫程式到寫詩,說笑話到談戀愛,科幻電影《魔鬼終結者(Terminator)》、《機械公敵(I,Robot)》、《銀翼殺手(Blade Runner)》中可以流暢對話、執行任務的機器人,彷彿即將成為現實。
然而,沒有生命、以電子訊號傳遞資訊的機械物,是如何學會人類語言的?進一步思考,雖然 ChatGPT已經幾乎做到「像人一樣說話」,它是否真能「懂得」語言背後的意義?而話說回來……人類自己就「懂得」什麼是語言嗎?
讓電腦學會人的語言──學理上稱為自然語言處理(natural language processing, NLP)──是一道需要深諳人類語言本質、同時掌握計算工程專業,才能逐步解開的艱難任務。長期投入計算語言學(computational linguistics)領域的國立臺灣大學語言學研究所教授謝舒凱,也一直在思索如何破關。但破解任務的過程當然不是一路順暢,而是迂迴曲折且充滿驚奇,又可能因為新技術的出現而發生革命性轉變。
教電腦學會人的語言?先看看人類自己怎麼學
謝舒凱指出,語言總關乎意義,而意義的單位是「詞彙」。但在中文世界裡,不像英文可以直接依空格區分詞彙,所以第一個技術問題就是「斷詞(word segmentation)」。但一段文字該斷成幾個詞,人們和語言學家也沒有標準答案。
攝影/林俊孝
回想小學國文教科書,我們學習語言都會從「詞彙」開始,抄寫一本本的生詞簿;然後在照樣造句的練習題中,慢慢掌握句法結構,最後學會將種種語言元素排列組合,表達自己獨特的思考與感受。這種語言學習模式源自語言學主流觀點,認為人類腦中共享一套抽象的形式規則,在有限的文法結構規則下,人可以運用不同詞彙組合出無窮可能的句子。
若要沿用這種模式讓電腦學習語言,特別是中文,那麼首要的問題就是「詞彙的邊界」。謝舒凱說:「語言總是關乎意義,而意義的單位是『詞彙』。但在中文世界裡,不像英文可以直接依空格區分詞彙,所以第一個技術問題就是『斷詞(word segmentation)』。」
但是,一段文字到底該斷成幾個詞,人們和語言學家自己也常常沒有標準答案。「臺北車站」是一個詞,還是「臺北」+「車站」?無論如何,在較早期的斷詞技術裡,還是必須建立一套標準規則。這份模糊性在謝舒凱心中留下懸念,成為他後來提出「流動詞彙」的基礎。
人的語言有多難學:從「流動性」談起
謝舒凱指出,人類在自然情境下使用的語言其實不太像教科書,經常缺乏完整的文法結構,會有重複、斷點、倒帶,甚至可以只用語助詞表達豐富意涵(「喔。」),或在對話中由雙方接著說完彼此的句子。也因此,一段話的意義往往不會只是詞彙單元的總和,而是衍生出豐富的言外之意。
舉例來說:「都幾點了,還在那邊睡什麼睡?」這段話完全沒使用到任何典型的情緒詞彙,卻足以傳達出強烈不滿。細究原因,謝舒凱發現「還在那邊」、「X什麼X」(X=動詞)分別都是夾帶負面情緒意涵的穩定形式結構。但如果在斷詞系統中被拆成「還」、「在」、「那邊」,勢必就無法讓電腦了解這幾套四字組合的特殊意指。
梗圖或哏圖以圖片為媒介,在社群網站興起後形成的一種流行文化。通常以時下流行的名人、語錄、漫畫、影視截圖等素材,配上傳達主旨或解釋文字,來表達特定情感、觀點,也是迷因的一種。圖片為以「單身狗」為題材的梗圖。
圖片來源/維基百科
日常語言中,詞彙的邊界與意義往往隨著情境脈絡千變萬化,同時還可能有不同的保鮮期。例如「急了」作為近幾年興起的網路流行語,並非字面意涵,而是結合迷因梗圖(meme)、帶有嘲諷意味的詞彙。當然,流行語也可能會退流行。不知道為什麼,人類似乎總能敏銳察覺一個詞彙「過時」與否,如果你現在聽到有人說「壓馬路」、「LKK」,可能會以為對方剛穿越時空。
從詞彙的邊界彈性到興衰起伏,謝舒凱觀察到人類語言的流動性:語言不會因為被寫進教科書就從此固定下來,而是隨著人的情感、語境、歷史而流動。那麼問題來了──如果人類語言這麼變動不拘、富含彈性,如何指望電腦可以學會?
打造「深度詞庫」的野望
謝舒凱提出流動詞彙的主張,挑戰了過去關於語意單位的觀點。在自然語言中,一個句子或一段話所傳達的意涵,經常超越傳統定義的詞彙邊界,必須運用認知功能語言學所提出的更複雜的「語式-意義對」來捕捉,舉凡「還在那邊」、「我只能說」、「不是我要說」等,這些意思對我們來說一望即知的語式(formulaic sequence),也都應該被收錄到計算詞庫(computational lexicon)中,提供電腦作為語言學習的資料。
規模可觀的語料蒐集與人工標記(annotation)工作就此展開。謝舒凱帶領 LOPE(Lab of Ontologies, Language Processing and E-humanities)實驗室成員,從臺灣知名論壇批踢踢實業坊(PTT)蒐羅盤點了累積十多年的文字資料,以半自動結合人工作業,為具備特殊意涵的語式進行標記。
這份工作看似單純,其實並不容易。舉例來說,「哈」、「哈哈」、「哈哈哈」有何不同?我們平時或許可以憑直覺,很快讀懂不同數量的「哈」、擺在句中不同位置時的意涵及其幽微差異,但身為研究人員,若要為這些種種不同詞組、語境賦予明確標記,將背後的意思書寫清楚,又是另一回事。
「我們想要建立一個細粒度(fine-granularity)的詞意資料庫,盡可能將最細緻的語意差異記錄下來。」謝舒凱笑著說,「這個計畫可能帶有一點幻想性,畢竟我們不可能窮盡所有語式,但至少可以試著逼近看看,帶入一些連續的、流動的概念進入語意學」
ChatGPT於2022年底發布,顛覆過去語言學習的邏輯,不再一一學習、確認每個詞彙,電腦可以藉由大量語料的輸入,非監督式的學習怎麼用人類的語言來對話。
圖片來源/chatgpt(AI). Prompt: A robot and a human continuously converse in an information-driven world, depicted in a woodcut-style illustration.
謝舒凱與研究團隊建立的深度詞庫,理論上與實驗上都有助於訓練出表現更好的模型,更善於讀懂中文對話字裡行間的豐富意涵。但萬萬沒想到,時代突然出現轉折。基於大型語言模型(large language model, LLM)的ChatGPT於2022年底發布,背後的深度學習技術是無須依賴人工標記的非監督式學習(unsupervised learning)。
這表示電腦學習人類語言的方式,也許不像小學國文教科書,非得明文列出語言規則、一一學會不可。就像「孩子在全英文使用環境中,自然學會英文」一樣,電腦似乎可以跳過規則理解,直接藉由大量的語料輸入,產生用人類語言進行對話的能力。
即將到來或已經到來的革命:大型語言模型
「過去我們想教電腦學習人的語言,標準步驟是準備語言資料、進行標記、告訴它很多規則和特徵、選擇好模型,然後才開始學習並評估表現。現在的大型語言模型技術,卻不需要預先提供規則與特徵導引,就能夠訓練出更好的成果。」謝舒凱說,「這是一件令人相當震撼的事情。」
儘管大型語言模型仍受到某些論者批評為「黑盒子」或「隨機鸚鵡(stochastic parrot)」,只會生成語言,而非真正理解文法規則,甚至經常出現幻覺(hallucination),不保證發言正確性,但目前ChatGPT等模型的流暢語言表現,依然有目共睹。現任台大文學院副院長的謝舒凱,也回頭思考語言學在技術與思維轉向的可能,以及人文AI的教學實踐。
謝舒凱指出,在大型語言模型等前沿技術領域,語言輸入不再是以語言學家熟悉的文字/符碼(symbol)形式被處理,而是轉為多維度的數值向量(vector),經歷層層的轉換、運算、模擬、預測,最終再轉換並輸出人類看得懂的語言。這麼一來,如何調整、改善語言模型,好像都成了數學問題。
謝舒凱指出,隨著科技進步,傳統學科間的疆界也將越來越模糊、開放,文學、數學、科學與歷史彷彿不斷交織。
攝影/W. Xiang
但是,這並不代表語言學即將被數學或計算科學取代。相反的,謝舒凱認為,大型語言模型興起恰巧是引導人類重新認識語言本質的好機會,揭示了未來語言學家跨域的必要,也為語言學理論帶來新的可能性。事實上,讓電腦學會人的語言,也從來不是(計算)語言學家唯一的任務。從語言規則的理解建構到瀕危語言的保存復振,都仍要仰賴語言學家的專業。
「隨著科技進步,傳統學科間的疆界也會越來越模糊與開放。」謝舒凱說,「語言學家過去曾經從人類學、社會學的角度探究語言,現在我們又可以從『電腦』的角度看語言。」電腦如今已經很大程度的學會人的語言,同時以極為迅速的速度繼續挑戰人類的高等認知能力模擬。在人與機器共生協作的這段旅程中,人類或許也將對自己與這個世界產生更深入的認識:人類的語言,其實一直都是跨越領域的存在。
採訪撰稿/林義宏
編輯/林俊孝
攝影/林俊孝、W. Xiang
後記:LOPE實驗室研究成果
除了基於流動詞彙的深度詞庫,謝舒凱創立至今18年的LOPE實驗室,更累積了許多其他研究成果與資源建置。從中文詞意網絡(Chinese Wordnet)、台灣社群媒體語料庫(Taiwan Social Media Corpus)到近期著手打造的台灣多模態語料庫,都可以透過LOPE實驗室網頁一窺究竟(https://lopentu.github.io/)。