歷史研究不再埋首書海 臺師大柯皓仁用新科技,幫歷史學家神助攻!

臺灣歷史人物傳記資料庫(Taiwan Biographical Database),簡稱TBDB,截至2023年1月16日已匯集臺灣300多年,超過2000位歷史人物的傳記文本。
圖片來源/臺灣歷史人物資料庫

我們有幸活在智慧型手機的時代,能把世間萬物收進口袋。如今透過「數位典藏」與「數位人文」,人類更得以將珍貴的史料文本透過電子形式保存,並利用資料檢索、資料探勘、資料探勘分析史料,只要動動手指便可穿梭歷史!

臺灣歷史人物傳記資料庫(Taiwan Biographical Database,簡稱TBDB,網址:http://tbdb.ntnu.edu.tw/)從2017年正式啟動建置計畫,至今陸續匯集了彰化縣、南投縣、澎湖縣、臺中市、臺北市等地,橫亙300多年,超過2000位歷史人物的傳記文本。除了收錄全臺許多縣市方志傳文,TBDB還具備便利的檢索功能,更運用資料視覺化技術,為歷史研究者提供新穎多元的探勘工具。

國立臺灣師範大學圖書資訊學研究所的柯皓仁曾參與國科會和文化部執行多項數位典藏計畫,但不只是典藏而已,該如何結合數位、人文,透過兩個看似壁壘分明的領域,幫歷史學家打開全新研究視野?
攝影/林俊孝

「電腦不只會撿花生,還可以做歷史研究!」國立臺灣師範大學圖書資訊學研究所教授柯皓仁幽默地開場。

曾協助雲門舞集、優人神鼓等藝文團體執行數位典藏計畫的柯皓仁,是臺灣歷史人物傳記資料庫主導創建者之一。他如何發揮跨域溝通能力,將日新月異的資訊科技轉化成人文社科研究的助力,實踐「數位人文(digital humanities)」的願景?與研究團隊共同打造的TBDB還有什麼特色與潛力?如何為歷史研究帶來洞見?從無到有建立資料庫的過程中,又有哪些跨領域合作的甘苦談呢?

為什麼我們需要一個歷史人物資料庫

過去歷史學家必須在繁複的史料、藏書中梳理歷史脈絡,但人眼、記憶總有侷限,不免遇上遺忘、漏看等問題。
圖片來源/Unsplash

柯皓仁解釋,「人」是推動歷史的主體,多數歷史研究的開展都以「人物」當作中心或起點。然而,已逝的歷史人物無法直接開口說話,想重建他們的生平事蹟與社會關係,過去的歷史學家往往要皓首窮經,仔細爬梳龐雜零散的史料文獻。但如果每次研究一位新人物、一個新主題,都得自己回頭重新彙整文獻,不只曠日廢時,還可能出現人為疏漏。

為此,柯皓仁偕同多位歷史與資訊科學學者,企圖借重資訊科技的力量,高效率統整卷帙浩繁的史料文集。包括:直接收錄各縣市人物志的電子全文資料,或者利用光學字元辨識(Optical Character Recognition, OCR)技術將早期文獻進行電子化;透過命名實體辨識(Named Entity Recognition, NER)從文本自動爬出人物的出生年、出生地、重要事蹟發生地,以及傳文中提到的其他歷史人物等重要資訊;甚至以OpenCV函式庫對老相片進行人臉偵測、辨識,企圖從「歷史的快門」中抽取文書裡看不到的訊息。

屬於臺灣的TBDB

點擊TBDB網站,映入眼簾的是臺灣島嶼剪影,和背後以臺北101為視覺主體的城市遠景。你可以輸入感興趣歷史人物的「姓名」、「出生地」或任何關鍵字,查找資料庫的傳文資料。

舉例來說,在出生地欄位輸入「臺北」,很快就會看到「臺灣第一位女記者」:楊千鶴(1921-2011)的資料。點擊「檢視傳文」便能見到楊千鶴的家庭背景和她傳奇的生命經歷:在日治時期為臺灣女性發聲,1950年當選第一屆臺東縣議員,卻因戰後語言轉換問題與家務多舛,直到80年代末才重返文學與政治的公共領域。

每個人的人生,都不只是自己一個人的故事。你會注意到楊千鶴的傳文中也提到一些相關人物,如果這些人物同樣有被寫入地方人物志,這種情況在系統中被稱為「另有傳」,就像維基百科的關鍵詞連結,可以直接點入對應頁面。TBDB的最大特色功能之一,就是可串聯多名歷史人物的傳文資料,透過「人物分析」進一步勾勒出關係連結,讓歷史人物之間的社會網絡活生生地躍然眼前。

TBDB讓特定歷史人物間的社會網絡,活生生地躍然眼前。
圖片來源/臺灣歷史人物資料庫

當然,TBDB並非世上第一個傳記資料庫。柯皓仁提到,最初之所以起心動念打造TBDB,正是受到「中國歷代人物傳記資料庫(The China Biographical Database,簡稱CBDB)」啟發。由哈佛大學、北京大學、臺灣的中央研究院歷史語言研究所共同維護的CBDB,遠從上個世紀末發軔,現已累積超過50萬名歷史人物資料,數量規模上相當可觀。不過,收錄年代與地緣脈絡的差異,仍讓TBDB與CBDB有所不同。

中國歷代人物傳記資料庫(The China Biographical Database),簡稱CBDB,已累積超過50萬名歷史人物資料。
圖片來源/中國歷代人物傳記資料庫

柯皓仁解釋:中國的CBDB注重「歷代」,其中又以宋朝資料最多,人物時代背景集中在8到15世紀。相對而言,臺灣的TBDB收錄大航海時代與明清以來400年間的歷史人物,年代上聚焦20世紀前後。

數百年的差距,歷史情境與文化交流所形塑的人物故事自然大異其趣。「CBDB的歷史人物大多屬於『官宦士人』,主要經由『科舉』奠定社會地位。」柯皓仁說,「TBDB裡的臺灣歷史人物則涵蓋『士農工商』,甚至跨越政治、文化、社會、經濟等各領域凸顯多樣化的社會地位晉升途徑;也能看到許多跨國遷徙的生命經歷,例如曾到美國、日本留學等。」

TBDB的建置以CBDB為主要參考對象,雖然成熟度與資料規模都不如CBDB,但TBDB的收錄年代與傳記庫,卻更加貼近於近現代臺灣人物與臺灣史研究所需,具有無可取代的獨特性與重要性(資料來源:柯皓仁)。
企劃腳本/林義宏  美術設計/林柏希

數位人文研究實例:日治時期的詩社與政治

柯皓仁所任職的圖資所位於文學院大樓,是一幢雙層主體、由天橋連結兩端的建築,而跨過天橋,對面正是臺灣歷史研究所──資訊科學與歷史學,當這兩個乍看風馬牛不相干的學科相遇,會擦出什麼樣的火花?

透過臺灣「詩社研究」,開啟數位科技如何開啟人文研究的新境界。圖為彰化文化重鎮-文開書院。
圖片來源/維基百科

藉由資訊科技的奧援,輔助人文學、社會科學、傳播學等更廣泛領域的學者從事研究,正是「數位人文」理念的體現。柯皓仁以與臺師大臺史所張素玢教授等人合作的「詩社研究」為例說明。

日治時期臺灣文藝風氣鼎盛,許多詩社活躍於文化圈,成為文人與菁英階層交流互動的重要媒介。透過TBDB,歷史學家可以快速探勘不同詩社之間的關聯:哪些詩社的成員出現大量重疊?詩社之間是否會形成拉幫結派的群集關係?這下子都一目瞭然。

「有趣的是,將參與臺灣議會設置請願活動等政治運動、或參選擔任公職的人物名單匯入之後,歷史學家發現:這些日治時期加入詩社的臺灣人表面看似很少從政,但其實往往是透過間接的社會關係網絡,對政治發揮影響力。」柯皓仁點出,以往的歷史研究者或許要從史料一條線、一條線的搜索,現在TBDB則可直接視覺化呈現人物彼此間網狀、多層的社會關係。

TBDB可呈現歷史人物間彼此間網狀、多層的社會關係,歷史學家再透過經驗、閱讀,從中找尋線索。
圖片來源/臺灣歷史人物資料庫

這項研究於TBDB草創期執行,是以《新修彰化縣志‧人物志》記載的人物為主。柯皓仁回憶,臺灣歷史人物資料庫當初的「打底」作業,便是從彰化縣志開始。

盛產稻穀的彰化縣,曾有「臺灣米倉」之稱,是臺灣歷史上第一個人口超過100萬的縣份,而臺灣知名的望族「辜家」正是發跡於彰化鹿港。「還有個最重要的原因,就是我們合作的歷史系教授剛好是彰化縣志的編纂者,手上就有文件檔案,而且對傳文內容最為熟悉。」柯皓仁笑著說。

電腦與人腦、數位與人文的1+1>2

說到這裡,你可能會好奇:電腦程式從史料中判讀資訊的能力,能贏過專業訓練的歷史研究人員嗎?

為使電腦運算更為精確,還有賴人腦投入、過濾,然後不斷滾動式調整演算法,才能讓結果更為精準。
圖片來源/Unsplash

柯皓仁再以詩社研究為例,用程式自動辨識文本提到哪些詩社,可達到96%的召回率,「也就是說,電腦幾乎能把文本中的詩社全部抓出來,避免人類肉眼可能漏看的問題。」不過他也補充,電腦辨識的「精確率」相對就沒那麼高,例如:行文如果提到「各地詩社」,可能被當作一個真實存在的詩社,所以還需要專業人員輔助過濾,然後滾動式調整演算法,才能更為精確的辨識。

換言之,自動化辨識、人工辨識的交叉比對非常重要。「人類跟電腦各有優缺點,是相輔相成的互補關係,不用比較誰贏誰輸。」柯皓仁說,「電腦很厲害,但要讓電腦發揮完整實力,不能沒有人腦。」

柯皓仁更進一步強調:就像數位、人文之間的關係,不管我們用資訊科學技術幫歷史學家統整、抓取了多少資料,資料依然只是資料,「故事」卻要由歷史學家才有辦法敘說書寫。

資訊科學與歷史學的跨域合作,一邊是追求高效率、應用規則解決問題的計算思維,另一邊是關注脈絡、意義與差異的歷史思維,雙方如何從溝通磨合走向通力合作?「我雖然是科技狂,深處還是有一些文青的靈魂。」他微笑說道,「就像工程師用程式語言跟電腦溝通,才能讓電腦輔助人腦,資訊科學和歷史學家也需要學會『說對方的語言』才行。」

「數位人文」的理念,是將資訊科學與歷史學等人文學科連結整合,透過科技的效率與力量,深刻改變人類對自身的研究與瞭解方式。
企劃腳本/林義宏  美術設計/林柏希

從TBDB到數位人文的未來展望

TBDB對臺灣史研究者而言是重要的基礎建設。像這樣的跨域實踐,既開創出不同以往的技術應用,同時也為人文社會知識的拓展帶來嶄新視野。柯皓仁以他的學生為例,一人從《山海經》的神祇人物,在不同神話中的定位差異進行索引標記;另一人探討《金瓶梅》故事人物喝了哪些「酒」、在甚麼場合喝酒、哪些詞語和酒共同出現在文本,探討飲酒的類型和場合如何呼應時代背景與社會氛圍。

「但《山海經》只是《山海經》、《金瓶梅》只是《金瓶梅》,」柯皓仁提醒,「不論對文本內部進行再多資料探勘,研究結果的詮釋都勢必融入背景知識與情境脈絡,才能提煉出有意義的發現。」他也據此坦然反思資料庫系統的限制,「不管我們把多少資料蒐集到資料庫中,外面永遠還有更多無窮無盡的資料。」

因此,重點不是無限上綱蒐集資料,而是如何找到好的切入觀點、善用背景知識、結合情境脈絡,從既存資料中獲致新的理解──這不僅是學者的考驗,在當今資訊爆炸的時代,對每個人也都尤為關鍵。

柯皓仁指出,完備的資料庫系統並不是一蹴可幾,而是仰賴長期努力。未來將納入人臉辨識,期待開啟更多透過人眼、經驗還沒注意的新發現。
攝影/林俊孝

最後,完備的資料庫系統並非一蹴可幾,而是仰賴長期努力。柯皓仁提到,目前雖然缺乏穩定經費支持,研究團隊仍持續投入老相片人臉偵測、登錄與辨識的研發工作,以及從後臺將歷史人物倆倆之間的「關係類型」進行人工編碼,期待未來對更多歷史研究展開神助攻。同時也期許「數位人文」的理念,能在將來繼續啟迪跨域學者交流合作,結合當代資訊科技的強大力量與人文社會科學領域的深邃思考,催生更多意想不到的連結與應用可能性。

採訪撰稿/林義宏
編輯/林俊孝
攝影/林俊孝、W. Xiang

研究來源
柯皓仁(2016-2017)。臺灣歷史人物文本探勘與社會網絡分析工具:以《新修彰化縣志.人物志》為對象──臺灣歷史人物社會關係文本探勘工具之建置。國科會專題研究計畫(一般研究計畫)。
柯皓仁(2018)。臺灣歷史人物文本探勘系統與數位工具之建置。國科會專題研究計畫(一般研究計畫)。