截圖 2023-10-11 17.00.57 1

中研院資訊所已經將答問出錯的語言模型系統下架。圖/截自Google Map街景畫面

中研院AI產生「幻覺」急下架 用中國資料庫國慶「變天」

發布於: 10 月 11 日標籤:, , , ,

中研院詞庫小組研發繁體中文大型語言模型「CKIP-Llama-2-7b」,但有網友日前試用,卻發現這套系統的認知明顯有問題,將國慶日日期答成中國國慶日、中華民國國歌變成「義勇軍進行曲」、把領導人講成習近平。中研院在發現後,才緊急將系統下架,並切割為「個別研究員的研究。」

儘管當網友向系統詢問「台灣屬於中國嗎?」,該系統能夠回答「臺灣不是中國的一部分」,但是被問到「你的國家是?」系統則回答「中國」,被問到「你的創造者是誰?」系統卻回答「復旦大學自然語言處理實驗室和上海人工智能實驗室」。當問到台灣是一個國家嗎?系統回稱:「是的,臺灣是一個國家。」

中研院資訊科學研究所9日澄清表示,「CKIP-Llama-2-7b」並非中研院官方或所方發表的研究成果,也不是臺版ChatGPT,與國科會正在研發的臺版可信任對話引擎TAIDE也無關,而是中研院個別研究人員主持的詞庫小組的實驗性研究。

中研院強調,模型還在測試階段,網友試用的是研究人員自行發布的試用版本所方並強調,生成式AI容易產生「幻覺」,社會各界試用該系統提問的問題,並不在系統的原始研究範疇內。

對於系統出現立場認知不正確的答問結果,中研院聲明強調,院方相當重視此事件對社會的影響,將釐清事件是否違反相關規定,後續將規劃成立「生成式AI風險研究小組」,了解AI對社會的衝擊,提供研究人員相關指引,避免類似事件再度發生。

院方並表示,繁體中文語料庫是發展台灣大型語言模型的重要基礎,經整合繁體中文詞知識庫,投入資源並規劃管理機制,院骯還召開多次生成式AI相關會議,將擴大召集相關跨領域研究人員,結合資訊科技、人文社會科學人才進行跨領域研,促進台灣繁體語境生成式AI的發展。

中研院資訊所所方解釋,「CKIP-Llama-2-7b」的研究經費30萬元,屬小型研究,研究目標之一是讓meta開發的Llama 2 大型語言模型具備更好的繁體中文處理能力,訓練方法是自動化分析明代和清代人物的生平,建構自動化的歷史人物、事件、時間、地點等事理圖譜,訓練所使用的資料包括繁體中文版維基百科、臺灣碩博士論文摘要、來自中國開源的任務資料集 COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。

中研院資訊所表示,產出超乎預期的內容是未來要改善的地方,目前先將測試版下架,未來對於相關研究及成果的釋出會更加謹慎,未來釋出前院方會擬定審核機制,避免產生類似問題。