- 取得連結
- X
- 以電子郵件傳送
- 其他應用程式
今年 COSCUP 分享題目「生成式 AI 於 Wikidata 中的寫作應用 -- 從資料完整性到資料協作品質」探討使用生成式 AI 在維基數據中的應用,包括從文本辨識屬性、分析屬性間關係、檢查來源可靠性,以及改善屬性完整性,透過人與 AI 協作,增加 Wikidata 內容可靠與準確性。
![]() |
Made with DALL-E. Inspired by Direct Media on StockSnap |
什麼是維基數據 (Wikidata)?
維基數據 (Wikidata) 是「一個開放的、多種語言的線上資料庫,收集各種資訊並以易於理解和使用的方式組織,供網路百科全書和其他網站使用,也讓任何人都能免費取用這些資料。」(詳見維基數據的簡介)
維基數據至 2012 年 10 月開站,至今年 3 月已經累積 21 億次編輯。
如何判斷是善意貢獻或惡意破壞?
一個開放的的線上資料庫每天面對可能來自大量匿名的編輯。如何判斷是善意貢獻或惡意破壞?
一、由工人智慧 (人工) 方式巡邏內容:例如其他人加入撲克牌網站連結,肉眼可以很快速地察覺與復原。好的內容也可以依照維基百科「頁面評級」或維基數據「項目品質」檢核表,人工評比頁面。
二、採用規則協助識別破壞內容:例如當大量被破壞內容都與撲克牌、賭場有關,就可以寫成規則,由電腦識別破壞內容。
三、使用機器學習協助識別破壞內容:採用規則方式的缺點是可能誤刪善意編輯的內容,例如與撲克牌主題有關的條目,需要額外增加其他規則時,就會連動地造成多組規則間可能衝突、更難維護。採用機器學習方式,例如 2013/12 前的「客觀文章修訂評估服務」 (Objective Revision Evaluation Service,簡稱 ORES) 或之後的 Lift Wing 更通用的模型託管平臺。粹取文章中的特徵,例如「預測編輯是否可能最終被回退」壞詞偵測使用到 TF-IDF 統計方法,計算文章中重要詞彙的權重、「預測一篇條目或草稿的的評估等級」則從文章結構特徵進行預測,例如:有多少章節?有資訊框麼?多少個參考資料?使用 cite 模板? 但不評估寫作品質,或是否有語氣、觀點問題。
使用生成式 AI 協作
分享中提出四種協作方式:(1) 從文本辨識「屬性」、(2) 從文本辨識「屬性」間的關係、(3) 檢查可靠來源、(4) 改善「屬性」完整性。
Wikidata 的「屬性」(property) 可以理解是 Excel 的欄位名稱,詳細說明:
屬性描述了敘述中的資料值,可以被視為一種資料的類別,例如,資料值「藍色」的屬性為「顏色」。屬性與值配對後,在 Wikidata 中形成一個敘述 (statement)。屬性也用於修飾符。屬性在 Wikidata 上有自己的頁面,並與項目連接,形成一個連結的資料結構。(資料來源:Wikidata)
(1) 從文本辨識「屬性」
以前「自然語言處理」 (NLP, Natural Language Processing) 要粹取「屬性」可以透過「命名實體識別」(NER, Named Entity Recognition) 技術。例如我要從「4所大專校院明天退場 明道大學生安置到輔大、逢甲」新聞中,找出被廢校的學校名稱。
使用中研院 CKIP CoreNLP 實體辨識的結果:
![]() |
CKIP CoreNLP 網站截圖 |
根據我提供的新聞
列出廢校的學校名稱,以列點格式輸出
如果沒有則直接回答無
🤖 使用不同大型語言模型 ChatGPT-4o、Claude-3-Sonnet (POE)、Llama-3.1-405B-T (POE) 和 Google Gemini,都可以順利完成這項任務。
(2) 從文本辨識「屬性」間的關係
一個陳述是一項關於某個條目的資料,記錄在該條目的頁面上。陳述由一個主張(屬性-數值對,例如“位置:德國”,以及可選的限定符)組成,並通過參考資料(提供主張的來源)和排名(用於區分包含相同屬性的多個主張;默認為“正常”)來加以補充。Wikidata 不對陳述的正確性做任何假設,而僅僅是收集並將其與來源一起報告。“陳述”這個術語經常與“主張”互換使用,但技術上它只有在至少添加了一個參考資料後才成為陳述。(資料來源:Wikidata)
步驟1: 從新聞粹取廢校的校名(新聞略 ...)步驟2:廢校的校名作為 <label>請詳細閱讀我提供的 Property, Statement 定義,以及上傳的檔案Property 的 ID, label, description, Data type- Property: Property describes the data value of a statement ...完整 Property 清單請看附檔- Statement: A Statement is a piece of data about an item ...提供 <label> 的 Property, Statement 關連 (可能多值)輸出格式:- <label>- Property 的 ID (例如: P6), Property 的 label (例如: head of government)- Property 對應的欄位值 (需遵守 Property 的 Data type)
(3) 檢查可靠來源
根據知識檔案建立內容品質的檢核表,並根據檢核表檢查網路文章內容的品質以及是否可信輸出格式:根據檢核項目做成表格欄位分別是檢核項目、參照的新聞片段、評價、詳細解釋(如果部份檢核項目無法評估,則直接回答無法評估)最後並給予綜合評價使用台灣常用的繁體中文回答
將文章內容改成可執行稽核的檢核表'''(手動貼上文章)'''
依據網路文章稽核綜合檢核表,檢查我等一下提供給你的新聞文章輸出格式:根據檢核項目做成表格欄位分別是檢核項目、參照的新聞片段、評價、詳細解釋(如果部份檢核項目無法評估,則直接回答無法評估)最後並給予綜合評價使用台灣常用的繁體中文回答
(4) 改善「屬性」完整性
對於新聞有興趣的使用者,查找資料時,根據 Property 清單,還需要哪些Property 但是新聞內容沒有提到?輸出表格格式欄位:1. Property 的 ID (例如: P6)2. Property 的 label (例如: head of government)3. 推薦程度,用 1~5 顆星排序4. 解釋原因
![]() |
coze 網站截圖 |
結語
簡報檔案
參考資料
- [Wikidata-l] wikidata.org is live (with some caveats) - Wikidata - lists.wikimedia.org
- Wikidata 「2024年3月12日:維基數據上出現了第21億次編輯。」
- 維基百科:頁面評級 - 維基百科,自由的百科全書
- Wikidata:Item quality - Wikidata
- Machine Learning/Modernization - MediaWiki
- Wikidata Knowledge Graph to Enable Equitable and Validated Generative AI - Jonathan Fraine & Lydia Pintscher, Wikimedia Deutschland - YouTube
- Generative AI Commons
- 《刺客教條:暗影者》成國際問題?彌助維基被爆故事史實化、作者把黑奴買賣推給日本人
留言