banner
LegalGeek

LegalGeek

搞产品的法律人

法律知識圖譜的構建

摘要:梳理知識圖譜構建通用思路,以及法律行業知識圖譜構建的特色及問題。

名詞解釋#

本體(Ontology)#

概念:從客觀世界中抽象出來的一個概念模型,表達領域內共同認可的概念、屬性和概念間的關係。

作用:在知識圖譜當中,本體是知識圖譜的抽象表達,描述知識圖譜的上層模式,反映的是常識或相對恆定的知識,不具備情報價值,被稱為知識圖譜的模式層

舉例:如 "原告" 是民事訴訟領域的一個概念,原告同時具有一些相關概念,例如 “訴訟請求”。

實例(instances)#

概念:客觀世界當中與本體對應的,具體的存在、屬性或關係。

作用:實例的抽取和利用是知識圖譜獲得情報價值的關鍵。知識庫的形成,依賴本體的實例化,實例構成了知識圖譜的數據層

舉例:例如 “張三” 在某個民事訴訟案件當中處於原告地位,“張三” 就是本體 “原告” 的一個實例。

實體(Entity)#

概念:簡單理解就是本體 + 實例,是本體、實例及關係的整合。

舉例:比如 “原告” 是本體中的一個概念,概念中也規定了相關屬性比如 “訴訟請求”,“張三” 是一個具體案件當中的原告,叫做實例,所以張三也有訴訟請求,張三以及體現張三的本體概念 “原告” 以及相關屬性,叫做一個實體。

知識圖譜行業現狀#

知識圖譜行業現狀的分析,從知識圖譜的分類與典型應用、知識圖譜的構建模式兩個部分進行切入。目的是了解行業技術方案現狀、釐清法律知識圖譜的定位和可能參考的構建路徑。

知識圖譜的分類與典型應用#

知識圖譜可以分為開放知識圖譜(又被稱為:通用知識圖譜,generic knowledge graph)和垂直領域知識圖譜(又被稱為:行業知識圖譜, domain knowledge graph),其中開放知識圖譜包含幾乎所有領域的重要的概念、實體及其之間的關係,強調知識的覆蓋廣度;領域知識圖譜則是基於某一個或若干個特定領域所構建的知識庫,強調知識的準確程度。

以下是搜集整理的典型知識圖譜簡介,可重點關注:圖譜名稱、實體數量、關係數量、知識源字段等信息,這是對知識圖譜進行評價分析的常用維度,在構建法律行業知識圖譜時,同樣是關注的焦點。

開放知識圖譜 (通用知識圖譜)#

  • 開放知識圖譜,也被稱為通用知識圖譜,國內部分典型案例如下

  • 國外部分典型通用知識圖譜

垂直領域知識圖譜 (行業知識圖譜)#

  • 垂直領域知識圖譜,也被稱為行業知識圖,國內典型垂直領域知識圖譜應用案例

兩種圖譜的比較#

垂直領域本身具備知識圖譜的所有特點,也應該吸收通用知識圖譜的各種技術來促進自身的發展。

但是應當注意:由於垂直領域本身的特點,與開放(通用)知識圖譜相比,在知識特點、知識來源、應用領域、受眾方面都有較大不同。特別是在構建方法上,目前尚無統一成熟的構建流程,在知識獲取、知識融合等關鍵技術領域仍處在探索階段。

知識圖譜的構建模式#

一般認為,知識圖譜的構建方法有三種:自底向上、自頂向下和二者混合的方法。前兩者的主要區別是:“本體構建” 與 “實例抽取” 的先後順序不同,具體分析如下:

自底向上的構建模式#

構建方法:step 1:實例抽取。 首先從一些非結構化數據、半結構化數據源中抽取實例、關係等,將其加入到知識庫中形成數據層; step 2:本體構建。 對已經處理好的數據層進行概念抽象,最後形成模式層。

應用場景:適用於數據量較大的知識圖譜的構建,如百科類的 DBpedia、zhishi.me 和語言學類的 WordNet、大詞林等,主要應用於語義搜索,強調知識的廣度,對知識的準確度要求不高。

主要劣勢:較難構建規範的本體層、準確性不高。

自頂向下的構建模式#

構建方法:step 1:本體構建。從最頂層的概念開始構建頂層本體,然後細化概念和關係,形成結構良好的概念層次樹,過程中需要利用一些數據源提取本體,即本體學習;step 2:實例抽取。將抽取得到的實例、關係匹配填充到所構建的模式層本體中,形成知識圖譜的數據層。

應用場景:面向特定領域, 能夠進行知識推理,實現輔助分析及決策支持等功能,如中醫醫案知識圖譜等。行業知識圖譜對專業性與準確度的要求高,這也要求其必須有嚴格的本體層模式。

主要劣勢:人工依賴性強、本體更新受限專業人員能力,一般適用於數據量小的知識圖譜構建。

混合模式#

構建方法:step 1:初始實例抽取。對數據進行初步實例抽取;step 2:本體構建。根據抽取結果,對新到的知識和數據進行歸納總結,輔助本體構建和迭代;step 3:實例抽取。基於更新後的模式層進行新一輪的實例抽取。

應用場景:如百度知識圖譜,就是利用內外部以及用戶數據採用混合方法構建所得。

主要問題:初始實例抽取的依據不明,可能需要有一定基礎或前置處理經驗。

小結

一般認為:三種知識圖譜構建方法,自頂向下法較好體現概念間層次,但人工依賴性強、模式層更新受限,僅適用於數據量小的知識圖譜構建;自底向上法更新快、支持大數據量的知識圖譜構建,但知識噪音大、準確性不高;混合方法靈活性強,但模式層構建難度大。

法律知識圖譜的構建思路#

法律行業知識圖譜具有強烈的領域特色,在知識圖譜的構建中,除了考慮技術路徑可行性,也需要對行業需求和關注點進行分析。

法律思維與通用大數據思維的衝突#

演繹思維衝突
法律是一種社會規範,有不同於自然科學的應然追求。法律的施行,是在三段論的邏輯框架下進行的演繹。與之相反,通用大數據認識論則強調經驗主義的歸納。

因果思維衝突
在法律思維和法律方法中因果性占據著十分重要的地位。這與經驗主義的通用大數據認識論強調的 “去因果分析” 不相兼容。

說理思維衝突
司法過程通常被視為一種重要的凝結共識機制。任何決定都必須在證明、推理與審議的基礎上作出。因此,法律思維強調解釋說理。當前,在通用大數據中使用較為普遍的深度學習算法,尤其是神經網絡算法就因為可解釋性的不足而持續面臨法律人的質疑。

從 “數據驅動” 到 “知識 + 數據驅動”#

上述行業知識圖譜建設經驗,以及法律行業特有的思維衝突分析對我們在探討知識圖譜的構建方法時,具有路徑上的指引:

依據法學理論,科學確定法律領域本體,是知識圖譜構建的前置環節#

首先,作為典型的行業知識圖譜,需要通過預先設定領域本體,來明確挖掘分析的邊界;其次為了解決可解釋性的擔憂,需要引入法學理論參與到本體層的構建當中,例如針對刑事犯罪的 “四要件”、“三階層” 理論,針對民事案件的 “請求權基礎” 理論,來明確本體構建的結構和各部分的關係。另外,法律領域本體的構建需要與業務場景需求進行關聯,面向不同法律材料形成不同的子領域本體集。

依據法學知識,精細劃分抽取的數據集,是進行實例抽取的必要準備#

法律數據材料紛繁複雜,類型多樣、價值高低不一,輸入粗劣的數據將不可避免地產生錯誤的輸出,為避免垃圾進,垃圾出(英語:Garbage in, garbage out)就需要依據法律專業知識對法律素材數據進行分類、鑑別。例如在利用裁判文書時,需要考慮法律變遷時間節點、案由、地區等因素。

依據法學知識,細致定義實例抽取規則,是數據質量和準確率的保障#

實例抽取規則的定義,同樣需要結合法律專業知識。以裁判文書為例,相同的法律概念可能在文本當中多次出現,但對概念的認定可能存在前後矛盾,比如在刑事案件中對被告人是否構成自首,檢察機關、被告人、法院的意見可能是截然相反的,依據裁判文書的行文思路,寫在裁判分析過程段(以 “本院認為……” 開頭)才是最終認定結論。特定要素的提取,只有限定在特定的段落才能保證準確性。

知識圖譜的運用環節,也應當將法學理論作為分析結果的解釋性框架#

在對知識圖譜輸出結果進行解釋的環節,需要對推理依據和過程進行顯性展示,例如對於相似案件的推薦功能,需要明晰判斷類案的依據,例如同時滿足包含特定法律本體要素,且本體之間的關係是一致的。通過在本體構建時確定的解釋性框架,對實際個案進行解釋。


參考文獻:

[1] 黃恆琪,于娟,廖曉,等。知識圖譜研究綜述 [J/OL]. 計算機系統應用,2019, 28 (6): 1-12. DOI:10.15888/j.cnki.csa.006915.

[2] 陳雅茜,邢雪楓。基於本體建模的動態知識圖譜構建技術研究 [J]. 西南民族大學學報 (自然科學版), 2021, 47 (3): 310-316.

[3] 王祿生。論法律大數據 “領域理論” 的構建 [J/OL]. 中國法學,2020 (2): 256-279. DOI:10.14111/j.cnki.zgfx.2020.02.014.

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。