要約:知識グラフの構築の一般的なアプローチと法律業界における知識グラフの構築の特徴と問題を整理します。
名詞の説明#
オントロジー(Ontology)#
概念:客観的な世界から抽象化された概念モデルであり、ドメイン内で共通に認識される概念、属性、および概念間の関係を表します。
役割:知識グラフ内では、オントロジーは知識グラフの抽象的な表現であり、知識グラフの上位スキーマを記述し、常識または比較的一定の知識を反映しています。情報価値を持たず、知識グラフのスキーマレイヤーと呼ばれます。
例:「原告」は民事訴訟の領域の概念であり、原告には「訴訟請求」などの関連する概念もあります。
インスタンス(instances)#
概念:オントロジーに対応する具体的な存在、属性、または関係。
役割:インスタンスの抽出と利用は、知識グラフが情報価値を得るための鍵です。知識ベースの形成は、オントロジーのインスタンス化に依存しており、インスタンスは知識グラフのデータレイヤーを構成します。
例:例えば、「張三」が特定の民事訴訟事件で原告の立場にある場合、「張三」はオントロジー「原告」のインスタンスです。
エンティティ(Entity)#
概念:オントロジー + インスタンスの統合であり、オントロジー、インスタンス、および関係の統合です。
例:たとえば、「原告」はオントロジーの概念であり、概念には「訴訟請求」などの関連する属性が定義されています。「張三」は特定の事件での原告であり、インスタンスとして、また「張三」を表すオントロジーの概念「原告」と関連する属性を持つエンティティとして扱われます。
知識グラフの業界の現状#
知識グラフの業界の現状分析は、知識グラフの分類と典型的な応用、知識グラフの構築モデルの 2 つの側面から行われます。目的は、業界の技術ソリューションの現状を把握し、法律知識グラフの位置づけと構築パスの可能な参考を明確にすることです。
知識グラフの分類と典型的な応用#
知識グラフは、オープンな知識グラフ(または一般的な知識グラフ)と垂直領域の知識グラフ(または業界知識グラフ)に分けることができます。オープンな知識グラフは、ほぼすべての領域の重要な概念、インスタンス、およびそれらの関係を含んでおり、知識のカバレッジの広さを強調しています。一方、垂直領域の知識グラフは、特定の領域または複数の特定の領域に基づいて構築された知識ベースであり、正確性を重視しています。
以下は収集・整理した典型的な知識グラフの概要であり、注目すべきは:グラフの名前、エンティティの数、関係の数、知識ソースフィールドなどの情報です。これらは、知識グラフの評価分析の一般的な側面であり、法律業界の知識グラフの構築においても焦点となります。
オープンな知識グラフ(一般的な知識グラフ)#
- オープンな知識グラフ、または一般的な知識グラフとして知られるものの、国内の一部の典型的な事例は以下の通りです
- 国外の一部の典型的な一般的な知識グラフ
垂直領域の知識グラフ(業界知識グラフ)#
- 垂直領域の知識グラフ、または業界知識グラフとして知られるものの、国内の典型的な垂直領域の知識グラフの応用事例は以下の通りです
2 つのグラフの比較#
垂直領域は知識グラフのすべての特徴を備えており、一般的な知識グラフのさまざまな技術を取り入れて自己の発展を促進する必要があります。
ただし、垂直領域自体の特性により、一般的な(オープン)知識グラフと比較して、知識の特性、知識のソース、アプリケーション領域、および受け手において大きな違いがあります。特に構築方法については、統一された成熟した構築プロセスはまだ存在せず、知識の取得、統合などの重要な技術領域はまだ探索段階にあります。
知識グラフの構築モデル#
一般的に、知識グラフの構築方法は 3 つあります:ボトムアップ、トップダウン、およびハイブリッドの方法です。前 2 つの主な違いは、「オントロジーの構築」と「インスタンスの抽出」の順序が異なる点です。具体的な分析は以下の通りです:
ボトムアップの構築モデル#
構築方法:ステップ 1:インスタンスの抽出。非構造化データや半構造化データソースからインスタンスや関係を抽出し、データレイヤーに追加します。ステップ 2:オントロジーの構築。処理済みのデータレイヤーに対して概念の抽象化を行い、最終的にスキーマレイヤーを形成します。
応用シナリオ:大規模な知識グラフの構築に適しており、DBpedia、zhishi.me、WordNet、大辞林などの百科事典や言語学の知識グラフに主に適用され、意味検索に使用され、知識の広範さを強調し、正確性の要件は高くありません。
主な欠点:厳密なオントロジーレイヤーの構築が困難であり、正確性が高くありません。
トップダウンの構築モデル#
構築方法:ステップ 1:オントロジーの構築。最上位の概念から始めてトップレベルのオントロジーを構築し、概念と関係を詳細化して、概念の階層構造を形成します。このプロセスでは、いくつかのデータソースを使用してオントロジーを抽出する必要があります。ステップ 2:インスタンスの抽出。抽出されたインスタンスや関係を構築されたスキーマレイヤーのオントロジーにマッチングしてデータレイヤーを形成します。
応用シナリオ:特定の領域に適用され、知識推論、分析支援などの機能を実現することができます。例えば、中医医案知識グラフなどです。業界知識グラフは専門性と正確性の要件が高く、厳密なオントロジーレイヤーが必要です。
主な欠点:人間の依存度が高く、オントロジーレイヤーの更新が制限されます。一般的にはデータ量が少ない知識グラフの構築に適しています。
ハイブリッドモデル#
構築方法:ステップ 1:初期インスタンスの抽出。データを初期的に抽出します。ステップ 2:オントロジーの構築。抽出結果に基づいて、新しい知識とデータをまとめてオントロジーを構築し、オントロジーの構築と反復を支援します。ステップ 3:インスタンスの抽出。更新されたスキーマレイヤーに基づいて新しいラウンドのインスタンス抽出を行います。
応用シナリオ:例えば、Baidu Knowledge Graph は、内部および外部のデータおよびユーザーデータを使用してハイブリッドな方法で構築されました。
主な問題:初期インスタンスの抽出の根拠が明確でない場合、一定の基礎的な前処理経験が必要な場合があります。
まとめ
一般的には、3 つの知識グラフの構築方法のうち、トップダウン法は概念の階層をよりよく表現することができますが、人間の依存度が高く、オントロジーレイヤーの更新が制限されます。また、データ量が少ない知識グラフの構築に適しています。一方、ボトムアップ法は更新が速く、大規模なデータ量をサポートする知識グラフの構築に適していますが、ノイズが多く、正確性が高くありません。ハイブリッド方法は柔軟性がありますが、オントロジーレイヤーの構築が困難です。
法律知識グラフの構築アプローチ#
法律業界の知識グラフは、強いドメイン特性を持っており、知識グラフの構築においては技術的なパスの可行性だけでなく、業界の要求と関心事を分析する必要があります。
法律思考と一般的なビッグデータ思考の衝突#
演繹的思考の衝突
法律は社会的な規範であり、自然科学とは異なるアプリオリな追求を持っています。法律の施行は三段論法の論理的な枠組みの中で行われます。一方、一般的なビッグデータの認識論は経験主義的な帰納法を強調しています。
因果関係の思考の衝突
法律思考と法的手法では因果関係が非常に重要な役割を果たしています。これに対して、経験主義的なビッグデータの認識論は「因果関係の分析を排除する」という考え方を強調しています。
論理的思考の衝突
司法プロセスは通常、重要な合意形成メカニズムと見なされています。すべての決定は証明、推論、審議に基づいて行われる必要があります。したがって、法律思考は解釈と論理的な推論を強調します。現在、一般的なビッグデータで広く使用されているディープラーニングアルゴリズム、特にニューラルネットワークアルゴリズムは、解釈性の不足のために法律関係者から疑問視されています。
「データ駆動」から「知識 + データ駆動」へ#
上記の業界知識グラフの構築経験と法律業界固有の思考の衝突分析に基づいて、知識グラフの構築方法を探究する際に、以下のパスが示されます:
法学理論に基づいて、ドメインオントロジーを科学的に確定することは、知識グラフの構築の前提条件です#
まず、典型的な業界知識グラフとして、ドメインオントロジーを事前に設定して、探索分析の境界を明確にする必要があります。次に、解釈の懸念を解消するために、法学理論をオントロジーの構築に参加させる必要があります。例えば、刑事犯罪に関する「四要件」や「三層構造」理論、民事事件に関する「請求権の基礎」理論などを使用して、オントロジーの構造と各部分の関係を明確にします。さらに、法律領域のオントロジーの構築は、ビジネスシナリオの要件と関連付ける必要があり、異なる法的資料に基づいて異なるサブドメインのオントロジーセットを形成します。
法学の知識に基づいて、データセットを細かく定義することは、インスタンス抽出のための準備として必要です#
法律データは複雑で多様であり、タイプもさまざまで、価値も異なります。粗悪な入力データは避けられない誤った出力を生み出すため、ゴミ入れ、ゴミ出し(英語:Garbage in, garbage out)を防ぐために、法学の専門知識に基づいて法的素材データを分類し、識別する必要があります。たとえば、判決文書の利用時には、法的変遷の時間軸、事件の種類、地域などを考慮する必要があります。
法学の知識に基づいて、インスタンス抽出ルールを細かく定義することは、データ品質と正確性の保証です#
インスタンス抽出ルールの定義も、法学の専門知識に基づいて行う必要があります。たとえば、裁判文書の場合、同じ法的概念がテキスト内で複数回出現することがありますが、概念の確定は前後で矛盾する場合があります。例えば、刑事事件で被告人が自首に該当するかどうかは、検察機関、被告人、裁判所の意見がまったく異なる場合があります。特定の要素の抽出は、特定の段落に制限することで正確性を保証する必要があります。
知識グラフの応用段階でも、法学理論を分析結果の解釈の枠組みとして取り入れるべきです#
知識グラフの出力結果を解釈する際には、推論の根拠とプロセスを明示的に表示する必要があります。たとえば、類似の事件の推奨機能の場合、判断基準を明確にする必要があります。特定の法的オントロジー要素を含み、オントロジー間の関係が一致する場合にのみ満たされる場合です。オントロジーの構築時に確定された解釈の枠組みを使用して、実際の個別事例を解釈します。
参考文献:
[1] 黄恒琪,于娟,廖晓,等。知識图谱研究综述 [J/OL]. 计算机系统应用,2019, 28 (6): 1-12. DOI:10.15888/j.cnki.csa.006915.
[2] 陈雅茜,邢雪枫。基于本体建模的动态知识图谱构建技术研究 [J]. 西南民族大学学报 (自然科学版), 2021, 47 (3): 310-316.
[3] 王禄生。论法律大数据 “领域理论” 的构建 [J/OL]. 中国法学,2020 (2): 256-279. DOI:10.14111/j.cnki.zgfx.2020.02.014.