banner
LegalGeek

LegalGeek

搞产品的法律人

刘知远等《大数据智能》|20220627

摘要:現在大數據智能萬眾矚目,我們不妨心中默念凜冬將至。

第五章・主體模型 智能摘要的利器#

解決什麼問題#

  • 【背景】 互聯網的文本數據在不斷增加。

  • 【問題】 如何能夠快速地了解和獲取一個文本數據集合中主要覆蓋的內容,以及如何分析每個文本文檔中所包含的主要語義信息。

  • 【本質】對於文本數據集合提供內容摘要、語義抽取和語義表示的功能需求。

什麼原理#

  • 主題模型提供了一種建模思路、方法和工具,可以從大規模甚至海量文本集合中抽取主題和主題分布,其生成的結果既可以用來對語料集合進行初步的語義分析,也可以作為其他高級語義分析挖掘任務的 “高階知識”。

  • 通過主題抽取,可以很方便地獲得一個語料集合上的主要語義信息,每個主題可以理解成一個在所有詞彙上的權重,通過選擇在一個主題內具有高權重的若干個詞彙,就可以形成主題語義信息的可視化,供用戶理解。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。