摘要:現在大數據智能萬眾矚目,我們不妨心中默念凜冬將至。
第五章・主體模型 智能摘要的利器#
解決什麼問題#
-
【背景】 互聯網的文本數據在不斷增加。
-
【問題】 如何能夠快速地了解和獲取一個文本數據集合中主要覆蓋的內容,以及如何分析每個文本文檔中所包含的主要語義信息。
-
【本質】對於文本數據集合提供內容摘要、語義抽取和語義表示的功能需求。
什麼原理#
-
主題模型提供了一種建模思路、方法和工具,可以從大規模甚至海量文本集合中抽取主題和主題分布,其生成的結果既可以用來對語料集合進行初步的語義分析,也可以作為其他高級語義分析挖掘任務的 “高階知識”。
-
通過主題抽取,可以很方便地獲得一個語料集合上的主要語義信息,每個主題可以理解成一個在所有詞彙上的權重,通過選擇在一個主題內具有高權重的若干個詞彙,就可以形成主題語義信息的可視化,供用戶理解。