欢迎来到权重SEO优化网
首页 > SEO教程内容

语义挖掘的利器

2022-07-14 07:18:00   来源:权重SEO优化网    点击:
作者:admin

这两个文档是否相关,往往不仅取决于字面上的单词重复,还取决于单词背后的语义关联。挖掘语义关联可以使我们的搜索更加智能化。本文重点介绍了语义挖掘的利器:主题模型。主题模型是建模文本隐含主题的方法。它克服了传统信息检索中文档相似度计算方法的缺点,可以在大量互联网数据中自动找到文本之间的语义主题。近年来,各大互联网公司都开始探索和尝试这方面。让我们看看到底。

关键词:主题模型

技术领域:搜索技术、自然语言处理

假设有两句话,我们想知道它们是否相关:

第一个是:乔布斯离开了我们。

二是:苹果价 会不会下降

假如由人来判断,我们一眼就知道,虽然这两句话之间没有公共词语,但还是很相关的。这是因为,虽然第二句中的苹果可能是指吃苹果,但我们自然会把苹果理解为苹果的产品,因为第一句中有乔布斯。事实上,搜索引擎算法中经常遇到这种语句之间的相关性和相似性。例如,用户输入一个query,我们需要从大量的网页库中找到最相关的结果。这里涉及到如何衡量query与网页相似的问题。人们可以通过上下文来判断这类问题。但是机器可以吗?

事实上,在传统的信息检索领域有很多测量文档相 性方法,如经典方法VSM(方法注:VSM:Vector Space Model,向量空间模型)模型。然而,这些方法通常是基于一个基本的假设:文档之间重复的单词越多,就越有可能相 。这在实践中并非如此。很多时候,相关性取决于背后的语义联系,而不是表面的词语重复。

那么,这种语义关系应该怎样度量呢?事实上在自然语言处理领域里已经有了很多从词、词组、句子、篇章角度进行衡量的方法。本文要介绍的是其中一个语义挖掘的利器:主题模型。

什么是主题模型?

顾名思义,主题模型是一种在文本中隐藏主题的建模方法。或者上面的例子,苹果一词包括苹果和水果的主题。当我们与第一句话进行比较时,苹果的主题与乔布斯所代表的主题相匹配,所以我们认为它们是相关的。

在这里,我们先定义一下主题是什么。主题是一个概念,一个方面。它表现为一系列相关单词。例如,如果一篇文章涉及到百度的主题,如果涉及到中文搜索、李彦宏等词更高的频率出现,如果涉及到百度IBM这个主题,那么笔记本等就会频繁出现。如果用数学来描述,主题是词汇表上的条件概率分布 。单词与主题关系越密切,条件概率越大,反之亦然。

条件概率

一般来说,一个主题就像一个桶,它包含了一些可能性更高的词。这些词与这个主题有很强的相关性,或者正是这些词共同定义了这个主题。对于一段话,有些词可以来自桶,有些词可能来自桶,一段文本通常是几个主题的混合物。让我们举一个简单的例子,见下图。

主题的杂合体

以上是从互联网新闻中提取的段落。百度(红色)、微软(紫色)、谷歌(蓝色)、市场(绿色)分为四个桶(主题)。段落中包含的每个主题的单词都是用颜色标记的。从色彩分布可以看出,文字的大意是百度和市场发展。谷歌、微软这两个主题也出现了,但并非主要语义。 需要注意的是,像搜索引擎这样的词很可能出现在百度、微软、谷歌这三个主题上,可以认为一个词被放进了多个桶。当它出现在文本中时,这三个主题都有一定程度的体现。

有了主题的概念,我们不禁要问,如何获得这些主题?如何分析文章中的主题?这是主题模型需要解决的问题。让我简要介绍一下主题模型是如何工作的。

主题模型的工作原理

首先,我们从生成模型的角度来看文档和主题。所谓生成模型,就是说,我们认为一篇文章的每个单词都是通过以一定的概率选择一个主题,以一定的概率从这个主题中选择一个单词的过程获得的。然后,如果我们想生成一个文档,每个单词的概率是:

每个词语出现的概率

以上公式可以用矩阵乘法表示,如下图所示:

矩阵乘法

左边的C矩阵表示每篇文章中每个单词出现的概率;中间Φ矩阵表示每个主题中每个单词的概率.p(词语|主题),也就是说,每个桶表示每个文档中每个主题的概率p(主题|文档),可以理解为一段话中每个主题的比例。

如果我们有很多文档,比如大量的网页,我们将首先对所有文档进行分词,并获得一个词汇列表。这样,每个文档都可以表示为一个单词的集合。对于每个单词,我们可以使用它在文档中出现的次数,除以文档中单词的数量作为它在文档中出现的概率p(主题|文档)

这样,对于任何文档,左边C矩阵已知,右边的两个矩阵未知。主题模型是使用大量已知的词-文档

C矩阵,通过一系列的训练,推断出右侧的词-主题矩阵Φ?以及主题文档矩阵Θ?。

主题模型训练推理主要有两种方法,一种是pLSA(Probabilistic Latent Semantic Analysis,二是概率潜在语义分析,方法备注)LDA(Latent Dirichlet Allocation,)。pLSA主要用途是EM(期望最大化)算法;LDA采用的是Gibbs sampling方法。由于它们都较为复杂且篇幅有限,这里就只简要地介绍一下pLSA读者可以查阅其他具体的思想、方法和公式。

pLSA所用的方法叫做EM算法包含两个连续迭代的过程:E(期望)过程和M(最大化)过程。以一个形象的例子:例如,食堂大师炒一道菜,等两个人吃,显然没有必要把平衡一点准确称重,最简单的方法是随意把盘子分成两碗,然后观察是否一样多,把更多的一个放在另一个碗里,过程重复,直到你看不到两碗菜的区别

对于主题模型训练,计算每个主题中的单词分布和计算训练文档中的主题分布就像在两个人的碗里分餐一样。在E题-文档矩阵可以通过贝叶斯公式计算出来。在M过程中,我们用主题-文档矩阵重新计算词-主题矩阵。这个过程一直这样迭代。EM算法的神奇之处就在于它可以保证这个迭代过程是收敛的。也就是说,经过反复迭代,我们一定会得到现实的趋势 的 Φ和 Θ。

如何使用主题模型

我们应该如何使用主题模型?它的优点是什么?我总结了以下几点:

1) 它可以衡量文档之间的语义相似性。对于一个文档,我们提出的主题分布可以看作是它的抽象表达。对于概率分布,我们可以使用一些距离公式(例如KL距离(方法备注:KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)简称又称相对熵(Relative Entropy)。它衡量了同一事件空间中两种概率分布的差异。))计算两个文档的语义距离,以获得它们之间的相似性。

2)它可以解决多义词问题。回顾最初的例子,苹果可能是水果或苹果。通过我们提出的单词-主题概率分布,我们可以知道苹果属于哪些主题,并通过主题匹配计算其与其他单词的相似性。

3) 它可以消除文档中噪声的影响。一般来说,文档中的噪声往往是次要主题,我们可以忽略它们,只保持文档中最重要的主题。

4) 它是完全自动化的,没有监督。我们只需要提供培训文件,就可以自动训练各种概率,没有任何人工标记过程。

5) 它与语言无关。任何语言只要能分词,就可以训练得到主题分布。

综上所述,主题模型是挖掘语言背后隐藏信息的利器。近年来,各大搜索引擎公司都开始重视这方面的研发。语义分析技术正逐渐深入到搜索领域的各种产品中。在不久的将来,我们的搜索将变得更加智能,让我们拭目以待。

以上就是语义挖掘的利器的全部内容,

www.pr-seo.cn

权重SEO优化网

您好,请关注上方二维码

回复关键词“SEO诊断”

即可诊断出网站目前实际优化情况!

并根据您的网站情况为您制定最

佳的SEO优化方案!