搜索引擎文本算法

2020-11-13 17:05:07   来源:大地SEO   评论:0 点击:

SEO技术:搜索引擎文本算法

SEO技术就是不断的学习和进步、目前的搜索是第三代引擎,也就是文本索引,所有的计算都是基于文本,包括图片等等。
所以,尤其国内的搜索,非常有特色的,因为中文不同于英文,因为每个单词一个空格,标点符号也简单,而中文是以句子分段,搜索无法计算,于是开发出中文分词系统,也就是把文本分成词条序列。
中文分词是个复杂的计算系统:
在中文里,“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
所以,搜索没办法,建立了精准词库和自然词库(大地独家研究结论)。
1、SEO技术、精准词库
就是基于词典的精准词语序列。
2、SEO技术、自然词库
基于人们索引够足够的数量而形成的短语或者词语。
例如:“对随地吐痰者给予处罚”、“空调全国排名”、“向前一小步,文明一大步”……
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
分词是基础,分完成才可以进行下一步的计算。

项的产生:
中文分完的词条,实际有很多与主题无关的词语,必须清除出去,来缓解搜索的计算的压力,和存储的压力。
1、超高频无关词
2、连接词语
3、停用词
清除完后,就形成词项序列。
下一步就是计算关键词,建立倒排索引。
SEO技术、搜索会很重视标题,会把标题中的关键词作为重点计算。和内容文本的词项,通过布尔模型确定、BM25、向量空间进行相关性的计算,得到该关键词的相关度,而转化为权重值。
同时搜索会在文本中计算词项,得到现骨干型最高的词语,作为布尔模型的匹配计算。
最终获得该页的倒排的三个权重最高的词语作为该页的索引建立。
这就是一篇文章从无到有,关键词倒排建立的过程,搜索的计算还要复杂的多,这只是简单的讲解。
如果你做关键词的优化,也应该遵循这个规则,在可能成为词项的地方多下功夫。
SEO技术技术需要需要不断的充电,不断的深入研究百度的算法,而得到SEO技术的提升。



百度网盘:https://pan.baidu.com/s/1XyLEsvRfz5PzEOKfhDCeNg

提取码:ch7y




                                                                                                                                                        大地seo

                                                                                                                                        山西思学科技有限公司

<