您的位置: 游侠seo > 网站优化 > 站内优化 >
游侠SEO

搜索引擎的工作原理

  对于从事SEO的人来说,想必对百度、360、谷歌、雅虎、搜狗等搜索有很深的了解了,而相对于一个合格的SEOER来说,了解搜索引擎的爱好及算法等必然是成为日常生活的一部分了。

  作为SEO服务的对象,大家都只能是模凌俩可的概念,有的人说是服务于用户,有的人说是服务于搜索引擎,那么游侠SEO个人觉得是服务于搜索引擎收益于用户。俩者之间并没什么冲突,普遍的大家都只是把搜索引擎跳过而直接联系到用户了而已。

  SEO服务对象是搜索引擎,那么作为SEOER的我们来说,熟悉其运行规律、工作原理、习性、特征等是必不可少的,而作为一个合格的SEO来说,实践才是提升SEO技术的真理。那么搜索引擎工作原理是怎么样的呢?

搜索引擎工作原理

  从上图我们可以对搜索引擎有了一知半解的了解,其具体工作原理都分为以下几个步骤。

  1、 提取网站关键词。搜索引擎目前能够识别文字内容为主的网页,搜索引擎蜘蛛在抓取一个页面的同时也会把大量的HTML代码抓取下来,如keywords,description,title,H,css,div标签等,其主要工作是把抓取下来的链接、代码等通过搜索引擎算法来给出相应的排名。

  2、 删除无用副词。删除文字之间的无用助词,如“我”、“的”、“你”、“地”、“啊”、.“呀”、“却”、“再”、等。

  3、 搜索引擎分词技术。分词是中文搜索引擎独有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“游侠SEO的网址是多少”拆分出来的形态是“游侠”、“SEO”、“的”、“网址”“是”、“多少”。分词技术的效率直接影响到整个系统的效率。

  搜索引擎分词的方法基本上有两种:基于字符串匹配的和基于统计的分词。

  1)基于字符串匹配的分词

  按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配。

  正向最大匹配:假设词库中最长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的最后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。

  以“游侠SEO网址是多少”为例,假设词库中最长词语字数为3,正向最大匹配顺序为:

  (1)取出短语“游侠S”,检查“我是中”是否在词库中存在或是一个单字,处理方式是去掉最后面的“S”字;

  (2)检查短语“游侠”是否在词库中存在或是一个单字,处理方式是去掉“侠”字;

  (3)检查“游”字是否在词库中存在或是一个单字,“游”是一个单字,将“游”字输出;

  (4)继续取出短语“侠S”,检查“侠S”是否在词库中存在或是一个单字,处理方式是去掉最后面的“eo”字;

  (5)检查短语“侠S”是否在词库中存在或是一个单字,处理方式是去掉“s”字;

  (6)检查“侠”字是否在词库中存在或是一个单字,“侠”是一个单字,将“侠”字输出;

  (7)取出短语“SEO”,检查“SEO”是否在词库中存在或是一个单字,处理方式是去掉最后面的“好”字;

  (8)检查短语“SEO”,发现是词库中的一个词,直接输出;

  (9)检查短语“网址”,发现是词库中的一个词,直接输出;

  (10)最后输出结果为: 游侠、SEO、网址、是、多少。

  逆向最大匹配:以句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“游侠SEO网址是多少”按照正向最大匹配结果为: 游侠/S/E/O/网址/是/多少,很显然这当中差生了歧义。SEO是一个新生词,没有被正确地切分。采用逆向最大匹配的技术可以修正这个错误。例如设定一个分词节点大小为7,那么“S/E/O”中很显然“SEO”被分出来了,最后剩下“SEO”,这样一来歧义就被消除了。

  正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精准度要高于正向匹配度。

  2)基于统计分词方法

  直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。

  分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词语。如我们在搜索引擎中输入“SEO”,“网站优化”就会被判定为一个词语。现在网络上经常会出现一些新造的网络流行词语如“QAQ”、“犀利哥”等,这样的词也都会慢慢地被收录。分词词典只有不断更新才能满足我们日常搜索判断的需求。

本文为游侠seo原创文章,如想转载,请注明原文网址摘自于http://www.youxiaseo.com/seo/zn/20.html

游侠SEO
上一篇:各大搜索引擎提交入口
下一篇:网站单页面seo优化要点
您可能喜欢
回到顶部