原标题:探索不同优化算法:揭秘搜索引擎查询优化的核心算法机制
导读:
Intro...
搜索引擎优化搜索的算法是怎样的 计算公式如下(P为查准率,R为查全率): 精确度=提取出的准确信息条数/提取出的信息条数 回忆度=提取出的准确信息条数/样本中的信息条数 两者的取值在0和1之间,数值越接近1,查全率或查准率就越高。 以下是查全率和查准率的加权几何平均值,F值评价方法: F=(b^2+ 1)* PR/ b^2P+ R 其中b是一个预设值,是P和R的相对权重, b大于1时表示P更重要,b小于1时表示R更重要。 通常设定为1,表示二者同等重要。 这样用F一个数值就可看出系统的好坏,F值也是越接近1越好。 另:查准率和召回率在作为搜索引擎性能的度量时: 精确度=搜索到的相关文档数/搜索到的全部文档数 回忆度=搜索到的相关文档数/系统全部相关文档数 搜索引擎关键字如何优化 1.搜索引擎营销(SEM) 搜索引擎营销(SEM)英文全称为Search Engine Marketing,意指通过搜索引擎进行服务和产品的营销。搜索引擎营销又主要分为两种:搜索引擎优化(SEO)和付费点击(PPC,Pay-Per-Click)。搜索引擎优化(SEO)指通过优化网站和页面并让它们在搜索结果的页面中展示,而付费点击(PPC)指通过购买搜索引擎的点击将用户带到自己的网站。(通常)这些点击来自搜索结果页面中的“赞助商链接”(译注:显然不适用于百度)。 2.反向链接(Backlink) 反向链接(Backlink)又称为“回指链接”“入链”和“简易链接”,指从其他网站指向你的网站的一个超级链接。反向链接之所以对SEO异常重要,是因为它们直接影响一个网页的页面等级(PageRank),以及这个页面在搜索结果中的排名。 3.页面等级(PageRank) 页面等级( PageRank)是Goolgle用来评估一个页面相对于其他页面的重要性的一个算法规则。这个算法规则最基本的意思就是说,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,再根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要,页面等级(PageRank)也就越高。 4.链接诱饵(饵链)(Linkbait) 链接诱饵(Linkbait),顾名思义这是一个网站或一个博客上为了尽可能多地吸引反向链接(目的是提高网站的PR值)而存在的一段内容。通常,这些做为诱饵的内容为文字内容,但也可以是一段视频、一张图片、一个测验或其他的热门的内容。最经典的诱饵内容的例子是“十大(Top 10)”,因为这样的内容在一些社交网站很容易流行起来成为热门话题(译注:这个话题貌似已经臭街了)。 5.互链工厂或互链作坊(Link farm) 互链工厂或互链作坊(Link farm)是指很多网站(通常数量很大)为了提高组成一个类似车间或作坊式的团体,通过彼此的互相链接来提高团体每一个的网站的页面评级的手段。早期,这种方法很有用,但现在已经成为一种不耻的作弊手段(并可能会收到惩罚)。 6.锚文本(Anchor text) 锚文本(Anchor text)在反向链接中是指一个页面中可点击的文本,而其中的关键词对搜索引擎优化(SEO)有很大的帮助,因为Google会将这些关键词和你的内容关联起来。 7.链接属性-NoFollow Nofollow是网站管理员使用的一个链接属性,其目的是告诉搜索引擎他们并不是为该链接所指向的网站投票。这种链接也可能是网站用户自己创造的内容(比如博客评论中的链接),或者是一个付费交易的链接(比如广告或赞助商的链接)。当Google识别到这些反向链接的NoFollow属性后,基本就不会在页面评级和搜索结果排名的算法中将这些链接的贡献计算在内了。 8.链接修饰(Link Sculpting) 链接修饰(Link Sculpting)是指网站管理员对网站上其他网站的反向链接进行属性设置。比如,管理员给链接添加Nofollow属性,这可以让管理员决定利用自己的网站为具体某个网站提高页面评级,或者不帮助具体某个网站提高网页评级。不过,现在这种做法的作用已经微乎其微,因为Google已经决定要用自己的算法来决定怎么处理链接的Nofollow属性。 9.页面标题(Title Tag) 页面标题(Title Tag),顾名思义是指一个页面的标题中,这也是Google搜索算法中最重要的一个参考。理论上,你的页面标题要独一无二并尽可能多地包括页面内容中的关键词。你在浏览网页时可以从浏览器最上方看到一个网页的标题。 10.元标签(Meta Tags) 元标签(Meta Tags)和页面标题一般,主要用于为搜索引擎提供更多关于你页面内容的信息。元标签位于HTML代码的头部,还有就是对长眼睛的访客是不可见的。 11.搜索算法(Search Algorithm) Google的搜索算法是为了给每一次搜索请求找到最为相关的网站和页面而设定。这个算法考量的因素超过200种(谷歌自称),其中包括页面等级、标题、元标签、网站内容,以及域名的年龄等。 12.搜索结果页面(SERP) 搜索结果页面(SERP)的英文全称为Search Engine Results Page.基本上,这就是你平时在Google键入关键词回车后的页面了。你的网站从这个页面得到的流量取决于你的网站在搜索结果中的排名等级。 13.沙盒(Sandbox) Google除了所有网站的索引之外,还有一个单独的索引沙盒,那里面是新近发现和收录的网站。当你的网站存在这个沙盒之中时,它就不会在一般的搜索结果中出现,而只有当Google确认了你的网站是合法的,这才会将其从沙盒中移出进入所有网站的索引。
Google除对全部网站的索引外,还特设了一个独立索引的沙箱,其中收纳了近期发现和纳入的网站。一旦你的网站被置于这个沙箱之内,它便不会在常规的搜索结果中显现,唯有当Google确认你的网站合法无误,才会将其从沙箱中移除,纳入所有网站的索引之中。
14.关键词密度(Keyword Proportion) 如何判定一个特定页面的关键词密度?只需将关键词出现的频率除以页面总词数即可。关键词密度曾是搜索引擎优化中的关键因素,因早期搜索算法对此极为重视,然而时至今日,其重要性已逐渐降低。
15.关键词堆积(Keyword Overloading) 由于早期搜索算法对关键词密度极为看重,站长们便采取人工堆积关键词的手段来欺骗和误导搜索引擎。这种手段被称为关键词堆积,但现已失去效用,甚至可能因此遭受惩罚。
16.障眼法(Deception) 障眼法(Deception)是指通过代码在相同页面上让机器人和真人看到不同内容的行为。其目的是为了通过关键词提升页面评级,而真实目的是推销和销售各种无关产品或服务。当然,这也是一种作弊手段,有很大可能受到搜索引擎的惩罚,甚至被剔除。
17.网络爬虫或网络蜘蛛(Web Spider) 网络爬虫或网络蜘蛛(Web Spider)简称爬虫或蜘蛛,代表搜索引擎在网络中浏览,目的是发现新的链接和页面,这是进行索引的第一步。
18.**内容(Repetitive Content) **内容(Repetitive Content)也称为“重复内容”,通常指一个页面引用了站内或站外的大段实质内容,或者存在完全相同和极其相似的情况,这也是一个网站应尽量避免的情况,否则很容易使你的网站受到惩罚。
19.标准链接(Standard URL) 标准链接(Standard URL)是指一个网页的链接必须符合规范和标准。
20.机器人协议(Robots.txt) 机器人协议(Robots.txt)实际上是一个TXT文本文件,位于你域名根目录下,作用是向爬虫和蜘蛛传达网站目录结构信息,并限制其对特定文件夹和内容的访问,或者完全将其拒之门外。