1. 首页
  2. seo学习

万里平台南京会场:如何利用shingle算法布局网站内链和聚合页生成

当站外的优化越来越难的时候,站内的优化就成为了seoer的必备技能,也是检验seo能力的体现。特别是在大型网站,站内优化尤为重要。

我之前有说过,内链的作用除了提升收录,那么就是提升用户的点击以及页面的投票等。

那么如何合理的分配和布局内链就是一个很有意思的研究了。

常用内链调用套路

所谓的内链调用,就是我们网站的内页(包括列表页、详情页以及其它聚合页面)的链接模块上的链接调用啦。

比如:最新文章、相关文章、站长推荐、tag标签云以及其它的链接模块,由于每个站都不一样,这里就不一一展开讲。

我们一般的方式就是,最新文章是调用N条最新发布的文章,相关文章也是调用最新的tag相关的文章,还有站长推荐可能就是调用那些在后台选的推荐位的内容,tag标签云也是调用最新的N条标签链接。

但是我们很快就发现以上的调用方式存在很大的问题,我们没有合理的分配内链的资源。比如最新文章,比如调用20,30条。那么这30条内容会一下子获得全站的链接推荐,但是很快又会被其它新发布的链接给替换掉了。还有就是很多当天发布的新文章,可能展示的机会都没有1秒钟就被后来发布的新文章给替换掉了(如果我们每天发布很多的文章的话)。

对于相关文章以及tag标签也存在同样的问题。而且由于这种分布的不平等,很容易导致很多的页面的层级会很深得不到很好的推荐。那么就会非常的影响蜘蛛对于整站内容的抓取。

解决不了抓取的问题,那么对于后续的提升排名什么的都是无用的。因为蜘蛛没有发现你的链接就没法计算权重获取内容啥的。

那么如何解决这种分配不均匀的问题呢?

一种很简单的方法就是随机调用,这样看起来会好很多。但是随机调用对于网站数据库的性能是很大的挑战。

因此又进行了升级,对页面进行缓存,或者生成静态页面。

但是这种方法看起来是不错,但是可控性太差了,我们没法很好的控制每个页面的链接分配。

如何解决这个问题呢?这就是我们今天的主题,shingle算法!

shingle算法介绍

shingle在英文中表示相互覆盖的瓦片。基本概念:

  • shingle 由N个字组成一个shingle,比如可以用5个字组词一个。

shingle算法其实是搜索引擎用来计算内容的相似度的,其原理是:

从文档开始位置取,每隔N个字取一个shingle,直到取完,然后计算每个shingle的签名(hash)。最后将记录完全一致的shingle数除以两个文档的shingle总数减去一致的shingle数(就是简单的集合运算)。这种算方法计算出来的数值称为jaccard系数。计算公式如下:

J = A∩B / A∪B

算法结论:对于长度L的文档,每隔N个汉字取一个shingle,这样一共取到L-N+1个shingle。可见N的取值对于效率和效果的影响是非常大的。

实例说明一下吧,比如我们这里有两篇文档:文档1:

9月3日,林心如出席了某品牌的发布会,面对媒体的群访,她与大家分享了家人的近况。

标题:《万里平台南京会场:如何利用shingle算法布局网站内链和聚合页生成》作者:祖冬;学海无涯,欢迎大家分享,如有侵权请联系作者,本文链接:http://www.chinanumberone.net/seostu/10050.html

联系我们

QQ:1103468417

在线咨询:点击这里给我发消息

邮件:1103468417@qq.com

工作时间:周一至周六,9:30-23:30,节假日休息!

有网站的直接留言网址和关键词。

 

QR code