当站外的优化越来越难的时候,站内的优化就成为了seoer的必备技能,也是检验seo能力的体现。特别是在大型网站,站内优化尤为重要。
我之前有说过,内链的作用除了提升收录,那么就是提升用户的点击以及页面的投票等。
那么如何合理的分配和布局内链就是一个很有意思的研究了。
常用内链调用套路
所谓的内链调用,就是我们网站的内页(包括列表页、详情页以及其它聚合页面)的链接模块上的链接调用啦。
比如:最新文章、相关文章、站长推荐、tag标签云以及其它的链接模块,由于每个站都不一样,这里就不一一展开讲。
我们一般的方式就是,最新文章是调用N条最新发布的文章,相关文章也是调用最新的tag相关的文章,还有站长推荐可能就是调用那些在后台选的推荐位的内容,tag标签云也是调用最新的N条标签链接。
但是我们很快就发现以上的调用方式存在很大的问题,我们没有合理的分配内链的资源。比如最新文章,比如调用20,30条。那么这30条内容会一下子获得全站的链接推荐,但是很快又会被其它新发布的链接给替换掉了。还有就是很多当天发布的新文章,可能展示的机会都没有1秒钟就被后来发布的新文章给替换掉了(如果我们每天发布很多的文章的话)。
对于相关文章以及tag标签也存在同样的问题。而且由于这种分布的不平等,很容易导致很多的页面的层级会很深得不到很好的推荐。那么就会非常的影响蜘蛛对于整站内容的抓取。
解决不了抓取的问题,那么对于后续的提升排名什么的都是无用的。因为蜘蛛没有发现你的链接就没法计算权重获取内容啥的。
那么如何解决这种分配不均匀的问题呢?
一种很简单的方法就是随机调用,这样看起来会好很多。但是随机调用对于网站数据库的性能是很大的挑战。
因此又进行了升级,对页面进行缓存,或者生成静态页面。
但是这种方法看起来是不错,但是可控性太差了,我们没法很好的控制每个页面的链接分配。
如何解决这个问题呢?这就是我们今天的主题,shingle算法!
shingle算法介绍
shingle在英文中表示相互覆盖的瓦片。基本概念:
-
shingle 由N个字组成一个shingle,比如可以用5个字组词一个。
shingle算法其实是搜索引擎用来计算内容的相似度的,其原理是:
从文档开始位置取,每隔N个字取一个shingle,直到取完,然后计算每个shingle的签名(hash)。最后将记录完全一致的shingle数除以两个文档的shingle总数减去一致的shingle数(就是简单的集合运算)。这种算方法计算出来的数值称为jaccard系数。计算公式如下:
J = A∩B / A∪B
算法结论:对于长度L的文档,每隔N个汉字取一个shingle,这样一共取到L-N+1
个shingle。可见N的取值对于效率和效果的影响是非常大的。
实例说明一下吧,比如我们这里有两篇文档:文档1:
9月3日,林心如出席了某品牌的发布会,面对媒体的群访,她与大家分享了家人的近况。