SEO实战之资讯标签tag页面调用规则详解

2019.03.20 -  hot

   

在网站拥有大量文章之后,绝大多数网站会选择对文章进行再分类,生成相应的聚合页,这样的页面称之为TAG聚合页。由于可能之前的大部分文章没有添加文章标签或者标签不够规范,资讯标签调用相关文章只能通过搜索来实现。下面提供的一个tag标签调用文章的算法,供大家参考一下,开阔思路。

TAG标签1

根据文章对tag标签的不同匹配程度,分成了下图中四个阶梯,排序的优先顺序从上到下,具体排序规则下面说详细说明。

  1. 第一阶梯:文章标题能完整包含tag标签词的文章

    第一阶梯的文章属于tag词高度精准匹配的文章,最优先排列。比如tag词是“SEO算法”,文章标题如果完整出现“农村土地流转”这个词才算完整包含,下列文章标题属于这种情况:

  1. SEO算法都有哪些
  2.  有哪些重要的SEO算法
  3. 这些SEO算法你必须知道

多个文章标题都能完整包含tag标签词则按照文章发布时间的先后顺序排列,先排列最新发布的。第一阶梯的文章调用不限制数量,符合条件的全部展现出来。

  • 第二阶梯:tag词分词后标题能全包含的文章。

第二阶梯的文章属于tag词精准匹配的文章,仅排列在第一阶梯后面。比如tag词是“SEO算法”,分词后得到“SEO”“算法”;两个词,文章标题如果这两个词都有出现才算分词后能全包含,下列文章属于这类情况:

  1. 学习SEO这些算法你必须知道
  2. SEO们快看,百度又更新了这些算法
  3. 作为SEO,你连这些算法都不知道?

多个文章标题都能tag标签分词后完整包含则按照文章发布时间的先后顺序排列,先排列最新发布的。第二阶梯的文章调用不限制数量,符合条件的全部展现出来。

TAG2
  • 第三阶梯:tag词分词后标题部分包含

第三阶梯文章属于广泛匹配的文章,排列比较靠后。比如tag词是“农村土地流转”,分词后得到“农村”“土地”“流转”三个词,文章标题中只出现这三个词中的两个或者一个的情况。下列文章属于这类情况:

  1. 2017年湖南农村土地现状分析
  2. 全国各地土地流转形势简介
  3. 农村乡镇什么类型的土地价格最高?
  4. 农村现在做什么赚钱?

如果存在多个文章属于第三阶梯这类情况,则采用TF-IDF算法,根据每个文章标题对应的TF-IDF值排序,从大到小排列。这样更把更相关的文章排列在前面。

TF-IDF

  TF-IDF算法公式:把tag词分词后在标题中出现的每个词TF*IDF值求和。

  TF=该词在目前文章标题中出现的次数/标题总词数

  IDF=log(土流网文章总数/标题中包含这个词的文章数)

例子:对于“农村土地流转”这个tag词,“2019年湖南农村土地现状分析”和“全国各地土地流转形势简介”两个文章的TF*IDF值分别是多少?哪个文章排前面?

对于2017年湖南农村土地现状分析这个文章:

“农村”这个词,TF*IDF=1/7 * log(50000/9760)=0.143*1.63=0.233

“农村”这个词在上述标题中只出现1次,标题分词后一共7个词语,假设网站一共50000个文章,标题出现了“农村”的文章有9760篇。

“土地”这个词,TF*IDF=1/7 * log(50000/19180)=0.143*0.955=0.137

2017年湖南农村土地现状分析TF*IDF值为:0.233+0.137=0.37

对于全国各地土地流转形势简介这个文章:

“土地”这个词,TF*IDF=1/6 * log(50000/19180)=0.143*0.955=0.159

“流转”这个词,TF*IDF=1/6 * log(50000/7100)=0.143*1.952=0.279

全国各地土地流转形势简介TF*IDF值为:0.159+0.279=0.438

显然这个文章的TF-IDF值大于上面那个文章,这个文章排前面。

程序在计算第三阶梯文章的TF-IDF

Tf-idf相关介绍:baike.baidu.com/link?url=9jWqcxIe110pMpJN0LW0r2T1YgSSWCxOQFMOWGzi_u4SUl5ChaTAs3Tbk0OPi_4va-fizgtNCx3A-KMb31ihRa

  • 第四阶梯:tag词分词后标题中都没有出现,但是文章正文内容完成包含超过4次。

第四阶梯文章属于最广泛匹配的文章,排列在最后面。这类文章基本是主题和tag词不相关,但是正文中有部分相关内容。

存在多个文章属于这类情况,则按照tag词完整出现的次数排序,出现次数最多的排列在前面,次数相同则按照发布时间的先后顺序排列,最新发布的排前面。第四阶梯的文章调用不限制数量,符合条件的全部展现出来。

5、注意事项

考虑到程序计算速度的问题,所有标签详情页可以缓存一天,可以考虑夜间计算每个标签的调用结果进行缓存。

标签调用文章总数最多不超过400篇,每页展现20条,也就是最多20页。

以上就是在考虑做TAG聚合页面的时候,所要考虑的页面调用规则,合理的规则可以大大提高文章相关性和关键词密度,以达到网站权重的提升,获得页面排名。

本站文章禁止转载,违者必究
阅 1,063
2

在网站拥有大量文章之后,绝大多数网站会选择对文章进行再分类,生成相应的聚合页,这样的页面称之为TAG聚合页。由 […]

湘公网安备 43011102001693号

    湘ICP备19003021号-1