|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
) t( A$ H' M9 G) c0 Y; e
/ U [2 F7 p. I3 a, R q 笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
7 G) R; B v% b7 _+ o: I, t# d- J- a4 n) @. N4 @
之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。8 U2 ^0 |4 E) F( c6 t5 p q
4 p8 T( Z, f! Q/ p+ D. m6 J, u 当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。
% Q# R! h, |. G- e. ], J: V4 k* z: H
百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。
- y6 Z- h# }, f9 j/ `* U" f3 w$ \: \, m# B Z+ e
1、短关键词
1 }5 x& I7 g" M* Z5 ^2 f1 Q3 G ^; \8 [) `- t* U
以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。9 Q o! x% y# i9 e5 H
& [0 I0 q" m1 L1 V, A8 k! F 打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
, H6 C# e! w) H$ |& r, a2 p) Q! M4 m8 R- a9 ?+ \- {
打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
( v9 B* l) \' O6 m, A/ {7 S8 o1 I4 V$ f6 L
2、长尾关键词
: |' f5 ^3 K# G6 W5 i
$ a% L6 M G! J4 v! D8 a) f 以“小说阅读网”为例,以下是首页搜索结果展示
7 }/ T. Y# t& m; d( c- R
' d0 B! p) y, s$ {0 y% ?9 t3 X2 d9 K: r 打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。. G- F1 x) E) c' Y! ?7 j
: ], `5 |; m/ E0 ]8 t
但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。
" R# o/ m% @5 Z; u
; M" I; n# M2 d# l2 U3 {7 \ 搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。
$ t% ~$ J- X; \, A' y- R
0 l$ w6 S. `' Q* O% S) Q2 K8 y: o 我们或许可以看出两个情况:& X6 {* J0 I' y# v
' C; E# i- y2 J2 \" e& _ 1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
% _$ N3 u+ Q0 V+ f7 T. b7 Y) e% [4 c: `, J( ~! b2 f
2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
5 t% M. _' O& i# o1 c% X# Q4 b4 y U' j8 ]8 V. Z' z: V
百度快照颜色有何意义?
0 m" }% Y, L8 l6 c7 f# D
" k. r v1 P* ?. s+ ` 另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。
; {7 @0 r- t' G% M3 ]# H6 u+ t+ _6 U9 A: t' ?
笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。6 @5 o# R3 b0 ^0 [! W9 Q
0 s" u3 c3 q! W& C$ D* e5 V9 F 当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
. i! M+ n/ \8 V# c7 f5 z, |+ n) o+ H& T( D
|
|