|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。; t) c8 k! {& {# J
8 ~- y8 B- W, v. X4 ~
笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
; y- J; u& k8 Q2 D/ g9 x' {
( n* d9 P+ |* \3 Q9 V) M 之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。" @! M4 y2 R3 \% m: U
) K( }- T2 U$ ]) M 当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。 Y0 L5 I. d6 r( ^
5 S; e# v6 w; K2 Y# w! d( T
百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。
3 n' a: ]. [) a2 Q( i7 I: W" F/ W; Y- B, Z' P; H
1、短关键词$ u5 X+ K: ]0 Y
# Q) ~) ~, e" b6 A5 i8 K7 l7 r# Y6 _ 以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。7 F z2 m7 @5 Q3 S; F
6 k- Y0 s, _( B, H2 g 打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
' P( e, Q: T2 A& y q: t) e
0 N3 S/ t( |: R" e) x 打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。, K- U+ B5 ]+ m! o9 o, y& z/ f! _
# v" P2 Z, U% C) Y
2、长尾关键词
9 ?) k! ]6 `3 v' ^0 O& z7 t1 v2 `+ O5 L9 J& G5 a: |
以“小说阅读网”为例,以下是首页搜索结果展示1 m7 q1 ~9 n7 W4 N+ S4 \0 y
1 {3 j4 h! ~5 D/ X! F5 d6 l2 R3 I 打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。
/ Q# ^& s! e; b% e4 `9 |) s7 q b; N+ m9 U- ]& O* y/ A+ |5 Y
但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。
. u s5 |0 ?; d) D
( q! [+ v: L3 j8 O- `8 |- ^/ H 搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。
0 m$ Z6 y4 V2 K5 E* Z r/ l
7 P/ ]1 a2 i; F/ x9 I6 _% {( ]( Q 我们或许可以看出两个情况:- C7 p: V1 Y0 c5 V% }+ D/ L
I$ _+ S5 `$ P7 b8 Q" r
1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。. y7 ]( @3 U* s8 X4 v! c' d+ W2 H
& b3 N. j4 O! H9 |
2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
$ ?$ D4 p" j* g e
, z. x( M1 F' I9 ? 百度快照颜色有何意义?' e9 w1 K1 G2 i) f! d% _7 N+ B
8 o, P5 {5 q# z7 i9 t+ L. I1 b
另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。8 K4 {# T' e# U7 ]4 P/ \2 p
; C: r2 ^( k" b% n- V D
笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。1 y q2 @+ m; L$ Z1 Y
, m. T$ D, i8 y) m 当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
# T) M& y. f) k0 y% I0 L
: p* q5 l5 v, M# b, O |
|