|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
0 \, z! q3 `' \# b3 _, c2 a6 Y
) {* B7 f" G& J- `1 k* x- `7 H" `& q 笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。+ L2 E& w, u/ [
! H) y% w) h* q2 d- Q% N 之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。
' ]9 n5 A9 H9 H9 o! P9 S. j$ u- W. S- ^# Y; U6 D" z2 o
当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。3 v) Z3 O$ p: s4 S$ y/ f4 x. ]
9 g' D E- ?6 l2 `6 L( k& F6 f 百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。3 _# K5 q0 I0 L" \' ]
! d1 ?& p; c0 { 1、短关键词3 m& j) j9 d2 ~) Q+ d! r
" L8 Q% j$ i5 X
以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。
# R$ Q0 j5 u' ?2 f6 k$ `, s
[- p5 U+ [) l7 G$ X 打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。, q$ P3 H: I0 {5 S
% N4 }/ t" D$ z6 v& Z: A
打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。- S/ R& U" Z) L
) l# M6 }7 \! d- B 2、长尾关键词
) s6 D" N2 [( {7 d. W
% d6 \! u* k4 {$ y 以“小说阅读网”为例,以下是首页搜索结果展示
3 B- m) u: E+ O7 Z0 e' M) z8 a" V/ U8 I7 z) |2 E+ i
打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。
H2 b. n- `! p" Q
- P8 t3 E" [ z. i8 t/ k: e' e& J 但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。
+ _3 A& D6 S# H8 F& Z; U3 I8 h9 i' Q3 M" F5 ~- e
搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。
g* Z9 n1 k. W$ U3 G
8 |5 ?# `/ ]" ~& K 我们或许可以看出两个情况:
6 L* |1 c; S( g. f3 \4 j9 U
# r- S6 |- E O6 ?5 D0 ~# l 1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
2 \, I) F6 E' c
! A \% W, H' d7 D 2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
@& t- _2 F$ G9 i8 K, M
( D! G; X* ^% y- Z$ v+ B6 Q# m d 百度快照颜色有何意义?1 l% b/ D6 T- U5 x
: h' c/ V: U! G 另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。% z( l1 ]* g' ^& c5 R3 e
' e3 N) b0 E6 N. z
笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。
, g$ m6 h2 M4 Y- w' A+ {% I( } W. W9 e) X9 G
当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
) A4 n) u5 G9 w/ p8 \2 V' ]: x6 R. L- s
|
|