找回密码
 注册
广告投放 虚位以待【阿里云】2核2G云新老同享 99元/年,续费同价做网站就用糖果主机-sugarhosts.comJtti.com-新加坡服务器,美国服务器,香港服务器
查看: 63|回复: 0

如何通过百度快照分析中文分词和百度排名

[复制链接]
发表于 2013 年 5 月 20 日 21:32:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
0 \, z! q3 `' \# b3 _, c2 a6 Y
) {* B7 f" G& J- `1 k* x- `7 H" `& q  笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。+ L2 E& w, u/ [

! H) y% w) h* q2 d- Q% N  之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。
' ]9 n5 A9 H9 H9 o! P9 S. j$ u- W. S- ^# Y; U6 D" z2 o
  当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。3 v) Z3 O$ p: s4 S$ y/ f4 x. ]

9 g' D  E- ?6 l2 `6 L( k& F6 f  百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。3 _# K5 q0 I0 L" \' ]

! d1 ?& p; c0 {  1、短关键词3 m& j) j9 d2 ~) Q+ d! r
" L8 Q% j$ i5 X
  以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。
# R$ Q0 j5 u' ?2 f6 k$ `, s
  [- p5 U+ [) l7 G$ X  打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。, q$ P3 H: I0 {5 S
% N4 }/ t" D$ z6 v& Z: A
  打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。- S/ R& U" Z) L

) l# M6 }7 \! d- B  2、长尾关键词
) s6 D" N2 [( {7 d. W
% d6 \! u* k4 {$ y  以“小说阅读网”为例,以下是首页搜索结果展示
3 B- m) u: E+ O7 Z0 e' M) z8 a" V/ U8 I7 z) |2 E+ i
  打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。
  H2 b. n- `! p" Q
- P8 t3 E" [  z. i8 t/ k: e' e& J  但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。
+ _3 A& D6 S# H8 F& Z; U3 I8 h9 i' Q3 M" F5 ~- e
  搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。
  g* Z9 n1 k. W$ U3 G
8 |5 ?# `/ ]" ~& K  我们或许可以看出两个情况:
6 L* |1 c; S( g. f3 \4 j9 U
# r- S6 |- E  O6 ?5 D0 ~# l  1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
2 \, I) F6 E' c
! A  \% W, H' d7 D  2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
  @& t- _2 F$ G9 i8 K, M
( D! G; X* ^% y- Z$ v+ B6 Q# m  d  百度快照颜色有何意义?1 l% b/ D6 T- U5 x

: h' c/ V: U! G  另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。% z( l1 ]* g' ^& c5 R3 e
' e3 N) b0 E6 N. z
  笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。
, g$ m6 h2 M4 Y- w' A+ {% I( }  W. W9 e) X9 G
  当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
) A4 n) u5 G9 w/ p8 \2 V' ]: x6 R. L- s
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|金光论坛

GMT+8, 2025 年 4 月 6 日 19:03 , Processed in 0.018192 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表