比如:子页中导航条的重要性
B <=> A => C
Vs
B <=> A <=> C (好)
页面数量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E
一个意想不到的结论:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被链接的2个首页A和D,而网站子页面的PageRank平均会略有下降。同时:一个网站进入Google的索引量越大其受类似因素影响越小。
了解搜索引擎的"价值观":
Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面,而Google支持的一些项目,比如:Folding@Home,让我一直怀疑他们对政府,教育和非盈利组织的站点有特别加分,毕竟.org .edu才代表了互联网的实质:分权和共享。
但更合理的解释是:.org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache PHP FreeBSD这样的开源站点在GOOGLE中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据。
注意:不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的。
这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。
Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。
- NewScientist.com news Word 'bursts' may reveal online trends
- 还没有写完这些介绍,在 SlashDot 上也看到了很多有关这个发现的讨论
附:Google官方的站点设计指南
Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 让网站有着清晰的结构和文本链接,所有的页面至少要有一个静态文本链接入口
批注:尽量不要用图片和javascript
Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links you may want to break the site map into separate pages.
为用户提供一个站点地图:转向网站的重要部分。如果站点地图页面超过100个链接,则需要将页面分成多个页面。
批注:索引页不要超过100个链接:SPIDER只考虑页面中头100个链接
Create a useful information-rich site and write pages that clearly and accurately describe your content.
用一些有用的,信息量丰富的站点,清晰并正确的描述你的信息。
Think about the words users would type to find your pages and make sure that your site actually includes those words within it.
想像用户可能用来找到你的http://www.seobbs.net/read.php?tid=708
在网站中出现。
批注:少用“最大”,“最好”之类的形容词,用用户最关心的词,比如:下载,歌星名字,而不是一些抽象名词。
Try to use text instead of images to display important names content or links. The Google crawler doesn't recognize text contained in images.
尽可能使用文本,而不是图片显示重要的名称,内容和链接。GOOGLE的机器人不认识图片中的文字。
Make sure that your TITLE and ALT tags are descriptive and accurate.
保证:页面的TITLE和ALT标记正确的精确描述
Check for broken links and correct HTML.
检查坏链并修正这些HTML错误。
If you decide to use dynamic pages (i.e. the URL contains a '?' character) be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打算使用动态页面:链接中包含"?",必须了解:并非所有的搜索引擎的机器人能想对待静态页面一样对待动态页面,保持动态页面的参数尽可能的少也会很有帮助。
Keep the links on a given page to a reasonable number (fewer than 100).
让一个页面中的链接少于100个。
批注:用lynx -dump http://www.chedong.com http://www.chedong.com
可以模拟从robot角度看到的页面。其最后有链接统计