飞天猫的博客|Fmore.net

编程小技 [代码]

深入浅出理解索引结构

by raio on 四.08, 2010, under 编程小技 [代码]

      实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 

其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。

        我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。

        如果您认识某个字,您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的方法找到您要查的字,而需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是“弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。  

       我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。

       通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。  

       进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。 

(二)何时使用聚集索引或非聚集索引  

      下面的表总结了何时使用聚集索引或非聚集索引(很重要)。  

     

动作描述
 使用聚集索引
 使用非聚集索引
 
列经常被分组排序 
 应
 应
 
返回某范围内的数据
 应
 不应
 
一个或极少不同值
 不应
 不应
 
小数目的不同值
 应
 不应
 
大数目的不同值
 不应
 应
 
频繁更新的列
 不应
 应
 
外键列
 应
 应
 
主键列
 应
 应
 
频繁修改索引列
 不应
 应
 
 

        事实上,我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如:返回某范围内的数据一项。比如您的某个表有一个时间列,恰好您把聚合索引建立在了该列,这时您查询2004年1月1日至2004年10月1日之间的全部数据时,这个速度就将是很快的,因为您的这本字典正文是按日期进行排序的,聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引,必须先查到目录中查到每一项数据对应的页码,然后再根据页码查到具体内容。 

(三)结合实际,谈索引使用的误区 

        理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。

1、主键就是聚集索引 

      这种想法笔者认为是极端错误的,是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。 

        通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时,如果我们将这个列设为主键,SQL SERVER会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但笔者认为这样做意义不大。

        显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。 

        从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。 

        在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。 

        通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。 

        在这里之所以提到“理论上”三字,是因为

Leave a Comment : more...

Delphi通过ADO连接MYSQL

by raio on 四.01, 2010, under 编程小技 [代码]


procedure TForm1.Button1Click(Sender: TObject);
begin
try
ADOCon1.ConnectionString:=(‘DRIVER={MySQL ODBC 3.51 Driver};’+
‘SERVER=localhost;’+
‘DATABASE=lionx;’+
‘USER=root;’+
‘PASSWORD=109;’+
‘OPTION=3;’);
ADOCon1.Close;
ADOCon1.Open;
except
application.MessageBox(‘无法连接数据库服务器.请与管理员联系’,'提示’,MB_ICONINFORMATION);
end ;
ADOQ1.Active:=true;
end;

 

Leave a Comment more...

SQL行列转换函数 PIVOT/UNPIVOT

by raio on 三.30, 2010, under 编程小技 [代码]

SQL Server2005引入了很多迎合开发者口味的新特性,虽然改动不大,却大大了减少了开发者的工作量,这种替用户考虑的开发思路,值得称赞。

在SQL Server2000中,要实现行列转换,需要综合利用聚合函数和动态SQL,实现起来需要一定的技巧,所以在CSDN的SQL讨论区里可以看到大量询问行列转换如何实现的问题。到了2005中,使用新引进的关键字PIVOT/UNPIVOT,可以轻松实现行列转换的需求。

好像Oracle11g也准备引入PIVOT/UNPIVOT特性,对于Oracle开发来说,It”s a good news。

本文通过两个简单的例子展示PIVOT/UNPIVOT的用法。详细的语法请参考联机帮助。

PIVOT

创建测试表,插入测试数据

create table test(id int,name varchar(20),quarter int,profile int)
insert into test values(1,”a”,1,1000)
insert into test values(1,”a”,2,2000)
insert into test values(1,”a”,3,4000)
insert into test values(1,”a”,4,5000)
insert into test values(2,”b”,1,3000)
insert into test values(2,”b”,2,3500)
insert into test values(2,”b”,3,4200)
insert into test values(2,”b”,4,5500)

select * from test
id name quarter profile
———– ——————– ———– ———–
1 a 1 1000
1 a 2 2000
1 a 3 4000
1 a 4 5000
2 b 1 3000
2 b 2 3500
2 b 3 4200
2 b 4 5500

(8 row(s) affected)

利用PIVOT将个季度的利润转成横向显示:

select id,name,
[1] as "一季度",
[2] as "二季度",
[3] as "三季度",
[4] as "四季度"
from
test
pivot
(
sum(profile)
for quarter in
([1],[2],[3],[4])
)
as pvt

id name 一季度 二季度 三季度 四季度
———– ——————– ———– ———– ———– ———–
1 a 1000 2000 4000 5000
2 b 3000 3500 4200 5500

(2 row(s) affected)

UNPIVOT

建立测试表,插入测试数据

drop table test

create table test(id int,name varchar(20), Q1 int, Q2 int, Q3 int, Q4 int)

insert into test values(1,”a”,1000,2000,4000,5000)
insert into test values(2,”b”,3000,3500,4200,5500)

select * from test

id name Q1 Q2 Q3 Q4
———– ——————– ———– ———– ———– ———–
1 a 1000 2000 4000 5000
2 b 3000 3500 4200 5500

(2 row(s) affected)

利用UNPIVOT,将同一行中四个季度的列数据转换成四行数据:

select id,name,quarter,profile
from
test
unpivot
(
profile
for quarter in
([Q1],[Q2],[Q3],[Q4])
)
as unpvt

id name quarter profile
———– ——————– ———- ———–
1 a Q1 1000
1 a Q2 2000
1 a Q3 4000
1 a Q4 5000
2 b Q1 3000
2 b Q2 3500
2 b Q3 4200
2 b Q4 5500

(8 row(s) affected)

Leave a Comment : more...

建站盈利, 个人站长不能不知道的10个关键词

by raio on 三.05, 2010, under 编程小技 [代码]

第一个关键词:发现,就是说要善于寻找和发现机会。机不可失,失不再来,机会在哪里?中国有句俗语,叫“缺什么,补什么”,也就是看互联网上还需要什么,今天需要什么,将来需要什么。

  第二个关键词:量力,就是要根据自己的实力对自己的网站进行准确的定位。限于资金、技术、人员等诸多因素,个人网站定位,不要大而全,而要小而专,专而精,抓住关键,集中力量于“一个点”。

  第三个关键词:第一,就是网站要有竞争优势,能在同类网站中处于领先地位。技术没有优势,我能做,别人也能做。规模,没有优势,没有强大的资金支持,短时间内很难做得很大。唯一的优势就是:网站的管理者。网站能够短时间内复制,但一个人的经历、经验、能力、思想、思维方式、社会关系是不能复制的,人才是不能复制的。要相信自己,能把网站做好、管理好、经营好。

  第四个关键词:独特,就是网站要有创新,与众不同,才有魅力。

  第五个关键词:营利,就是网站要有稳定可靠的营利模式

  第六个关键词:诚信,就是网站信息要真实可靠,要保证网站内容的真实性。

  第七个关键词:共赢,就是要善于与别人合作,互惠互利,共同发展

  第八个关键词:长远,就是网站发展要有可持续性,避免急功近利的短期行为。要正确摆布网站流量、文章数量、网站质量、用户体验四者的关系,坚持质量第一的原则,以访客感觉为第一目标,以干成一个可以长久发展事业为方向,做到稳扎稳打,步步为营,循序渐进,分阶段、有计划,稳步发展。

  第九个关键词:团队。就是网站的发展要有一批志同道合、强力互补的人员队伍。

  第十个关键词:执著,就是做网站要不怕困难,坚持到底。网站发展过程中可能遇到资金紧张、对手竞争、黑客攻击等各种各样的困难。但我相信,有一种执著的精神,有不畏艰难的勇气,对于创新,敢于探索,敢于实践,最终一定会取得发展和成功。

  以上十个关键词,是干成一番事业不可缺少的,也是作为一个个人网站站长所必须应该想到和做到的。我认为,对于个人站长,无论做一个什么样的网站,只要你真正悟“透”了这十个关键词的内涵,并真真正正地那样做了,做好了,那么,一切,都有可能成为最有可能的可能。

Leave a Comment more...

网站改个版花费670万 网民惊呼做个网站好值钱

by raio on 一.21, 2010, under 编程小技 [代码]

“中国工会网网站改版670万元”,“孔子学院网站运营服务3520万元”。
最近两天,财政部网站上公布的两则中直机构的中标公告引来网民围观。做个网站动辄就几百万元的成本支出,让“无比惊诧”的网民惊呼“做个网站好值钱”。

   “史上最贵网站出炉”

  最先被围观的是财政部网站上招标编号为T C 099R 72的“中国工会网扩建项目一期工程(网站改版、内容管理、站内检索、统计分析)”的中标公告。根据公告,本次招标的成标结果确定于2009年12月25日,成交结果则高达670万元。

  “史上最贵的网站出炉”,网友“lcheng”在一家论坛上发帖说。而在凯迪论坛上,另一位网友干脆以“无比惊诧”来描述自己的感受。

  有网民一度反对认为,如此高的招标价格很可能包含了网站运行所需要的服务器、路由器等硬件设备,但记者发现,“中国工会网扩建项目一期工程”事 实上还进行过一次专门的硬件招标,其项目编号为ZC-A ZB09085,中标者为两家供应商,中标金额总计超过1200万元。

  除了中标金额,成交供应商“北京中软宏大信息技术有限公司”的资质也遭到部分网民的质疑。名为“幼学笔记”的博客上,博主称自己特意研究了这家 “有能力做670万元‘大项目’的公司”,然而他发现,原以为“信息建设自然应该很牛”的企业的官方网站,居然只能在微软的IE浏览器下正常显示,当使用 火狐浏览器打开时,“乱成一团,完全不可用”。

  网站改个版、做做统计分析,竟然要上百万元的花费,很多跟帖的网民纷纷替采购人“中国工会网络中心”感到不值。

  网站建设 “兄弟”中标

  不过,很快有网民发现,“中国工会网络中心”的这次招标显然还不是“史上最贵的”,因为同样出现在财政部网站中标公告中的“网络孔子学院网站运 营服务项目(招标编号:CEIECZB01-09JX033)”,第1包的定标日期是2009年12月15日,中标金额则高达3520万元。

  根据中标公告,这个名为网络孔子学院网站运营服务项目的采购项目,采购人为国家汉办(孔子学院总部),中标供应商为五洲汉风网络科技(北京)有限公司。

  除了高达数千万元的中标金额,中标供应商也引起了网民的注意。有网民指出,该公司是国家汉办的直属企业。记者在网络上搜索后发现,虽然公司尚无 官方网站,但国家汉办官方网站在进行所属机构介绍时明确提到,其十一个组成机构其中之一就是“五洲汉风教育科技(北京)有限公司”。而《中华人民共和国政 府采购法》第十二条规定,在政府采购活动中,采购人员及相关人员与供应商有利害关系的,必须回避。

  “下属网站招标,直属机构中标”,这也让网民感慨,“怪不得孔子这么牛呢”。

《南方都市报》

Leave a Comment : more...

微软发布MySQL to SQL Server迁移工具 CTP1.0

by raio on 一.13, 2010, under 编程小技 [代码]

MySQL(世界上使用最为广泛的开源数据库软件,目前为Sun Microsystem所有)对于微软来说既是竞争者又是合作伙伴(早前MySQL曾加入Visual Studio工业伙伴计划),而自从甲骨文(Oracle)宣布要收购升阳(Sun MicroSystem)之后(顺便得到了升阳旗下的MySQL数据库),下载:下载:Microsoft SQL Server Migration Assistant 2008 for MySQL v1.0 CTP1

Leave a Comment : more...

Drupal 6.15 + 5.21 版发布

by raio on 一.06, 2010, under 编程小技 [代码]

 

Drupal是一个强大的软件,是一套采用GPL授权的开放源码软件,是由数以千计的使用者和开发人员所共同维护和开发的.
它可以让个人或社区使用者很容易地发表、管理并组织一个网站里大量且多样的内容.已经有许多个人和组织采用Drupal来建立各种不同的网站,包括:

 

Drupal 6.15 and 5.21, maintenance releases which fix issues reported through the bug tracking system, as well as non critical security vulnerabilities, are now available for download. Both releases fix other smaller issues as well.

下载:下载:Download Drupal 5.21

Leave a Comment : more...

推荐七款免费开源微博客程序

by raio on 十一.05, 2009, under 编程小技 [代码]

以Twitter为代表的微博客是今年非常火的社交网络,在国内的发展也在上半年一度非常迅猛,虽然现在大多数微博客都因为种种原因无法访问,但这并没有降低人们对微博客的热情,实际上,自己动手搭建一个类似Twitter的微博客平台并不困难,这里我就介绍一些常见的开源微博客程序,有了这些开源代码,只要稍懂一些电脑知识,就可以在短时间内搭建一个类似饭否或Twitter的微博客平台。

  Jaiku

  Jaiku(演示地址)是一个基于Python的微博客平台,2007年被Google收购,不过之后并没有对其成功运营,只好在2009年宣布对其停止维护,稍后Google就将Jaiku完全开源,并切换到AppEngine上运行,目前Jaiku完全开源并提供用户免费下载,大家可以到Jaiku源代码项目地址,使用一个SVN工具(如Subversion)下载其源代码。

  Laconica

  Laconica(演示地址)是一个基于PHP和MySQL的开源微型博客系统,也是一个Twitter克隆,可以实现Microblog的常用功能,国外不少微博客系统都是通过这个开源系统架设的。Laconica得到大量应用系统的支持,包括Twitterfeed、Hellotxt和Gravity等。点这里下载其源代码。

  Sweetter

  Sweetter是一个开源的微博客项目,具有一定的投票机制,基于Python,点这里可下载其源程序代码。

  Jisko

  Jisko的界面和Twitter很像,能够自动通过AJAX更新,也是基于PHP和MySQL的,这个系统可能是西班牙人开发的,使用SVN到这里下载其源代码。

  最后介绍两个国内中文的开源微博客系统。

  EasyTalk

  界面挺像饭否的,API接口也和饭否类似,基于PHP和MySQL,点这里下载源代码。

  PageCookery

  也是基于PHP和MySQL,支持和叽歪的同步,点这里下载源代码。

  好了,以上就是我介绍的一些免费开源微博客系统,通过这些程序,我们可以搭建一个自己的饭否或Twitter,是不是很酷啊。如果大家知道什么更好的开源系统,请留言和大家分享。

Leave a Comment more...

SEO中的十大关键词竞争度分析方法

by raio on 十一.03, 2009, under 编程小技 [代码]

关键词分析在SEO中的地位是举足轻重的,其中关键词的竞争强度分析也尤为重要。关键词竞争强度,通俗来讲,也就是这个词竞争大不大,好不好做上去?可能这些大家都知道,之所以列出来,只是为了让不知道的朋友了解,让知道的朋友更加认识到关键词竞争度分析的重要性。

知己知彼,百战不殆。通过对关键词竞争强度的分析,通过对该关键词的竞争对手的分析,再来调整SEO思路,从而按照制定的详细的SEO实施计划,势必也会事半功倍;同时,SEO外包服务商在给客 户提供SEO服务前,也会根据关键词竞争强大来计算大概的投入精力和时间,从而对客户进行关键词SEO的报价。下面我们从以下10个方面谈谈如何来分析某关键词的竞争强度。

第一:看关键词搜索结果(SERP)数量

在谷歌,百度输入框中输入目标关键词,搜索引擎返回的结果数量,返回数量越多,则表示竞争度相对越大;反之返回数量越少,则表示竞争度相对越小。

一般情况下,搜索引擎返回结果数量和关键词竞争度对照如下:

(1)搜索结果少于50万:属于竟争较小的;轻易可做到首页

(2)搜索结果50-100万:属于中等偏小的;

(3)搜索结果100-300万:属于中等的;

(4)搜索结果300-500万:属于中等偏上的;需投入不少时间精力可以排上去

(5)搜索结果500万以上:属于高难度词。

比如:“优友网”这个关键词谷歌返回结果为1220W,“优友”这个关键词返回结果为1300W,初步 认为“优友”关键词竞争强度要大于“优友网”。

这里有个其中一个技巧推荐大家:就是根据网页标题含目标关键字的网页数量来判定关键词竞争强度,返回结果 越多则强度越大。查询语法:【intitle:目标关键字】。比如,【intitle:北京搬家】的百度返回 结果数量是87W,谷歌返回146W,而直接使用关键字搜索得出的数量相差就远了,谷歌返回453万, 百度290万。当然,实际应用中,我们可能会发现也存在大量的搜索结果与竞争度不一致的情形。例如“北京搬家”百度返回结果290W,“北京搬家公司”百度返回结果为551W。这种情况下,从SERP数量上来看就不太靠谱了,返回结果数量有很大的水分存在。这时候需要借助其他的分析条件来进行综合评定。

第二:看关键词结果页面是否有大站,名站,百度产品站

举个例子,如果某个关键词排在搜索引擎首页的前几个站全是新浪,百度,QQ,TOM等大站,或者是行业名站,或者是百度知道,百度图片站,百度新闻等站,说明这个词竞争也是不小的,需要花很大精力来维护。如门户站的一些独立频道,alibaba,hc360,58,中国化工网等等,如果前面有很多大站, 权重高的站在前面,即时他是个二级域名,三级域名,目录页,你去推广的话,阻力也非常大。因为这些站权重高,在搜索引擎中的人品值非常好,初期小站实在难以超越。

第三:看关键词搜索次数

比较经典的工具就是百度指数,这个数值反应了这个关键词的用户搜索频繁度,日搜索量越大,说 明该词商业度越高,给客户带来的效果越好,自然该词也会是众多商家争夺的目标,因此竞争难度 也会越大。

我们可以分成以下几个数值范围(以百度指数为参考依据):

(1)搜索次数少于100:属于竞争较小的;

(2)搜索次数100-300:属于中等偏小的;

(3)搜索次数300-500:属于中等的;

(4)搜索次数500-1000:属于中等偏上的;

(5)搜索次数1000以上:属于高难度词。

同时,建议大家多关注百度和gg的相关搜索,这个相关搜索的排名是根据搜索次数和相关度来排序的。也就是说,排在前面的关键词,是与该词相对来说最相关的词,这个词的搜索次数也是居于首位 的。这个顺序在以前的更多搜索可以看到,现在百度早已取消此功能。如果需要查询相关搜索的词,推荐追词网相关工具。

再次插一个相关搜索的话题,很久以前我写过相关搜索的优化技巧,其实到现在来看相关搜索出现的2个必要条件:1是相关,2是搜索。这点是不变的。

比如我们在百度搜索:优友网seo大赛,我们会看到出现在前面2位的搜索词分别为:“优友网首届seo大赛”,“优友网” ,排在最后一个词是 “优友 seo”。前面的当然是与搜索词最相关的词,而最后一个词,是百度根据关键词语义来匹配的一个词。这2个词是我这2天刷出来的,怎么刷?方法就是制造与搜索词相关的文章和关键词,制造该关键词的搜索次数。搜索的人多,这个相关搜索也就会出现。这也就是很多刷相关搜索软件的原理之一。

第四:看竞争对手的网站结构与内部优化

主要观察的地方为以下几点:

1:该关键词着陆页面是独立域名,还是二级域名?是频道和栏目,还是单独的内容页?如果该关键词排在第一页均为内容页,那么我们利用专题,栏目,频道页来优化则可能很轻松超越对手。

2:title、keywords、Description标签及其他:title是否放了目标关键字?目标关键字是不是放 在前面?title格式是否合理?keywords有没有优化过度?每张网页有没有不同的描述?

网站结构层次及其他:最多通过几次点击可以达到任何一张内容页? 网站导航做的好不好?包括一级导航条、面包 屑型导航。

有网站地图吗?包括html格式和xml格式的。

图片有优化吗?包括图片大小,alt属性 ,如果是高手优化过的,为配合alt属性里的关键字,还会在图片周围放上目标关键字。

该站是否有优化痕迹,头部和底部是否有关键词加粗,关键词连接,关键词导航等常见手法?这些指标都可以给我们一个参考。

第五:看竞争对手网站外链与收录情况

运用搜索引擎link查看竞争对手网站的外部链接,了解网页链接数量和质量,运用工具查看网页的 Pagerank。运用site查看竞争对手网站的收录情况。同时可以观察竞争对手的网站快照是否更新即时,当天收录多少页面等。如对方外链数较多,PR值比较高,收录页面多,快照更新比较快,则说明该站权重较高,关键词竞争度较大。以上数据我们可以汇总到一个excel表格中,从而方便对比多个竞争对手的网站情况。。

网站收录数量是衡量一个网站很重要的指标,很多行业门户站,他们都比较关注网站收录在本月到了一个什么级别,下月希望到什么级别,都有一个详细的规划。有此目标,再结合网站的关键词库,配合以不同形式发布出去,逐步增加收录。不管大站小站,我觉得想办法提供优质内容,想办法提高收录量,一定会给你的网站锦上添花!

第六:看竞争对手是否进行PPC付费推广

在搜索引擎里搜索该关键词,谷歌看赞助商,百度看推广。然后看看首页有多少竞价排名推广。

如果是百度首页的快照显示“推广”超过十个,说明这个词商业价值非常大。而跟在这10个竞价排名后面估计也有不少的推广高手也会参与竞争,那么这个词推广难度也就大了。

这个可以分成以下几个数值范围:

(1)竟价排名站点0个:属于竞
争较小的;

(2)竟价排名站点1-3个:属于中等偏小的;

(3)竟价排名站点3-6:属于中等的;

(4)竟价排名站点6-10:属于中等偏上的;

(5)竟价排名站点10个以上:属于高难度词。

第七:看关键字流行度

这里和此前的搜索次数范畴有一定重合,但是我觉得2者不太一样,所以也单独列出说明。

在分析关键字时,流行度和竞争度是很重要的两个概念。流行度越大 往往说明竞争度也越大。关键字流行度是用来评估关键字吸引力的,简单讲就是目标用户用来查找 你的站点使用最多的关键字是什么。你可能认为自己已经知道了,但有时候用户的搜索习惯确又让你摸不着头脑。

推荐工具:百度指数和Google关键字工具可以更 好的帮助你来做出一个初步的分析,它们是有搜索引擎直接提供的在线分析工具,具有相当强的说 服力!

第八:看关键词的长度

越短越难。越长越简单。比如“SEO”这个词很难,但是“北京SEO”这样的地区性的词范围一下小了很多,难度也大大的下降。又或者“SEO培训”这个词比较难,但“北京SEO培训”相对就容易多了。当某关键词竞争强大大时,我们其实可以“舍远求近”,先把能做上去的长尾关键词拿到手,再考虑核心的目标关键词,长尾词上去,离主词上去就不远了。这个也属于长尾关键词范畴,关于长尾关键词组合策略,我们会在下一期的优友群英会讲座中谈到,敬请期待。

第九:看搜索结果中的域名级竞争对手数量

这个数值反应了竞争站点的整体实力,搜索结果中出现的域名级竞争对手数量越多,说明优化这个 词的竟争站点越多,那样优化难度也就越大。Kyw在SEO中的田忌赛马中非常好的阐述了这个问题, 有兴趣可以百度一下。衡量这个数值只需要从第一个域名级竞争站点开始计算,直到可以看到的最 后一个。这个可以分成以下几个数值范围:

(1)搜索结果中无域名级竞争对手:属于竞争较小的;

(2)搜索结果中域名级竞争对手10-30个:属于中等偏小的;

(3)搜索结果中域名级竞争对手30-60个:属于中等的;

(4)搜索结果中域名级竞争对手60-100个:属于中等偏上的;

(5)搜索结果中域名级竞争对手100个以上:属于高难度词。

第十:看第一页竞争对手实力

由于大多数Seoer承诺的排名位置是自然排名前10名,所以第一页的站点也就是我们最为直接的竞争对手。

这个可以分成以下几个数值范围:

(1)第一页竞争对手都是普通网站(中小型企业站)的内页:属于竞争较小的;

(2)第一页竞争对手普通网站主页不超过5个:属于中等偏小的;

(3)第一页竞争对手都是普通网站的主页或只有1-2个高质量站主页或目录页:属于中等的;

(4)第一页竞争对手有3-7个高质量站(行业站、GOV站、门户站)主页或目录页:属于中等偏上的;

(5)第一页竞争对手有7-10个高质量站主页或目录页:属于高难度词。

以上部分内容参考了SEO前辈的说法,对此表示感谢,列出10种分析方法仅仅只是抛砖引玉,欢迎就此问题与我们交流探讨。

Leave a Comment more...

Yahoo!网站性能最佳体验的34条黄金守则

by raio on 十.14, 2009, under 编程小技 [代码]

英文地址:http://developer.yahoo.com/performance/rules.html
中文地址:http://www.dudo.org/article.asp?id=214
      Yahoo!的Exceptional Performance团队为改善Web性能带来最佳实践。他们为此进行了一系列的实验、开发了各种工具、写了大量的文章和博客并在各种会议上参与探讨。最佳实践的核心就是旨在提高网站性能。
Excetional Performance团队总结出了一系列可以提高网站速度的方法。可以分为7大类34条。包括内容、服务器、cookie、CSS、JavaScript、图片、移动应用等七部分。

其中内容部分一共十条建议:

一、内容部分

  1. 尽量减少HTTP请求
  2. 减少DNS查找
  3. 避免跳转
  4. 缓存Ajxa
  5. 推迟加载
  6. 提前加载
  7. 减少DOM元素数量
  8. 用域名划分页面内容
  9. 使frame数量最少
  10. 避免404错误

1、尽量减少HTTP请求次数
      终端用户响应的时间中,有80%用于下载各项内容。这部分时间包括下载页面中的图像、样式表、脚本、Flash等。通过减少页面中的元素可以减少HTTP请求的次数。这是提高网页速度的关键步骤。
      减少页面组件的方法其实就是简化页面设计。那么有没有一种方法既能保持页面内容的丰富性又能达到加快响应时间的目的呢?这里有几条减少HTTP请求次数同时又可能保持页面内容丰富的技术。

合并文件是通过把所有的脚本放到一个文件中来减少HTTP请求的方法,如可以简单地把所有的CSS文件都放入一个样式表中。当脚本或者样式表在不同页面中使用时需要做不同的修改,这可能会相对麻烦点,但即便如此也要把这个方法作为改善页面性能的重要一步。

CSS Sprites是减少图像请求的有效方法。把所有的背景图像都放到一个图片文件中,然后通过CSS的background-imagebackground-position属性来显示图片的不同部分;

图片地图是把多张图片整合到一张图片中。虽然文件的总体大小不会改变,但是可以减少HTTP请求次数。图片地图只有在 图片的所有组成部分在页面中是紧挨在一起的时候才能使用,如导航栏。确定图片的坐标和可能会比较繁琐且容易出错,同时使用图片地图导航也不具有可读性,因 此不推荐这种方法;

内联图像是使用data:URL scheme的方法把图像数据加载页面中。这可能会增加页面的大小。把内联图像放到样式表(可缓存)中可以减少HTTP请求同时又避免增加页面文件的大小。但是内联图像现在还没有得到主流浏览器的支持。

     减少页面的HTTP请求次数是你首先要做的一步。这是改进首次访问用户等待时间的最重要的方法。如同Tenni Theurer的他的博客Browser Cahe Usage – Exposed!中所说,HTTP请求在无缓存情况下占去了40%到60%的响应时间。让那些初次访问你网站的人获得更加快速的体验吧!

2、减少DNS查找次数

        域名系统(DNS)提供了域名和IP的对应关系,就像电话本中人名和他们的电话号码的关系一样。当你在浏览器地址栏中输入www.dudo.org时,DNS解析服务器就会返回这个域名对应的IP地址。DNS解析的过程同样也是需要时间的。一般情况下返回给定域名对应的IP地址会花费20到120毫秒的时间。而且在这个过程中浏览器什么都不会做直到DNS查找完毕。

       缓存DNS查找可以改善页面性能。这种缓存需要一个特定的缓存服务器,这种服务器一般属于用户的ISP提供商或者本地局域网控制,但是它同样会在用户使用 的计算机上产生缓存。DNS信息会保留在操作系统的DNS缓存中(微软Windows系统中DNS Client Service)。大多数浏览器有独立于操作系统以外的自己的缓存。由于浏览器有自己的缓存记录,因此在一次请求中它不会受到操作系统的影响。

      Internet Explorer默认情况下对DNS查找记录的缓存时间为30分钟,它在注册表中的键值为DnsCacheTimeout。Firefox对DNS的查找 记录缓存时间为1分钟,它在配置文件中的选项为network.dnsCacheExpiration(Fasterfox把这个选项改为了1小时)。

      当客户端中的DNS缓存都为空时(浏览器和操作系统都为空),DNS查找的次数和页面中主机名的数量相同。这其中包括页面中URL、图片、脚本文件、样式表、Flash对象等包含的主机名。减少主机名的数量可以减少DNS查找次数。

      减少主机名的数量还可以减少页面中并行下载的数量。减少DNS查找次数可以节省响应时间,但是减少并行下载却会增加响应时间。我的指导原则是把这些页面中 的内容分割成至少两部分但不超过四部分。这种结果就是在减少DNS查找次数和保持较高程度并行下载两者之间的权衡了。

3、避免跳转
跳转是使用301和302代码实现的。下面是一个响应代码为301的HTTP头:
      HTTP/1.1 301 Moved Permanently
      Location: http://example.com/newuri
      Content-Type: text/html
      浏览器会把用户指向到Location中指定的URL。头文件中的所有信息在一次跳转中都是必需的,内容部分可以为空。不管他们的名称,301和302响 应都不会被缓存除非增加一个额外的头选项,如Expires或者Cache-Control来指定它缓存。<meat />元素的刷新标签和JavaScript也可以实现URL的跳转,但是如果你必须要跳转的时候,最好的方法就是使用标准的3XXHTTP状态代 码,这主要是为了确保“后退”按钮可以正确地使用。

      但是要记住跳转会降低用户体验。在用户和HTML文档中间增加一个跳转,会拖延页面中所有元素的显示,因为在HTML文件被加载前任何文件(图像、Flash等)都不会被下载。

 &nbs
p;    有一种经常被网页开发者忽略却往往十分浪费响应时间的跳转现象。这种现象发生在当URL本该有斜杠(/)却被忽略掉时。例如,当我们要访问http: //astrology.yahoo.com/astrology 时,实际上返回的是一个包含301代码的跳转,它指向的是http://astrology.yahoo.com/astrology/  (注意末尾的斜杠)。在Apache服务器中可以使用Alias 或者 mod_rewrite或者the DirectorySlash来避免。

      连接新网站和旧网站是跳转功能经常被用到的另一种情况。这种情况下往往要连接网站的不同内容然后根据用户的不同类型(如浏览器类型、用户账号所属类型)来 进行跳转。使用跳转来实现两个网站的切换十分简单,需要的代码量也不多。尽管使用这种方法对于开发者来说可以降低复杂程度,但是它同样降低用户体验。一个 可替代方法就是如果两者在同一台服务器上时使用Alias和mod_rewrite和实现。如果是因为域名的不同而采用跳转,那么可以通过使用Alias 或者mod_rewirte建立CNAME(保存一个域名和另外一个域名之间关系的DNS记录)来替代。

4、可缓存的AJAX
      Ajax经常被提及的一个好处就是由于其从后台服务器传输信息的异步性而为用户带来的反馈的即时性。但是,使用Ajax并不能保证用户不会在等待异步的 JavaScript和XML响应上花费时间。在很多应用中,用户是否需要等待响应取决于Ajax如何来使用。例如,在一个基于Web的Email客户端 中,用户必须等待Ajax返回符合他们条件的邮件查询结果。记住一点,“异步”并不异味着“即时”,这很重要。

      为了提高性能,优化Ajax响应是很重要的。提高Ajxa性能的措施中最重要的方法就是使响应具有可缓存性,具体的讨论可以查看Add an Expires or a Cache-Control Header。其它的几条规则也同样适用于Ajax:
    Gizp压缩文件
    减少DNS查找次数
    精简JavaScript
    避免跳转
    配置ETags

     让我们来看一个例子:一个Web2.0的Email客户端会使用Ajax来自动完成对用户地址薄的下载。如果用户在上次使用过Email web应用程序后没有对地址薄作任何的修改,而且Ajax响应通过Expire或者Cacke-Control头来实现缓存,那么就可以直接从上一次的缓 存中读取地址薄了。必须告知浏览器是使用缓存中的地址薄还是发送一个新的请求。这可以通过为读取地址薄的Ajax URL增加一个含有上次编辑时间的时间戳来实现,例如,&t=11900241612等。如果地址薄在上次下载后没有被编辑过,时间戳就不变,则 从浏览器的缓存中加载从而减少了一次HTTP请求过程。如果用户修改过地址薄,时间戳就会用来确定新的URL和缓存响应并不匹配,浏览器就会重要请求更新 地址薄。
        即使你的Ajxa响应是动态生成的,哪怕它只适用于一个用户,那么它也应该被缓存起来。这样做可以使你的Web2.0应用程序更加快捷。

5、推迟加载内容
        你可以仔细看一下你的网页,问问自己“哪些内容是页面呈现时所必需首先加载的?哪些内容和结构可以稍后再加载?
        把整个过程按照onload事件分隔成两部分,JavaScript是一个理想的选择。例如,如果你有用于实现拖放和动画的JavaScript,那么它 就以等待稍后加载,因为页面上的拖放元素是在初始化呈现之后才发生的。其它的例如隐藏部分的内容(用户操作之后才显现的内容)和处于折叠部分的图像也可以 推迟加载
        工具可以节省你的工作量:YUI Image Loader可以帮你推迟加载折叠部分的图片,YUI Get utility是包含JS和 CSS的便捷方法。比如你可以打开Firebug的Net选项卡看一下Yahoo的首页。
        当性能目标和其它网站开发实践一致时就会相得益彰。这种情况下,通过程序提高网站性能的方法告诉我们,在支持JavaScript的情况下,可以先去除用 户体验,不过这要保证你的网站在没有JavaScript也可以正常运行。在确定页面运行正常后,再加载脚本来实现如拖放和动画等更加花哨的效果。

6、预加载
        预加载和后加载看起来似乎恰恰相反,但实际上预加载是为了实现另外一种目标。预加载是在浏览器空闲时请求将来可能会用到的页面内容(如图像、样式表和脚 本)。使用这种方法,当用户要访问下一个页面时,页面中的内容大部分已经加载到缓存中了,因此可以大大改善访问速度。

下面提供了几种预加载方法:
无条件加载:触发onload事件时,直接加载额外的页面内容。以Google.com为例,你可以看一下它的spirit image图像是怎样在onload中加载的。这个spirit image图像在google.com主页中是不需要的,但是却可以在搜索结果页面中用到它。
有条件加载:根据用户的操作来有根据地判断用户下面可能去往的页面并相应的预加载页面内容。在search.yahoo.com中你可以看到如何在你输入内容时加载额外的页面内容。
有预期的加载:载入重新设计过的页面时使用预加载。这种情况经常出现在页面经过重新设计后用户抱怨“新的页面看起来很 酷,但是却比以前慢”。问题可能出在用户对于你的旧站点建立了完整的缓存,而对于新站点却没有任何缓存内容。因此你可以在访问新站之前就加载一部内容来避 免这种结果的出现。在你的旧站中利用浏览器的空余时间加载新站中用到的图像的和脚本来提高访问速度。

7、减少DOM元素数量
        一个复杂的页面意味着需要下载更多数据,同时也意味着JavaScript遍历DOM的效率越慢。比如当你增加一个事件句柄时在500和5000个DOM元素中循环效果肯定是不一样的。
       大量的DOM元素的存在意味着页面中有可以不用移除内容只需要替换元素标签就可以精简的部分。你在页面布局中使用表格了吗?你有没有仅仅为了布局而引入更多的<div>元素呢?也许会存在一个适合或者在语意是更贴切的标签可以供你使用。
        YUI CSS utilities可以给你的布局带来巨大帮助:grids.css可以帮你实现整体布局,font.css和reset.css可以帮助你移除浏览器默 认格式。它提供了一个重新审视你页面中标签的机会,比如只有在语意上有意义时才使用<div>,而不是因为它具有换行效果才使用它。
      DOM元素数量很容易计算出来,只需要在Firebug的控制台内输入:
document.getElementsByTagName(‘*’).length
  &nbsp
;     那么多少个DOM元素算是多呢?这可以对照有很好标记使用的类似页面。比如Yahoo!主页是一个内容非常多的页面,但是它只使用了700个元素(HTML标签)。

8、根据域名划分页面内容
      把页面内容划分成若干部分可以使你最大限度地实现平行下载。由于DNS查找带来的影响你首先要确保你使用的域名数量在2个到4个之间。例如,你可以把用到 的HTML内容和动态内容放在www.example.org上,而把页面各种组件(图片、脚本、CSS)分别存放在 statics1.example.org和statics.example.org上。
你可在Tenni Theurer和Patty Chi合写的文章Maximizing Parallel Downloads in the Carpool Lane找到更多相关信息。

9、使iframe的数量最小
      ifrmae元素可以在父文档中插入一个新的HTML文档。了解iframe的工作理然后才能更加有效地使用它,这一点很重要。
<iframe>优点:

  • 解决加载缓慢的第三方内容如图标和广告等的加载问题
  • Security sandbox
  • 并行加载脚本

<iframe>的缺点:

  • 即时内容为空,加载也需要时间
  • 会阻止页面加载
  • 没有语意

10、不要出现404错误
      HTTP请求时间消耗是很大的,因此使用HTTP请求来获得一个没有用处的响应(例如404没有找到页面)是完全没有必要的,它只会降低用户体验而不会有一点好处。
      有些站点把404错误响应页面改为“你是不是要找***”,这虽然改进了用户体验但是同样也会浪费服务器资源(如数据库等)。最糟糕的情况是指向外部 JavaScript的链接出现问题并返回404代码。首先,这种加载会破坏并行加载;其次浏览器会把试图在返回的404响应内容中找到可能有用的部分当 作JavaScript代码来执行。

     在本系列的第一节中,讲了提高网站性能中网站“内容”有关的10条原则。除了在网站在内容上的改进外,在网站服务器端上也有需要注意和改进的地方,它们包括:

  1. 使用内容分发网络
  2. 为文件头指定Expires或Cache-Control
  3. Gzip压缩文件内容
  4. 配置ETag
  5. 尽早刷新输出缓冲
  6. 使用GET来完成AJAX请求


11、使用内容分发网络

      用户与你网站服务器的接近程度会影响响应时间的长短。把你的网站内容分散到多个、处于不同地域位置的服务器上可以加快下载速度。但是首先我们应该做些什么呢?
      按地域布置网站内容的第一步并不是要尝试重新架构你的网站让他们在分发服务器上正常运行。根据应用的需求来改变网站结构,这可能会包括一些比较复杂的任 务,如在服务器间同步Session状态和合并数据库更新等。要想缩短用户和内容服务器的距离,这些架构步骤可能是不可避免的。
      要记住,在终端用户的响应时间中有80%到90%的响应时间用于下载图像、样式表、脚本、Flash等页面内容。这就是网站性能黄金守则。和重新设计你的 应用程序架构这样比较困难的任务相比,首先来分布静态内容会更好一点。这不仅会缩短响应时间,而且对于内容分发网络来说它更容易实现。
      内容分发网络(Content Delivery Network,CDN)是由一系列分散到各个不同地理位置上的Web服务器组成的,它提高了网站内容的传输速度。用于向用户传输内容的服务器主要是根据 和用户在网络上的靠近程度来指定的。例如,拥有最少网络跳数(network hops)和响应速度最快的服务器会被选定。
      一些大型的网络公司拥有自己的CDN,但是使用像Akamai TechnologiesMirror Image Internet, 或者Limelight Networks这 样的CDN服务成本却非常高。对于刚刚起步的企业和个人网站来说,可能没有使用CDN的成本预算,但是随着目标用户群的不断扩大和更加全球化,CDN就是 实现快速响应所必需的了。以Yahoo来说,他们转移到CDN上的网站程序静态内容节省了终端用户20%以上的响应时间。使用CDN是一个只需要相对简单 地修改代码实现显著改善网站访问速度的方法。

12、为文件头指定Expires或Cache-Control
      这条守则包括两方面的内容:
对于静态内容:设置文件头过期时间Expires的值为“Never expire”(永不过期)
对于动态内容:使用恰当的Cache-Control文件头来帮助浏览器进行有条件的请求
      网页内容设计现在越来越丰富,这就意味着页面中要包含更多的脚本、样式表、图片和Flash。第一次访问你页面的用户就意味着进行多次的HTTP请求,但 是通过使用Expires文件头就可以使这样内容具有缓存性。它避免了接下来的页面访问中不必要的HTTP请求。Expires文件头经常用于图像文件, 但是应该在所有的内容都使用他,包括脚本、样式表和Flash等。
      浏览器(和代理)使用缓存来减少HTTP请求的大小和次数以加快页面访问速度。Web服务器在HTTP响应中使用Expires文件头来告诉客户端内容需 要缓存多长时间。下面这个例子是一个较长时间的Expires文件头,它告诉浏览器这个响应直到2010年4月15日才过期。
      Expires: Thu, 15 Apr 2010 20:00:00 GMT
      如果你使用的是Apache服务器,可以使用ExpiresDefault来设定相对当前日期的过期时间。下面这个例子是使用ExpiresDefault来设定请求时间后10年过期的文件头:
      ExpiresDefault "access plus 10 years"
      要切记,如果使用了Expires文件头,当页面内容改变时就必须改变内容的文件名。依Yahoo!来说我们经常使用这样的步骤:在内容的文件名中加上版本号,如yahoo_2.0.6.js。
      使用Expires文件头只有会在用户已经访问过你的网站后才会起作用。当用户首次访问你的网站时这对减少HTTP请求次数来说是无效的,因为浏览器的缓 存是空的。因此这种方法对于你网站性能的改进情况要依据他们“预缓存&rdquo
;存在时对你页面的点击频率(“预缓存”中已经包含了页面中的所有内容)。Yahoo!建立了一套测量方法,我们发现所有的页面浏览量中有75~85%都有“预缓存”。通过使用Expires文件头,增加了缓存在浏览器中内容的数量,并且可以在用户接下来的请求中再次使用这些内容,这甚至都不需要通过用户发送一个字节的请求。

13、Gzip压缩文件内容
      网络传输中的HTTP请求和应答时间可以通过前端机制得到显著改善。的确,终端用户的带宽、互联网提供者、与对等交换点的靠近程度等都不是网站开发者所能决定的。但是还有其他因素影响着响应时间。通过减小HTTP响应的大小可以节省HTTP响应时间。
      从HTTP/1.1开始,web客户端都默认支持HTTP请求中有Accept-Encoding文件头的压缩格式:   
      Accept-Encoding: gzip, deflate
      如果web服务器在请求的文件头中检测到上面的代码,就会以客户端列出的方式压缩响应内容。Web服务器把压缩方式通过响应文件头中的Content-Encoding来返回给浏览器。
      Content-Encoding: gzip
      Gzip是目前最流行也是最有效的压缩方式。这是由GNU项目开发并通过RFC 1952来标准化的。另外仅有的一个压缩格式是deflate,但是它的使用范围有限效果也稍稍逊色。
      Gzip大概可以减少70%的响应规模。目前大约有90%通过浏览器传输的互联网交换支持gzip格式。如果你使用的是Apache,gzip模块配置和你的版本有关:Apache 1.3使用mod_zip,而Apache 2.x使用moflate
      浏览器和代理都会存在这样的问题:浏览器期望收到的和实际接收到的内容会存在不匹配的现象。幸好,这种特殊情况随着旧式浏览器使用量的减少在减少。Apache模块会通过自动添加适当的Vary响应文件头来避免这种状况的出现。
      服务器根据文件类型来选择需要进行gzip压缩的文件,但是这过于限制了可压缩的文件。大多数web服务器会压缩HTML文档。对脚本和样式表进行压缩同 样也是值得做的事情,但是很多web服务器都没有这个功能。实际上,压缩任何一个文本类型的响应,包括XML和JSON,都值得的。图像和PDF文件由于 已经压缩过了所以不能再进行gzip压缩。如果试图gizp压缩这些文件的话不但会浪费CPU资源还会增加文件的大小。
      Gzip压缩所有可能的文件类型是减少文件体积增加用户体验的简单方法。

14、配置ETag
      Entity tags(ETags)(实体标签)是web服务器和浏览器用于判断浏览器缓存中的内容和服务器中的原始内容是否匹配的一种机制(“实体”就是所说的“内 容”,包括图片、脚本、样式表等)。增加ETag为实体的验证提供了一个比使用“last-modified date(上次编辑时间)”更加灵活的机制。Etag是一个识别内容版本号的唯一字符串。唯一的格式限制就是它必须包含在双引号内。原始服务器通过含有 ETag文件头的响应指定页面内容的ETag。
      HTTP/1.1 200 OK
      Last-Modified: Tue, 12 Dec 2006 03:03:59 GMT
      ETag: "10c24bc-4ab-457e1c1f"
      Content-Length: 12195
      稍后,如果浏览器要验证一个文件,它会使用If-None-Match文件头来把ETag传回给原始服务器。在这个例子中,如果ETag匹配,就会返回一 个304状态码,这就节省了12195字节的响应。      GET /i/yahoo.gif HTTP/1.1
      Host: us.yimg.com
      If-Modified-Since: Tue, 12 Dec 2006 03:03:59 GMT
      If-None-Match: "10c24bc-4ab-457e1c1f"
      HTTP/1.1 304 Not Modified
      ETag的问题在于,它是根据可以辨别网站所在的服务器的具有唯一性的属性来生成的。当浏览器从一台服务器上获得页面内容后到另外一台服务器上进行验证时 ETag就会不匹配,这种情况对于使用服务器组和处理请求的网站来说是非常常见的。默认情况下,Apache和IIS都会把数据嵌入ETag中,这会显著 减少多服务器间的文件验证冲突。
      Apache 1.3和2.x中的ETag格式为inode-size-timestamp。即使某个文件在不同的服务器上会处于相同的目录下,文件大小、权限、时间戳等都完全相同,但是在不同服务器上他们的内码也是不同的。
      IIS 5.0和IIS 6.0处理ETag的机制相似。IIS中的ETag格式为Filetimestamp:ChangeNumber。用ChangeNumber来跟踪 IIS配置的改变。网站所用的不同IIS服务器间ChangeNumber也不相同。 不同的服务器上的Apache和IIS即使对于完全相同的内容产生的ETag在也不相同,用户并不会接收到一个小而快的304响应;相反他们会接收一个正 常的200响应并下载全部内容。如果你的网站只放在一台服务器上,就不会存在这个问题。但是如果你的网站是架设在多个服务器上,并且使用Apache和 IIS产生默认的ETag配置,你的用户获得页面就会相对慢一点,服务器会传输更多的内容,占用更多的带宽,代理也不会有效地缓存你的网站内容。即使你的 内容拥有Expires文件头,无论用户什么时候点击“刷新”或者“重载”按钮都会发送相应的GET请求。
      如果你没有使用ETag提供的灵活的验证模式,那么干脆把所有的ETag都去掉会更好。Last-Modified文件头验证是基于内容的时间戳的。去掉ETag文件头会减少响应和下次请求中文件的大小。微软的这篇支持文稿讲述了如何去掉ETag。在Apache中,只需要在配置文件中简单添加下面一行代码就可以了:
      FileETag none

15、尽早刷新输出缓冲
      当用户请求一个页面时,无论如何都会花费200到500毫秒用于后台组织HTML文件。在这期间,浏览器会一直空闲等待数据返回。在PHP中,你可以使用 flush()方法,它允许你把已经编译的好的部分HTML响应文件先发送给浏览器,这时浏览器就会可以下载文件中的内容(脚本等)而后台同时处理剩余的 HTML页面。这样做的效果会在后台烦恼或者前台较空闲时更加明显。
      输出缓冲应用最好的一个地方就是紧跟在<head />之后,因为HTML的头部分容易生成而且头部往往包含CSS和JavaScript文件,这样浏览器就可以在后台编译剩余HTML的同时并行下载它们。 例子:

      … <!– css,
js –>
    </head>
    <?php flush(); ?>
    <body>
      … <!– content –>

为了证明使用这项技术的好处,Yahoo!搜索率先研究并完成了用户测试。

16、使用GET来完成AJAX请求
      Yahoo!Mail团 队发现,当使用XMLHttpRequest时,浏览器中的POST方法是一个“两步走”的过程:首先发送文件头,然后才发送数据。因此使用GET最为恰 当,因为它只需发送一个TCP包(除非你有很多cookie)。IE中URL的最大长度为2K,因此如果你要发送一个超过2K的数据时就不能使用GET 了。
      一个有趣的不同就是POST并不像GET那样实际发送数据。根据HTTP规范,GET意味着“获取”数据,因此当你仅仅获取数据时使用GET更加有意义(从语意上讲也是如此),相反,发送并在服务端保存数据时使用POST。

      在第一部分和第二部分中我们分别介绍了改善网站性能中页面内容服务器的几条守则,除此之外,JavaScript和CSS也是我们页面中经常用到的内容,对它们的优化也提高网站性能的重要方面:
CSS:

  1. 把样式表置于顶部
  2. 避免使用CSS表达式(Expression)
  3. 使用外部JavaScript和CSS
  4. 削减JavaScript和CSS
  5. 用<link>代替@import
  6. 避免使用滤镜

JavaScript

  1. 把脚本置于页面底部
  2. 使用外部JavaScript和CSS
  3. 削减JavaScript和CSS
  4. 剔除重复脚本
  5. 减少DOM访问
  6. 开发智能事件处理程序

17、把样式表置于顶部
      在研究Yahoo!的性能表现时,我们发现把样式表放到文档的<head />内部似乎会加快页面的下载速度。这是因为把样式表放到<head />内会使页面有步骤的加载显示。
      注重性能的前端服务器往往希望页面有秩序地加载。同时,我们也希望浏览器把已经接收到内容尽可能显示出来。这对于拥有较多内容的页面和网速较慢的用户来说特别重要。向用户返回可视化的反馈,比如进程指针,已经有了较好的研究并形成了正式文档。在我们的研究中HTML页面就是进程指针。当浏览器有序地加载文件头、导航栏、顶部的logo等对于等待页面加载的用户来说都可以作为可视化的反馈。这从整体上改善了用户体验。
      把样式表放在文档底部的问题是在包括Internet Explorer在内的很多浏览器中这会中止内容的有序呈现。浏览器中止呈现是为了避免样式改变引起的页面元素重绘。用户不得不面对一个空白页面。
      HTML规范清 楚指出样式表要放包含在页面的<head />区域内:“和<a />不同,<link />只能出现在文档的<head />区域内,尽管它可以多次使用它”。无论是引起白屏还是出现没有样式化的内容都不值得去尝试。最好的方案就是按照HTML规范在文 档<head />内加载你的样式表。

18、避免使用CSS表达式(Expression)
      CSS表达式是动态设置CSS属性的强大(但危险)方法。Internet Explorer从第5个版本开始支持CSS表达式。下面的例子中,使用CSS表达式可以实现隔一个小时切换一次背景颜色:
      background-color: expression( (new Date()).getHours()%2 ? "#B8D4FF" : "#F08A00" );
如上所示,expression中使用了JavaScript表达式。CSS属性根据JavaScript表达式的计算结果来设置。expression方法在其它浏览器中不起作用,因此在跨浏览器的设计中单独针对Internet Explorer设置时会比较有用。
      表达式的问题就在于它的计算频率要比我们想象的多。不仅仅是在页面显示和缩放时,就是在页面滚动、乃至移动鼠标时都会要重新计算一次。给CSS表达式增加一个计数器可以跟踪表达式的计算频率。在页面中随便移动鼠标都可以轻松达到10000次以上的计算量。
      一个减少CSS表达式计算次数的方法就是使用一次性的表达式,它在第一次运行时将结果赋给指定的样式属性,并用这个属性来代替CSS表达式。如果样式属性 必须在页面周期内动态地改变,使用事件句柄来代替CSS表达式是一个可行办法。如果必须使用CSS表达式,一定要记住它们要计算成千上万次并且可能会对你 页面的性能产生影响。

19、使用外部JavaScript和CSS
      很多性能规则都是关于如何处理外部文件的。但是,在你采取这些措施前你可能会问到一个更基本的问题:JavaScript和CSS是应该放在外部文件中呢还是把它们放在页面本身之内呢?
      在实际应用中使用外部文件可以提高页面速度,因为JavaScript和CSS文件都能在浏览器中产生缓存。内置在HTML文档中的JavaScript 和CSS则会在每次请求中随HTML文档重新下载。这虽然减少了HTTP请求的次数,却增加了HTML文档的大小。从另一方面来说,如果外部文件中的 JavaScript和CSS被浏览器缓存,在没有增加HTTP请求次数的同时可以减少HTML文档的大小。
      关键问题是,外部JavaScript和CSS文件缓存的频率和请求HTML文档的次数有关。虽然有一定的难度,但是仍然有一些指标可以一测量它。如果一 个会话中用户会浏览你网站中的多个页面,并且这些页面中会重复使用相同的脚本和样式表,缓存外部文件就会带来更大的益处。
      许多网站没有功能建立这些指标。对于这些网站来说,最好的坚决方法就是把JavaScript
和CSS作为外部文件引用。比较适合使用内置代码的例外就是网站的主页,如Yahoo!主页My Yahoo!。主页在一次会话中拥有较少(可能只有一次)的浏览量,你可以发现内置JavaScript和CSS对于终端用户来说会加快响应时 间。
      对于拥有较大浏览量的首页来说,有一种技术可以平衡内置代码带来的HTTP请求减少与通过使用外部文件进行缓存带来的好处。其中一个就是在首页中内置 JavaScript和CSS,但是在页面下载完成后动态下载外部文件,在子页面中使用到这些文件时,它们已经缓存到浏览器了。

20、削减JavaScript和CSS
      精简是指从去除代码不必要的字符减少文件大小从而节省下载时间。消减代码时,所有的注释、不需要的空白字符(空格、换行、tab缩进)等都要去掉。在 JavaScript中,由于需要下载的文件体积变小了从而节省了响应时间。精简JavaScript中目前用到的最广泛的两个工具是JSMinYUI Compressor。YUI Compressor还可用于精简CSS。
      混淆是另外一种可用于源代码优化的方法。这种方法要比精简复杂一些并且在混淆的过程更易产生问题。在对美国前10大网站的调查中发现,精简也可以缩小原来 代码体积的21%,而混淆可以达到25%。尽管混淆法可以更好地缩减代码,但是对于JavaScript来说精简的风险更小。
      除消减外部的脚本和样式表文件外,<script>和<style>代码块也可以并且应该进行消减。即使你用Gzip压缩过脚本 和样式表,精简这些文件仍然可以节省5%以上的空间。由于JavaScript和CSS的功能和体积的增加,消减代码将会获得益处。

21、用<link>代替@import
      前面的最佳实现中提到CSS应该放置在顶端以利于有序加载呈现。
      在IE中,页面底部@import和使用<link>作用是一样的,因此最好不要使用它。

22、避免使用滤镜
      IE独有属性AlphaImageLoader用于修正7.0以下版本中显示PNG图片的半透明效果。这个滤镜的问题在于浏览器加载图片时它会终止内容的 呈现并且冻结浏览器。在每一个元素(不仅仅是图片)它都会运算一次,增加了内存开支,因此它的问题是多方面的。
      完全避免使用AlphaImageLoader的最好方法就是使用PNG8格式来代替,这种格式能在IE中很好地工作。如果你确实需要使用AlphaImageLoader,请使用下划线_filter又使之对IE7以上版本的用户无效。

23、把脚本置于页面底部
      脚本带来的问题就是它阻止了页面的平行下载。HTTP/1.1 规范建议,浏览器每个主机名的并行下载内容不超过两个。如果你的图片放在多个主机名上,你可以在每个并行下载中同时下载2个以上的文件。但是当下载脚本时,浏览器就不会同时下载其它文件了,即便是主机名不相同。
      在某些情况下把脚本移到页面底部可能不太容易。比如说,如果脚本中使用了document.write来插入页面内容,它就不能被往下移动了。这里可能还会有作用域的问题。很多情况下,都会遇到这方面的问题。
      一个经常用到的替代方法就是使用延迟脚本。DEFER属性表明脚本中没有包含document.write,它告诉浏览器继续显示。不幸的 是,Firefox并不支持DEFER属性。在Internet Explorer中,脚本可能会被延迟但效果也不会像我们所期望的那样。如果脚本可以被延迟,那么它就可以移到页面的底部。这会让你的页面加载的快一点。

24、剔除重复脚本
      在同一个页面中重复引用JavaScript文件会影响页面的性能。你可能会认为这种情况并不多见。对于美国前10大网站的调查显示其中有两家存在重复引 用脚本的情况。有两种主要因素导致一个脚本被重复引用的奇怪现象发生:团队规模和脚本数量。如果真的存在这种情况,重复脚本会引起不必要的HTTP请求和 无用的JavaScript运算,这降低了网站性能。
      在Internet Explorer中会产生不必要的HTTP请求,而在Firefox却不会。在Internet Explorer中,如果一个脚本被引用两次而且它又不可缓存,它就会在页面加载过程中产生两次HTTP请求。即时脚本可以缓存,当用户重载页面时也会产 生额外的HTTP请求。
      除增加额外的HTTP请求外,多次运算脚本也会浪费时间。在Internet Explorer和Firefox中不管脚本是否可缓存,它们都存在重复运算JavaScript的问题。
      一个避免偶尔发生的两次引用同一脚本的方法是在模板中使用脚本管理模块引用脚本。在HTML页面中使用<script />标签引用脚本的最常见方法就是:
      <script type="text/javascript" src="menu_1.0.17.js"></script>
在PHP中可以通过创建名为insertScript的方法来替代:
      <?php insertScript("menu.js") ?>
为了防止多次重复引用脚本,这个方法中还应该使用其它机制来处理脚本,如检查所属目录和为脚本文件名中增加版本号以用于Expire文件头等。

25、减少DOM访问
      使用JavaScript访问DOM元素比较慢,因此为了获得更多的应该页面,应该做到:

  • 缓存已经访问过的有关元素
  • 线下更新完节点之后再将它们添加到文档树中
  • 避免使用JavaScript来修改页面布局

      有关此方面的更多信息请查看Julien Lecomte在YUI专题中的文章“高性能Ajax应该程序”

26、开发智能事件处理程序
      有时候我们会感觉到页面反应迟钝,这是因为DOM树元素中附加了过多的事件句柄并且些事件句病被频繁地触发。这就是为什么说使用event delegation(事件代理)是一种好方法了。如果你在一个div中有10个按钮,你只需要在div上附加一次事件句柄就可以了,而不用去为每一个按 钮增加一个句柄。事件冒泡时你可以捕捉到事件并判断出是哪个事件发出的。
      你同样也不用为了操作DOM树而等待onload事件的发生。你需要做的就是等待树结构中你要访问的元素出现。你也不用等待所有图像都加载完毕。
   &
nbsp;  你可能会希望用DOMContentLoaded事件来代替onload,但是在所有浏览器都支持它之前你可使用YUI 事件应用程序中的onAvailable方法。
      有关此方面的更多信息请查看Julien Lecomte在YUI专题中的文章“高性能Ajax应该程序”

      我们在前面的几节中分别讲了提高网站性能中内容服务器JavaScript和CSS等方面的内容。除此之外,图片和Coockie也是我们网站中几乎不可缺少组成部分,此外随着移动设备的流行,对于移动应用的优化也十分重要。这主要包括:
Coockie:

  1. 减小Cookie体积
  2. 对于页面内容使用无coockie域名

图片:

  1. 优化图像
  2. 优化CSS Spirite
  3. 不要在HTML中缩放图像
  4. favicon.ico要小而且可缓存

移动应用:

  1. 保持单个内容小于25K
  2. 打包组件成复合文本


27、减小Cookie体积

      HTTP coockie可以用于权限验证和个性化身份等多种用途。coockie内的有关信息是通过HTTP文件头来在web服务器和浏览器之间进行交流的。因此保持coockie尽可能的小以减少用户的响应时间十分重要。
有关更多信息可以查看Tenni Theurer和Patty Chi的文章“When the Cookie Crumbles”。这们研究中主要包括:

  • 去除不必要的coockie
  • 使coockie体积尽量小以减少对用户响应的影响
  • 注意在适应级别的域名上设置coockie以便使子域名不受影响
  • 设置合理的过期时间。较早地Expire时间和不要过早去清除coockie,都会改善用户的响应时间。

28、对于页面内容使用无coockie域名
      当浏览器在请求中同时请求一张静态的图片和发送coockie时,服务器对于这些coockie不会做任何地使用。因此他们只是因为某些负面因素而创建的 网络传输。所有你应该确定对于静态内容的请求是无coockie的请求。创建一个子域名并用他来存放所有静态内容。
      如果你的域名是www.example.org,你可以在static.example.org上存在静态内容。但是,如果你不是在 www.example.org上而是在顶级域名example.org设置了coockie,那么所有对于static.example.org的请求 都包含coockie。在这种情况下,你可以再重新购买一个新的域名来存在静态内容,并且要保持这个域名是无coockie的。Yahoo!使用的是 ymig.com,YouTube使用的是ytimg.com,Amazon使用的是images-anazon.com等等。
      使用无coockie域名存在静态内容的另外一个好处就是一些代理(服务器)可能会拒绝对coockie的内容请求进行缓存。一个相关的建议就是,如果你 想确定应该使用example.org还是www.example.org作为你的一主页,你要考虑到coockie带来的影响。忽略掉www会使你除了 把coockie设置到*.example.org(*是泛域名解析,代表了所有子域名译者dudo注)外没有其它选择,因此出于性能方面的考虑最好是使用带有www的子域名并且在它上面设置coockie。

29、优化图像
      设计人员完成对页面的设计之后,不要急于将它们上传到web服务器,这里还需要做几件事:

  • 你可以检查一下你的GIF图片中图像颜色的数量是否和调色板规格一致。 使用imagemagick中下面的命令行很容易检查:
    identify -verbose image.gif
    如果你发现图片中只用到了4种颜色,而在调色板的中显示的256色的颜色槽,那么这张图片就还有压缩的空间。
  • 尝 试把GIF格式转换成PNG格式,看看是否节省空间。大多数情况下是可以压缩的。由于浏览器支持有限,设计者们往往不太乐意使用PNG格式的图片,不过这 都是过去的事情了。现在只有一个问题就是在真彩PNG格式中的alpha通道半透明问题,不过同样的,GIF也不是真彩格式也不支持半透明。因此GIF能 做到的,PNG(PNG8)同样也能做到(除了动画)。下面这条简单的命令可以安全地把GIF格式转换为PNG格式:
    convert image.gif image.png
    “我们要说的是:给PNG一个施展身手的机会吧!”
  • 在所有的PNG图片上运行30、优化CSS Spirite

    • 在Spirite中水平排列你的图片,垂直排列会稍稍增加文件大小;
    • Spirite中把颜色较近的组合在一起可以降低颜色数,理想状况是低于256色以便适用PNG8格式;
    • 便于移动,不要在Spirite的图像中间留有较大空隙。这虽然不大会增加文件大小但对于用户代理来说它需要更少的内存来把图片解压为像素地图。100×100的图片为1万像素,而1000×1000就是100万像素。

    31、不要在HTML中缩放图像
          不要为了在HTML中设置长宽而使用比实际需要大的图片。如果你需要:
    <img width="100" height="100" src="mycat.jpg" alt="My Cat" />
    那么你的图片(mycat.jpg)就应该是100×100像素而不是把一个500×500像素的图片缩小使用。

    32、favicon.ico要小而且可缓存
          favicon.ico是位于服务器根目录下的一个图片文件。它是必定存在的,因为即使你不关心它是否有用,浏览器也会对它发出请求,因此最好不要返回一 个404 Not Found的响应。由于是在同一台服务器上,它每被请求一次coockie就会被发送一次。这个图片文件还会影响下载顺序,例如

Leave a Comment : more...

Looking for something?

Use the form below to search the site:

Still not finding what you're looking for? Drop a comment on a post or contact us so we can take care of it!

Blogroll

A few highly recommended websites...