中国互联网络信息资源数量调查报告2001
中国互联网络信息中心
1.1调查内容
调查内容及说明如下:
调查内容 |
调查指标 |
备注 |
数据来源 |
域名总量 |
域名总量 |
按照省级行政区划进行地区分布分析 |
注册商上报数据 |
各地区域名分布状况 |
|
网站总量 |
网站总量 |
|
总量采用上报与计算机搜索获得 |
各地区网站分布状况 |
按照省级行政区划进行地区分布分析 |
各种性质的网站分布状况 |
按网站的域名特征进行分类 |
网页总量 |
网页总量 |
|
采用计算机搜索获得 |
网页的各种内容形式分类数 |
包括图像、音频和视频 |
网页长度 |
以字节数计算 |
网页的更新周期 |
|
网页编码状况 |
包括简体中文、繁体中文、英文和其他形式 |
在线数据库总量 |
各地区在线数据库/记录分布状况 |
|
数据通过问卷调查获得 |
各种内容在线数据库/记录分布状况 |
|
在线数据库更新状况 |
|
在线数据库的收费情况 |
|
1.2调查时间
本次调查从2001年3月开始,历时3个月。
1.3调查方法
(一) 调查对象
考虑到此次调查的时间短和难度大的特点,本次调查暂不包括港澳台地区的网站。因此,调查对象定为中国大陆地区的CN和通用顶级域名(即:COM、COM.CN、NET、NET.CN、ORG、ORG.CN、GOV.CN、EDU.CN、AC.CN、行政区域.CN等)下的域名对应的网站。
(二) 调查方法
考虑到调查的科学性和可行性,此次调查主要采用抽样调查的方法进行。
1. 抽样框:要求抽样框包含目前国内所有大小类型的网站,整个抽样框由国内各家域名注册代理商所注册的通用顶级域名(gTLD)网站和CN域名下的网站合并而成。
2.
样本量:在置信度为95%的精度要求下,取样本量为2401家网站,可保证最大允许绝对误差小于2%。,考虑到设计效应,实际样本量为6000家网站。
3.
抽样方法:由各家域名注册代理商首先在域名中挑出有网站的域名列表,按照省、市对这些网站进行排序,然后在各省、市下再按网站域名性质排序,进而在网站域名类型下按网站所属单位性质排序,最后按照三次排序后的顺序依次对网站进行编号。根据各注册代理商拥有的网站数占全国网站总数的比例,由CNNIC统一分配每家注册代理商所需抽取的样本数,再由各注册代理商按照上面排序后的编号进行等距抽取。《抽样方案》参见附件1。
(三) 具体实施
在此次调查过程中,国际通用顶级域名(gTLD)总数和这些域名的网站总数及其地区分布由国内各域名注册商上报得到;从CNNIC的域名总库中拿到所有CN域名的列表,搜索得到所有CN域名下的网站数。将这两部分数据分别相加即得到我国的域名与网站的总量数据。网页特征数据主要在抽取的有网站的域名列表中,在每个域名的前面加上"www.",然后由百度公司利用其基于互联网的网站搜索和网页级搜索技术,对抽取的网站进行了搜索,并通过URL判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的IP地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。在对所有抽取的网站搜索结束后,根据抽样方案,将数据整理、汇总后,算得全国平均每个网站的网页数和网页长度,再分别乘以全国的网站总数和总网页数,即得到全国的总网页数和网页长度。
对在线数据库、网页浏览量以及网站的基本情况如网站类型、服务器数量等通过问卷采用电话调查的方式获得。问卷调查按域名管理联系人的电话共拨打14318个电话,最终获得合格样本2500个。《调查问卷》参见附件2。
(四)总量计算方法
1.域名总数 = 通用顶级域名数(gTLD)+CN域名
2.网站总数 = 通用顶级域名数(gTLD)下的网站+CN域名下的网站
3.网页总数 = 平均每个网站网页数*全国网站数
4.网页总长度 = 平均每个网页长度*网页总数
5.在线数据库总量 =(根据计算机搜索得到的网站总量*抽样网站在线数据库总数)/ 抽样网站总数
1.4调查组织单位
(一) 主持单位
国家信息化推进工作办公室
(二) 实施单位
中国互联网络信息中心
中国电子信息产业发展研究院赛迪数据公司
国家信息资源管理南京研究基地
(三) 支持单位
在本次调查的数据收集过程中,得到了以下单位的大力协助,特此表示感谢(单位排名不分先后):
百度在线网络技术(北京)有限公司
创联万网国际信息技术(北京)有限公司
北京信诺立兴业网络通信技术有限公司
北京东方网景信息科技有限公司
信海科技发展有限公司
东方通信股份有限公司
厦门精通科技实业有限公司
吉通网络通信股份有限公司
2.1调查报告
注:以下数据的截止日期为:2001年4月30日
2.1.1域名数
1. 全国域名数:692490
注:域名包括CN域名和通用顶级域名(gTLD),不含中文域名。
2. 分地区域名比例 (%)
北京 |
上海 |
天津 |
重庆 |
安徽 |
21.76 |
9.85 |
1.64 |
0.74 |
1.02 |
福建 |
甘肃 |
广东 |
广西 |
贵州 |
4.73 |
0.51 |
13.84 |
1.33 |
0.45 |
海南 |
河北 |
河南 |
黑龙江 |
湖北 |
1.13 |
1.49 |
3.19 |
1.36 |
3.21 |
湖南 |
吉林 |
江苏 |
江西 |
辽宁 |
1.84 |
0.76 |
5.78 |
0.95 |
4.71 |
内蒙古 |
宁夏 |
青海 |
山东 |
山西 |
0.46 |
0.33 |
0.23 |
3.36 |
0.95 |
陕西 |
四川 |
西藏 |
新疆 |
云南 |
2.10 |
3.35 |
0.37 |
1.13 |
1.01 |
浙江 |
|
|
|
|
6.39 |
|
|
|
|
2.1.2网站数
1.全国网站数:238249
2.根据网站域名分类状况(%)
|
AC.CN |
COM和COM.CN |
EDU.CN |
GOV .CN |
NET和NET.CN |
ORG和ORG .CN |
行政区域名.CN |
合计 |
百分比 |
0.17 |
80.73 |
0.49 |
1.41 |
12.69 |
3.87 |
0.64 |
100 |
3.分地区网站比例 (%)
北京 |
上海 |
天津 |
重庆 |
安徽 |
22.01 |
10.13 |
1.69 |
0.97 |
1.38 |
福建 |
甘肃 |
广东 |
广西 |
贵州 |
5.72 |
0.67 |
14.49 |
1.37 |
0.56 |
海南 |
河北 |
河南 |
黑龙江 |
湖北 |
1.04 |
2.18 |
2.17 |
1.55 |
2.34 |
湖南 |
吉林 |
江苏 |
江西 |
辽宁 |
1.62 |
1.00 |
5.85 |
0.72 |
3.77 |
内蒙古 |
宁夏 |
青海 |
山东 |
山西 |
0.62 |
0.43 |
0.23 |
3.18 |
0.95 |
陕西 |
四川 |
西藏 |
新疆 |
云南 |
1.77 |
3.20 |
0.42 |
1.37 |
1.30 |
浙江 |
|
|
|
|
5.30 |
|
|
|
|
4.根据网站性质分类情况(%)
根据网站的经营主体的性质我们将网站区分为以下几类,如下图所示,企业网站的比重最大,占整个网站总体的77.8%,其次为政府机构网站,占8.6%,商业网站的所占比例为5.4%,教育科研机构网站占3.3%。
注:商业网站指虚拟的网络型网站,如新浪、搜狐等".com"公司;企业网站是相对于商业网站而言,指业务主要在网下的企业所建立的网站。(引自美国权威调查机构FORRESTER RESEARCH的《全球B2B电子商务市场现状》中对网站的分类标准。)
(一) 各类型网站提供的主要服务
1. 政府网站提供的主要服务
政府网站所提供的主要服务有职能/业务介绍,政府公告/法律法规,以及政府新闻,行业/地区信息,办事指南等。
详见下图。
2. 商业网站提供的主要服务
商业网站所提供的主要服务集中在电子商务、新闻、网上社区、电子信箱等。
有
45.4%的商业网站提供电子商务服务(分别是:18%为B2C,15.8%为B2B,4.5%为网上酒店预定,3.4%为网上股票交易,2.6%为网上订票,拍卖/集体议价为1.1%),21%提供电子邮件服务(13.9%为免费电子信箱,8.6%为收费电子信箱),17.6%提供主页空间服务(收费为8.6%,免费为9%)。有的网站同时提供不止一种服务。详见下图。
3. 企业网站提供的主要服务
企业网站所提供的服务主要集中在企业介绍与产品/服务介绍。
有11.2%提供电子商务服务(B2C为5.9%,B2B为4.9%,网上招标1.4%)。
详见下图。
(二) 各行业网站分布状况
从行业分布看,电脑/通信设备/网络设备/软件业网站占21%,零售批发贸易业的网站占11.6%,第三为机械及工业制品行业,占6.6%,第四为公关、咨询、广告和市场研究等服务业,占6.3%。
(三)网站的基本情况
1. 网站的每天页面浏览量(pageview)
企业网站所获得的浏览量占比重最大,占全部网站的43%左右,其次为商业网站,其获得浏览量占全部网站浏览量的29%,第三为个人网站,其浏览量占全部网站的8.9%,第四为政府机构网站,其浏览量占全部网站的7.6%。
平均每个商业网站每天的浏览量为5342个页面,是企业网站的10倍左右,是政府机构网站的6倍左右。
从企业网站的浏览量在各行业分布看,零售批发贸易业的浏览量最高,占24.1%,其次为电脑/通信设备/网络设备/软件业,占18.8%,第三为机械及工业制品占7.4%
。另外,科学研究和综合技术服务业及公关、咨询、广告和市场研究等服务业等的浏览量也分别占5.8%与4.7%。
2. 服务器的拥有情况
从总体看,有25.1%的网站拥有服务器。
在商业网站中,有68.2%的拥有服务器,在政府机构网站与教育、科研机构网站中,分别有50.8%和50%拥有服务器。
3. 网站的服务器数
半数以上的网站只拥有1台服务器,拥有3台以上服务器的网站25%左右。
不同类型的网站拥有服务器的数量也不尽相同,其中商业网站拥有的服务器数量最多,拥有3台以上的比例为41.1%,5台及以上的比例为24.4%。
|
政府机构网站 |
企业网站 |
商业网站 |
教育、科研机构网站 |
|
% |
% |
% |
% |
1台 |
42.0 |
58.9 |
41.1 |
53.8 |
2台 |
28.0 |
20.1 |
17.8 |
15.4 |
3台 |
5.0 |
9.2 |
10.0 |
7.7 |
4台 |
7.0 |
4.3 |
6.7 |
12.8 |
5台及以上 |
18.0 |
7.5 |
24.4 |
10.3 |
4. 网站的链接数
从总体看,没有进行过任何网站链接的网站占47.8%,在进行链接的网站中,链接2-5家的比例最大,为22.7%,其次为链接6-10家,占11%。另有少部分网站链接超过了20家。
从不同网站类型看,商业网站的链接数量明显高于其它类型的网站,链接数量超过20家的比例将近30%,而企业网站链接最少,有53%没有进行任何链接,链接超过20家以上的占6%。
|
政府机构网站 |
企业网站 |
商业网站 |
教育、科研机构网站 |
个人网站 |
|
% |
% |
% |
% |
% |
没有 |
25.3 |
53.0 |
20.5 |
43.6 |
38.9 |
2-5家 |
30.4 |
22.0 |
22.0 |
19.2 |
26.4 |
6-10家 |
16.5 |
10.5 |
12.1 |
10.3 |
9.7 |
11家-20家 |
14.9 |
8.2 |
15.9 |
12.8 |
11.1 |
21-50家 |
10.8 |
3.1 |
12.1 |
6.4 |
9.7 |
51家或以上 |
2.1 |
3.1 |
17.4 |
7.7 |
4.2 |
5. 网站的员工人数
只有1个员工的网站占31.6%,有两个员工占20.5%,员工人数在3 人及以下的比例在65%以上。
网站的平均员工人数为6.2人。
商业网站的平均员工人数大约为19.3人,教育/科研机构网站平均员工人数为8.3人,个人网站平均员工人数为1.2人。
6. 网站的成立时间
2000年至今成立的网站占67%,其中2000年成立比例占49.2%,13.3%的网站是在98年及以前成立的网站。
2.1.3网页数
1. 网页总体状况
全国共有网页数(个) |
全国网页字节数 (KB) |
|
其中:全国平均每个网站网页数 |
静态网页数与动态网页数比例 |
|
其中:平均每个网页的字节数(KB) |
159,460,056 |
669.3 |
10:6 |
3,158,903,703 |
19.81 |
2. 网页的编码类型比例 (%)
简体比例 |
繁体比例 |
英文比例 |
其他比例 |
90.77 |
1.68 |
7.52 |
0.03 |
3. 网页的内容形式
全国平均每个网站的图像文件数 |
全国平均每个网站的音频文件数 |
全国平均每个网站的视频文件数 |
|
其中:每个网页下图像文件数 |
|
|
4291 |
6.4 |
5.0 |
0.3 |
4. 网页的更新情况比例 (%)
更新时间在1周以内 |
更新时间在1周到1个月之间 |
更新时间在1个月以上 |
6.89 |
5.01 |
88.10 |
2.1.4中国在线数据库发展状况
在线数据库总数为45598个。
已经拥有在线数据库的网站占全部网站的14%,约为33354个。48.3%的在线数据库隶属于企业网站,26.5%的在线数据库隶属于商业网站。
78%的网站拥有一个在线数据库,拥有3个及3个以上在线数据库的网站占11.7%左右。
1.各地区在线数据库及记录分布状况
网站的在线数据库主要分布在华北、华东与华南地区,三者之和占72.4%,西北、西南地区的占有比例较低,为8.8%。
从在线数据库记录地区分布看,华东地区的比重最大,占30.9%,其次为华北地区,占28.5%,第三为华南地区,占16.7%,西北、西南地区的总和占10%左右。
2.各种内容在线数据库及记录分布状况
在线数据库的主要服务内容为产品数据库,如粮油、医药、机械产品等数据库,在所有拥有在线数据库的网站中近60%是此类数据库,其它一些如科技信息数据库、报刊新闻数据库、政策法规数据库的占有比例大致在11%-15%之间。
从在线数据库的记录数量看,产品数据库占有62.3%的记录,其次为企业名录数据库,记录数占18.6%,科技信息库、报刊新闻数据库记录占有比例均不足3%。
3.在线数据库/记录更新状况
从数据库的更新看,目前记录的更新比例仍比较低,其中每周更新所有记录中1%-5%的网站占较大比重,大致占35%,另有20%的网站每周对记录的更新比例在1%以下。
从用户最常使用的产品数据库的记录更新看,每周的更新也主要集中在1%-5%之间,大致占41.1%,其次为10%-20%之间,占22.1%。
4.在线数据库收费情况
目前对在线数据库进行收费的网站比例占11.2%。商业网站中在线数据库的收费比例最高,为30%左右,其次为教育科研机构网站,为18%左右。
在线数据库的主要服务对象集中在个人与商业机构两部分,两者之和超过75%。
2.2指标解释
1. 在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。
2. 上述定义中的"中国互联网络"是指所有域名注册单位属于中国大陆的网站总和。
3. 在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。
4.
网站是指有独立域名的web站点,其中包括CN和通用顶级域名(gTLD)下的web站点。此处的独立域名指的是每个域名最多只对应一个网站"WWW.+域名",如:对域名sina.com.cn来说,它只有一个网站www.sina.com.cn,并非它有dailynews.sina.com.cn、mail.sina.com.cn……等多个网站。
5. 网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。
6. 静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
7. 动态网页是指URL中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI等在Server方进行处理的网页。
8. 网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML
声明中都是简体中文。
9. 网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME标准。
10. 网页的更新情况
网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。
(1)更新时间在一周内:网页在一周中得到更新的比率;
(2)更新时间在一月内:网页在一周以上、一个月以内得到更新的比率。
(3)更新时间在一月以外:网页在一个月内没有得到更新的比率。
2.3限制性说明
1.我国域名总数比网站总数大许多的原因:
1) 有域名不一定有相应的网站:
① 有的人或单位注册域名的目的仅是为了抢占,以免让他人注册拥有,而不是用于建立网站;
② 有的人或单位注册了域名还没来得及建立网站;
③ 有的人或单位注册了域名也建立了网站,但恰在本调查期间关掉了其服务器;
④ 有的人或单位注册了域名,只是用来提供mail,ftp,bbs等服务,并不需要建立网站。
2) 不同的域名有可能对应同一个网站,如:www.ourgame.com 和
gl1.cis.com.cn,则这多个域名对应的网站数按我们的规则只为1。
3) 由于此次对网站的定义是指"WWW.+域名"有Web服务,而有的网站的主机名并不是"WWW",则这类网站虽然存在,却不在我们的统计之列。
2.静态网页与动态网页的比例中动态网页数与实际情况相比偏小,这是由于:网上包含大量的动态网页,搜集到的网页只是网上动态网页的一部分。动态网页按照访问的方式可以分为两种:(1)通过点击超链,无需额外输入即可访问的网页;(2)必须通过输入内容才可以访问的网页。此次只搜集了第一种动态网页。一般而言,一个包含动态网页的站点上都会有大量的动态网页,且动态网页的内容质量相对静态网页低得多,因此大量的搜索引擎都只搜集有限的动态网页以保证其数据的质量。
|