Enterprise Engineering Forum

企业工程论坛
Categorized as: 网络学术与传播   Tagged as: ,, , , ,

互联网可访问内容的冗余度与资源占用衡量

Author: 网中一人,  Source: 企业工程论坛,  Published: 2010-01-29

Excerpt: 本文引入了单页主体内容比例,以及互联网内容资源占用倍数的计算方法,可用以定量衡量特定内容在互联网上占用资源的情况。

引言

在《对中英文内容网页重复度的一次调查》中,体会到互联网上中、英文页面存在许多大的差异。从上次调查考察的内容重复页面数量,还可推广到更一般化的指标,即互联网可访问内容资源占用比率或倍数,可理解为,在互联网上一段特定的可访问内容所占用的其它互联网资源,包括冗余度。所谓占用,是指该内容在互联网上所有的储存实例,或对其访问时总是被跟随读出的其它关联内容。,则指重复的储存。

用语

互联网上的内容(C):储存在互联网的某个服务器上,可以通过常规的互联网资源访问方式找到、读出的数据,本文主要讨论文本型的内容,即以适当的字符编码方式保存,主要目的是供人阅读的内容。

网页(p):互联网上的一个可访问资源,即通过客户端浏览器一次性打开获得的所有格式化内容。如前述“”中所提示,本讨论暂时忽略流媒体播放,或自动连续更新的情形,这样的网页可更明确地成为“文本内容显示网页”,本文简称内容网页。

主体内容(Cm):特定内容网页所欲传送、显示的基本文本,包括其格式化信息。我们假设一个有意义的内容网页,总是拥有主体内容。

其它内容(Co):内容网页主体内容外的所有其它内容,主要包括链接导航、相关信息推荐、广告等。一种当前常见的基本情形是这样的:网站使用某些框架结构,在具体的内容链接打开时总是会带有框架,内容展示在其中的一个子区域。这些在访问内容链接是被默认推送到客户端页面的信息,全部是“其它内容”。 Co, Cm 的大小,均可用字节数衡量。一个页面的总大小为 P =  Co + Cm

分析

首先引入“单页主体内容比例”,以 Sr 表示,即

Sr = Co/Cm

在理想情况下,Co趋于0,Sr 的极限为0

设内容的平均重复页面数为 Rp,对某一网页 L 或其主体内容 Cm,有

Rp * P  =  Rp * (Co + Cm)

这表示了其在互联网上占用的静态资源。进一步,设

Rc = ( Rp * (Co + Cm)  – Cm ) / Cm

= Rp * ( Co/Cm + 1)  – 1

= Rp * ( Sr + 1)  – 1

Rc 反映了特定内容 Cm 与其在互联网上占用的其它资源的比例,我们可将其称为“互联网内容资源占用倍数”。可以看到,Sr 与 Rp这两个指标决定了资源占用倍数,并且同时具有相加和相乘的关系。例如以下计算:
==================================
Rp          Sr            Rc = Rp * ( Sr + 1)  – 1
————————————————————-

1              0             0        (这是理想的极限值)

1          0.5             0.5

1             1              1

1             2              2

7         0.5              2.5

7             1              13
————————————————————-

虽然 Rp 和 Sr 都造成资源的占用,但影响并不相同。Rp 不仅占用了资源,还造成内容的冗余,从而带来同步性、内容有效性、检索效率方面的问题,并且与版权问题有密切关联。

Copyright

  本发布物版权归原作者所有,经原作者许可在企业工程论坛(EE-Forum.org)公开发布,并允许个人及公益性机构非牟利性使用及传播。传播中需保持从标题、署名到各项内容及此声明包括链接地址等完整内容不变。引用或摘编文中内容或观点应符合公认准则。其它机构,或牟利性使用,请预先取得作者许可。保留一切未说明的权利。
  详细说明见: http://www.ee-forum.org/about/copyright ,管理者电子邮箱:admin(at)ee-forum(.)org

Cite Style

GB7714 style: 网中一人. 互联网可访问内容的冗余度与资源占用衡量[EB/OL]. 企业工程论坛, http://www.ee-forum.org/wp/pub/anetman/2010-01-p1068.html, 2010-01-29[2017-05-29 04:26]

Chicago style: 网中一人, "互联网可访问内容的冗余度与资源占用衡量", 企业工程论坛, http://www.ee-forum.org/wp/pub/anetman/2010-01-p1068.html(accessed 2017-05-29 04:26)

Posted by   2010-01-29(Original)   Hits 7643   Modified 2010-01-29
Prev Post: 
Next Post: 

Related Entries:

Leave a Response

You must be logged in to post a comment.