Enterprise Engineering Forum

企业工程论坛
Categorized as: 网络学术与传播   Tagged as: ,, , , ,

对中英文内容网页重复度的一次调查

Author: 网中一人,  Source: 企业工程论坛,  Published: 2010-01-28

Excerpt: 在直觉中,互联网上简体中文内容的重复度较高。本文报告了对此课题的一次调查。分别采用google.cn/com作为简体中文、英文页面抽取、重复判断的工具。最终结果与经验一致,简体中文以内容为主的页面上,内容的重复性,比英文内容高出约10倍,每页面拥有的内容重复页面数,平均在7-8以上。网页内容表现的资源占有率是值得进一步研究的课题之一,简体中文页面比英文页面高很多,其比例包括并高于页面内容重复造成的差异。 关键字:内容, 网页重复度, 中英文, 搜索引擎

1 目的

通过对当前互联网页面情况的直接观察比较,得出简体中文页面和英文内容型页面的重复度数据。尽量保持中文、英文页面统计数据的可比性。

2 调查方法与过程

以下内容按照实际操作完成的情况叙述,方法选择的理由及一些操作情况参见后面的分析,不另就方法设计专门说明。

时间:2010-1-28;地点:深圳;互联网接入:天威宽带;

电脑:Win XP Home简体中文版;浏览器:FireFox 3.5.7

搜索引擎:简体中文用www.google.cn, 英文用www.google.com (每页返回结果数为10)

母体:上述搜索引擎搜索结果中可访问的链接(少部分是在下一级链接中)

样本数量:简体中文、英文页面各100个页面

2.1   获取页面搜索“种子”

目的:用于后面利用搜索引擎获取内容页面样本的步骤。所用方法希望从内容上分散抽样页面的分布。

方法:对简体中文,用 news.google.cn 的栏位名称为一组关键字,即:“财经 娱乐 科技 互联网 体育 社会 汽车 房产 教育 热门报道”,做一次搜索(不加引号),取1-10页(每页10条)搜索结果最后一条第二行的头二个双字词作为“种子”。这样共得到10组中文页面搜索种子。如下列:

开设 新闻;体育 ;来源 北京;英文 商务;报道 澳门;财经 制药;拥有 手机;政策 风向;家电 科技;同时 包含

对英文,用 news.google.com 的栏位名字作为一组关键字(补齐了简写单词,去掉了U.S.),即:“World Business Science Technology Entertainment Sports Health Spotlight Most Popular”。以此搜索(不加引号)结果1-10页最后一条第二行的头二个单词为种子(排除介词等)。操作过程中,为使搜索结果更加分散,对3-9组做了交互重组。实际使用的10组英文页面搜索种子如下列:

business science; games instead; headlines health; denies disaster; expand molesting; drug manages; entertainment treat; promotes convictions; economic environmental; catcalls come;

2.2   内容页面样本选取方法

  1. 选取一组种子,不加引号搜索,有大量结果分页显示(每页10条)。点击第一页的最后一条(即第10条搜索结果),判断是否符合选取条件,如不符合,选上一条,直至找到符合的页面(基本都在10条范围内选中,部分英文页面是在所得索引页面的链接中寻找)。
  2. 点击搜索结果分页2,同样从最后一条开始,重复上述方法,寻找第二个页面样本。以此类推。
  3. 样本页面选择条件:
    – 选择以成段文本展示为主的页面。基本标准是连续文本能直接选出连续32个词(words)的文本,且其中没有双引号(参见下一步,实际大多数页面内容超过上述长度几倍),并且排除下列情况:
    – 排除下载文档链接(如pdf,doc);
    – 排除多媒体播放、图片为主文字不成段落,或明显为辅助说明的页面;
    – 排除专门介绍功能性的商品呈现页面(例如书的销售页面);
    – 排除目录或索引(含多篇文章标题及摘要,包括明显为单篇文章摘要的短页面);
    – 简体中文,排除了若干公司简介短页面;
    – 中文搜索结果中,排除包括英文、代码为主的页面;
    – 排除文字数太少(不方便选出符合下一步要求的连续文本则判断为不合适,例如有些博客文章或BBS页面篇幅太短,留言也很短。又如一些页面,整体文字不多且多为小段引用、或列表)

2.3   重复页面数获取方法

  1. 在上一步骤选取的内容页面上,在靠近中间的段落中,抽取一段超过32个词(words)的连续文本,其中不应包含双引号,作为重复判断文本。
  2. 将上述重复判断文本加双引号,在预订的搜索引擎中搜索,观察返回的结果数。
  3. 如果提示的返回结果数小于10,则直接记录为重复页面数;如果提示的返回结果数大于10,则通过尽量少的点击,翻到结果的最后一页,取此时的最大结果数为重复数。
  4. 观察搜索的是否提示“”上” (及之后的字词)均被忽略,因为 Google 的查询限制在 32 个词以内。”(英文类似),确保选择的查重文本足够长,搜索结果没有重复页面时(即只返回一条结果),可忽略。

3 结果与分析

页面语言 样本数 平均重复页面数 最大重复页面数 备注
简体中文 100 8.42 196 共排除约53个链接,约1/3
英文 100 1.85 39 未统计排除数
英文 100 1.7 在上列数据中排除大部分同站重复

3.1   结果说明

  1. 按照前面对方法的叙述可知,样本大致均衡地分布在10组种子搜索的前100条搜索结果中。
  2. 同站重复,是根据搜索结果的“缩进”情况观察的,误差会稍大,但数据应该是偏保守的,即实际重复的数量可能比记录的排除数量更大。对先进行的简体中文网页没有做此观察记录。但从操作过程的印象,英文页面此情形所占的比例应当比简体中文页面要大。
  3. 在最初试探性(种子是“工作流 平台”和“互联网 娱乐”任选的)作的18个页面的统计中所得到的重复数据是8.9。操作过程中感觉有“种子”的流行度越高重复度越大的倾向,所以设计了前面所述的种子和页面样本选取两个步骤。
  4. 简体中文样本页面大多数都是“类媒体”页面,大都具有典型的新闻媒体类网站的版面布局,广告、相关链接推荐文字等占了大多数面积。博客页面只占了较小的比例。这一点与英文界面的区别非常大。英文界面的内容明显简单,主要内容比例大大超过中文页面。这将使“网页内容的资源占用率”差距进一步加大。
  5. 热门新闻,产品介绍文字,常有超高的重复率。
  6. 曾经估计,排在搜索结果前面的内容,重复度会较高。按上述方法在前100左右搜索结果中取样的结果,没有明显观察到上述倾向。
  7. 在实际调查中感到,中文页面的广告数量、其它链接数量、页面复杂度、密集度,都明显高于英文页面。这是值得进一步研究的课题。

3.2   其它说明

  1. 采用google的原因,是其代表性,并认为谷歌与google之间在搜索结果的筛选逻辑一致性会高于异种搜索引擎,这样在对中英页面比较时,系统误差会较小。
  2. 这个调查是建立在google.com/cn 的搜索结果上,肯定会受到其算法的影响。此外,抽样的方式并非随机抽样,主要体现在内容选择和页面的搜索排名方面。但上述两个方面对于结果的比较影响应当较小。从方法上看,此次结果的比较差异比绝对值更有参考价值。
  3. 对重复测试用文本,开始曾尝试取第一自然段的结束部分文字,但发现文章第一段的重复度较高(可能因为自动摘要往往取第一段等原因),因此,改为尽量从正文中间部分选取一段连续文本。
  4. 虽然上述规则叙述起来比较复杂,实际页面选择并不难判断。实际的页面查重结果如图1图2所示。此结果第一页出现时提示的搜索结果为7120条,翻页到最后时,显示的结果为80条。采纳的“重复页面数”,即80。
  5. 从对实际页面的观察看,搜索引擎对重复性的判断是精确的,但其中仍包括同一目标页面,不同链接造成的重复计算。
  6. 在重复性判断有效性上,由于是在内容中间段落人工截取的连续文本,从观察上看,通过这样的文本,用搜索引擎的精确匹配功能返回的结果,是比较可靠的(具体例子,可参见图示情形)。

4 进一步的工作

基于本次调查,还有许多可以进一步改进或研究的课题,例如:

  1. 本次调查,从抽样代表性、数量方面,都有一定的局限性,人工样本页面选择也有一定随意性。要改进结果,可考虑更好的随机抽样方法、在内容页面的判定标准上,做得更精确,采用标准更明确乃至计算机处理的选择标准。
  2. 结果肯定包含了搜索引擎搜集、排序、排重等算法的影响,但到底怎样尚不明确。
  3. 搜索“种子”本身的“热度”(搜索中的使用率)与重复度之间似乎有正比关联,可进一步研究。
  4. 重复网页所属网站的性质和构成。初步可以观察到许多“类媒体”网站,机构/政府网站。
  5. 可以观察到英文页面与中文页面整体上呈现很多不同指出。相信许多差异值得进一步研究。
  6. 本项研究,可进一步扩展为“网页内容表现资源占用率”的研究。

5 结论

本次调查的结果,印证了经验性的判断,即简体中文内容网页内容重复的程度,远远超过英文网页。调查数据说明,一个典型的简体中文内容网页,大约可以找到7个以上具有重复内容的网页(本次数据为7.4);而一个英文内容网页的内容重复网页数小于1个(此次结果为约0.7-0.8)。二者比较说明,简体中文以内容为主的页面,其内容在网络中的重复度,大约是英文内容的10倍。

考虑到调查中观察到的,中文页面中“正文”与其他链接、广告文字的比例明显偏高的现象,还可以得出这样的初步结果:在网页内容表现的总资源占用率上,简体中文页面比英文页面高很多,超过的比例还会高于页面内容重复造成的差异。

Copyright

  本发布物版权归原作者所有,经原作者许可在企业工程论坛(EE-Forum.org)公开发布,并允许个人及公益性机构非牟利性使用及传播。传播中需保持从标题、署名到各项内容及此声明包括链接地址等完整内容不变。引用或摘编文中内容或观点应符合公认准则。其它机构,或牟利性使用,请预先取得作者许可。保留一切未说明的权利。
  详细说明见: http://www.ee-forum.org/about/copyright ,管理者电子邮箱:admin(at)ee-forum(.)org

Cite Style

GB7714 style: 网中一人. 对中英文内容网页重复度的一次调查[EB/OL]. 企业工程论坛, http://www.ee-forum.org/wp/pub/anetman/2010-01-p1047.html, 2010-01-28[2016-12-10 10:55]

Chicago style: 网中一人, "对中英文内容网页重复度的一次调查", 企业工程论坛, http://www.ee-forum.org/wp/pub/anetman/2010-01-p1047.html(accessed 2016-12-10 10:55)

Posted by   2010-01-28(Original)   Hits 12864   Modified 2010-01-29(Locked)
Prev Post: 
Next Post: 

Related Entries:

余彤鹰再次被James Martin

4 Comments

  1. 这篇文章已发出锁定。补充一些说明:

    搜索引擎对于网页的重复性,应该已经用专门的算法下“大力气”进行排除了,这应该是上述调查结果里包含的重要的“系统偏差”。从截图举例可以看出,在初次搜索时返回的“重复链接”数量可以超过最后确认的近百倍。在这一部分被最后忽略的重复链接中,主要可能存在两种情形:

    1)是不同链接,但指向同一页面(搜索引擎会尽可能排除此种情景)
    2)是不同页面,含有被搜索的重复判断字符串,最初列出的数量没有排除或采用了不严格的标准(具体尚不清楚)。搜索引擎对页面相似度的算法效率,会大大低于人工按“主体内容”的判断,因为页面上的非主体内容会大大干扰搜索引擎的算法,而中文网页非主体部分所占比例尤其高(参见《互联网可访问内容的冗余度与资源占用衡量》)。

    上述情形会造成调查结果的系统误差,也就是说,实际存在的重复页面数量,应该比此次调查报告的数据大,也许大很多。搜索引擎对“相似页面”排除效率的中英文差距,会影响此次调查报告给出的中、英页面重复度的比例,具体影响如何,尚不清楚。

  2. 我们做了很多,但是有用的很少。但是又有很多必须做的

Trackbacks

  1. 写博客与做论文 - Lin Weiguo's Blog
  2. 中文网页重复度远超英文网页 – 北大新媒体

Leave a Response

You must be logged in to post a comment.