<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：对中英文内容网页重复度的一次调查</title>
	<atom:link href="http://www.ee-forum.org/pub/anetman/2010-01-p1047.html/feed" rel="self" type="application/rss+xml" />
	<link>http://www.ee-forum.org/pub/anetman/2010-01-p1047.html</link>
	<description>信息化企业工程IT应用模型驱动信息系统架构框架建模业务流程管理软件体系结构</description>
	<lastBuildDate>Sun, 01 Aug 2010 02:23:30 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>来自：我们</title>
		<link>http://www.ee-forum.org/pub/anetman/2010-01-p1047.html/comment-page-1#comment-351</link>
		<dc:creator>我们</dc:creator>
		<pubDate>Thu, 10 Jun 2010 06:28:49 +0000</pubDate>
		<guid isPermaLink="false">http://www.ee-forum.org/?p=1047#comment-351</guid>
		<description>我们做了很多，但是有用的很少。但是又有很多必须做的</description>
		<content:encoded><![CDATA[<p>我们做了很多，但是有用的很少。但是又有很多必须做的</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：写博客与做论文 - Lin Weiguo&#39;s Blog</title>
		<link>http://www.ee-forum.org/pub/anetman/2010-01-p1047.html/comment-page-1#comment-74</link>
		<dc:creator>写博客与做论文 - Lin Weiguo&#39;s Blog</dc:creator>
		<pubDate>Sat, 30 Jan 2010 06:34:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.ee-forum.org/?p=1047#comment-74</guid>
		<description>[...] 对中英文内容网页重复度的一次调查 [...]</description>
		<content:encoded><![CDATA[<p>[...] 对中英文内容网页重复度的一次调查 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：网中一人</title>
		<link>http://www.ee-forum.org/pub/anetman/2010-01-p1047.html/comment-page-1#comment-73</link>
		<dc:creator>网中一人</dc:creator>
		<pubDate>Sat, 30 Jan 2010 05:34:25 +0000</pubDate>
		<guid isPermaLink="false">http://www.ee-forum.org/?p=1047#comment-73</guid>
		<description>这篇文章已发出锁定。补充一些说明：

搜索引擎对于网页的重复性，应该已经用专门的算法下“大力气”进行排除了，这应该是上述调查结果里包含的重要的“系统偏差”。从截图举例可以看出，在初次搜索时返回的“重复链接”数量可以超过最后确认的近百倍。在这一部分被最后忽略的重复链接中，主要可能存在两种情形：

1）是不同链接，但指向同一页面（搜索引擎会尽可能排除此种情景）
2）是不同页面，含有被搜索的重复判断字符串，最初列出的数量没有排除或采用了不严格的标准（具体尚不清楚）。搜索引擎对页面相似度的算法效率，会大大低于人工按“主体内容”的判断，因为页面上的非主体内容会大大干扰搜索引擎的算法，而中文网页非主体部分所占比例尤其高（参见《互联网可访问内容的冗余度与资源占用衡量》）。

上述情形会造成调查结果的系统误差，也就是说，实际存在的重复页面数量，应该比此次调查报告的数据大，也许大很多。搜索引擎对“相似页面”排除效率的中英文差距，会影响此次调查报告给出的中、英页面重复度的比例，具体影响如何，尚不清楚。</description>
		<content:encoded><![CDATA[<p>这篇文章已发出锁定。补充一些说明：</p>
<p>搜索引擎对于网页的重复性，应该已经用专门的算法下“大力气”进行排除了，这应该是上述调查结果里包含的重要的“系统偏差”。从截图举例可以看出，在初次搜索时返回的“重复链接”数量可以超过最后确认的近百倍。在这一部分被最后忽略的重复链接中，主要可能存在两种情形：</p>
<p>1）是不同链接，但指向同一页面（搜索引擎会尽可能排除此种情景）<br />
2）是不同页面，含有被搜索的重复判断字符串，最初列出的数量没有排除或采用了不严格的标准（具体尚不清楚）。搜索引擎对页面相似度的算法效率，会大大低于人工按“主体内容”的判断，因为页面上的非主体内容会大大干扰搜索引擎的算法，而中文网页非主体部分所占比例尤其高（参见《互联网可访问内容的冗余度与资源占用衡量》）。</p>
<p>上述情形会造成调查结果的系统误差，也就是说，实际存在的重复页面数量，应该比此次调查报告的数据大，也许大很多。搜索引擎对“相似页面”排除效率的中英文差距，会影响此次调查报告给出的中、英页面重复度的比例，具体影响如何，尚不清楚。</p>
]]></content:encoded>
	</item>
</channel>
</rss>
