论文查重系统有技术上的限制。这些系统依靠算法运行。算法按照固定规则工作。规则由程序员设定。设定规则时要做选择。选择基于常见情况。常见情况覆盖大多数论文。大多数论文使用标准引用格式。标准格式容易识别。系统标记这些引用。标记后不计入重复部分。这是理想状态。
现实中有许多例外。引用格式种类很多。不同学科有不同传统。历史学使用芝加哥格式。心理学使用APA格式。文学可能使用MLA格式。格式之间存在细微差别。系统可能无法全部识别。系统需要持续更新规则。新规则发布需要时间。新格式出现速度很快。系统更新可能跟不上。有些古老格式很少见。系统可能没有包含它们。使用这些格式的引用会被误判。
引用来源也影响识别。常见期刊数据库收录顺利。这些来源被系统熟悉。系统能识别它们。但有些来源比较特殊。个人博客内容可能被引用。会议纪要可能被引用。未公开的手稿可能被引用。内部报告可能被引用。这些来源不在系统库中。系统无法匹配来源信息。无法匹配就视为普通文本。普通文本重复就算抄袭。这显然不公平。
语言差异带来问题。中文引用使用全角标点。英文引用使用半角标点。混合引用时格式混乱。系统对混乱格式处理不佳。外文文献标题翻译成中文。不同人翻译结果不同。同一篇文章可能有多个译名。系统无法知道这是同一篇。系统只进行字面匹配。字面不同就视为不同。引用关系因此断裂。
引用方式本身多样。直接引用要加引号。引号内文字原样复制。系统容易识别这种。间接引用是转述观点。转述使用全新句子。全新句子表达相同意思。相同意思可能触发重复。系统很难判断这是引用。系统只能比较文字相似度。相似度高就提出警告。过度引用也会被标记。连续引用多篇文献。这些文献内容被大量摘录。摘录内容超过一定比例。系统可能判定为拼凑。即使每段都有标注。系统仍然认为不合适。
技术实现存在固有缺陷。系统采用关键词匹配。匹配发生在字词层面。字词重组可能逃避检测。但引用需要原文信息。原文信息必然重复。重复就会触发机制。机制无法理解上下文。上下文是人类的概念。机器只看字符串排列。排列相似就记录。记录达到阈值就报告。报告只显示百分比。百分比无法说明性质。性质需要人工判断。人工判断费时费力。
学生因此面临困扰。学生认真写论文。学生规范做引用。查重结果依然很高。高重复率引起焦虑。焦虑影响毕业答辩。答辩资格可能被取消。取消资格后果严重。学生必须反复修改。修改消耗大量时间。时间本可用于研究。研究进度被拖慢。拖慢影响整体计划。
教师同样遇到麻烦。教师评审论文任务重。查重报告提供参考。参考数据可能误导。误导导致错误判断。错误判断伤害学生感情。感情伤害影响师生关系。关系紧张不利于教学。教学需要相互信任。信任被技术指标削弱。教师必须仔细核对。核对每处重复片段。片段数量可能很多。很多片段需要核实。核实工作极其繁琐。繁琐工作增加负担。负担已经非常沉重。
学术界存在不同观点。有些人认为系统好用。系统提高工作效率。效率提升显而易见。有些人认为系统僵化。僵化系统忽略学术本质。本质是知识传承创新。传承必须引用前人。前人成果必须注明。注明方式应该灵活。灵活方式现有机做不到。
出版社依赖这些系统。出版社接收大量投稿。投稿质量需要初审。初审利用查重工具。工具过滤明显抄袭。抄袭现象确实减少。减少抄袭是好事。好事也有副作用。副作用是创新受限。作者害怕重复。害怕导致自我审查。审查删除必要引用。删除影响论文完整性。完整性受损质量下降。质量下降影响学术发展。
数据库覆盖范围有限。大型数据库收录主要期刊。主要期刊只占全部文献的一部分。很多重要文献未被收录。未被收录的文献也算原创。引用这些文献仍被标红。标红需要作者申诉。申诉过程复杂漫长。漫长过程消耗耐心。耐心有限的人可能放弃。放弃引用重要资料。资料缺失导致论述单薄。单薄论述缺乏说服力。
格式细节常被忽视。引文标注页码可能不同。有些引用需要精确到页。页码数字本身会重复。重复数字被系统捕捉。捕捉后计入重复率。作者引用多个文献。文献之间用分号隔开。分号格式错误影响识别。识别失败整段标红。作者很难发现原因。原因隐藏在小地方。小地方容易被忽略。
不同系统结果不同。每个公司开发不同算法。算法逻辑是商业机密。机密导致黑箱操作。同一篇文章检测结果差异大。差异让作者困惑。作者不知道相信哪个。学校指定某个系统。系统结果就是最终判决。判决可能基于有缺陷的技术。技术缺陷由作者承担后果。后果可能改变人生轨迹。
这些情况每天都在发生。写论文的人知道痛苦。痛苦来自不确定。不确定引用是否安全。安全标准模糊不清。不清的规则难以遵守。遵守规则反而吃亏。吃亏打击学术热情。热情减退研究变味。变味的研究失去价值。价值流失是整体损失。损失最终由所有人承担。
技术应当服务人类。人类需要合理使用工具。工具不能代替思考。思考包括判断引用。判断需要智慧和经验。经验和智慧无法编程。编程只能处理表面。表面之下有复杂情况。复杂情况需要人性化处理。人性化处理目前稀缺。稀缺是问题的核心。核心问题需要被看见。看见是改变的第一步。