论文查重软件评判相似度的过程很简单。软件把一篇论文和数据库里的文章进行对比。数据库很大。里面有以前的论文。有网上的文章。有书籍资料。软件的工作就是找出相同的部分。
首先软件要把论文变成可以比较的样子。这个过程叫预处理。软件会去掉论文里的格式。比如字体大小。比如行距。软件只关心文字内容。软件还会去掉一些没用的词。比如“的”“了”“和”这些。这样剩下的就是重要的词句。然后软件会把论文切成小段。这些小段可以是几句话。可以是一句话。甚至可以是几个词。这些小段叫做“文本片段”。每个文本片段都会得到一个独特的标记。就像每个人的指纹不一样。
接下来软件开始比对。软件拿着这些文本片段去数据库里搜索。看看数据库里有没有一样的或者很像的片段。搜索的时候很仔细。一个字一个词地看。不仅仅是完全一样的才算。意思差不多也可能被找出来。有些软件很聪明。能看出句子换了一种说法但意思没变。
比对之后软件会计算一个数字。这个数字就是相似度百分比。计算的方法不一样。有的软件看重复的字数占总字数的比例。比如一篇论文一万字。其中两千字和别的文章一样。那么相似度就是百分之二十。有的软件看重复的片段有多少。有的软件会把论文自己引用自己的部分去掉。这个数字是一个参考。
这个百分比代表什么。代表你的论文和已有文章的重复程度。百分比越高。重复的部分就越多。但这不代表一定有抄袭。软件只是指出相同的地方。它不知道你为什么相同。需要人来判断这些相同是不是合理的。
合理的相同有很多情况。比如你写了通用的专业术语。这些术语大家都要用。写法固定。比如你写了常用的公式。公式的写法不能改变。比如你写了历史事实。历史事实的叙述往往一致。比如你列了实验器材的名字。这些名字是固定的。比如你用了参考文献的标准格式。这些格式要求统一。这些相同是允许的。不算抄袭。
不合理的相同就是抄袭。抄袭是把别人的话原样抄过来。不说明是谁说的。抄袭是改了几个字但核心内容还是别人的。不给出处。抄袭是把很多别人的话拼在一起。当成自己的话。这些都是不对的。
学校老师看到查重报告后不会只看一个数字。老师会仔细看报告里标颜色的部分。报告中会用颜色标出重复的地方。比如红色代表高度重复。黄色代表可能重复。绿色代表没有重复。老师会看红色部分是什么内容。如果是专业术语。老师不会在意。如果是重要的观点描述。而且是别人的观点。老师就会仔细检查。看这里有没有正确的引用。如果没有引用。那就可能有问题。
查重软件是一个工具。它就像一面镜子。照出论文和已有文章的关系。但它不会思考。它不知道论文写得好不好。它不知道观点对不对。它只知道像还是不像。所以评判相似度最终要靠人。人要看重复的部分在哪里。要看为什么重复。要看这个重复是不是有道理。
学生写论文应该自己先检查。不要等到最后才用查重软件。写的时候就要注意。用自己的话写。不要直接复制别人的话。如果引用别人的话。一定要加上引号。写上是谁说的。从哪里来的。写完一段可以自己读一读。看看是不是都是自己的表达。这样最后的相似度就不会太高。
查重软件的数据很重要。数据库越大。比较的结果就越全面。有的数据库只收本校的论文。有的数据库收了很多学校的论文。有的数据库还收了网上的新闻和网页。数据库不同。查出来的结果可能不同。这是需要注意的。
不同的查重软件算法也不同。有的软件对重复更敏感。一点点像就会标出来。有的软件可能宽松一些。所以同一个论文用不同软件查。数字可能不一样。学校通常会有规定用哪一个软件。学生应该用学校规定的软件来查。这样结果才准。
论文的某些部分容易重复。比如前言部分。很多论文会写研究背景。背景事实大家写的都差不多。比如研究方法部分。实验方法如果是标准方法。描述也会很像。比如结论部分。可能会总结一些公认的结果。这些地方重复率高一些。有时是可以理解的。但核心的分析部分。自己的讨论部分。应该是独特的。这些地方如果重复。问题就比较严重。
查重软件的存在让抄袭变得困难。这对认真写论文的学生是公平的。大家都靠自己的努力。论文的价值才真实。社会上的知识才能真的进步。但学生也不必过分害怕这个数字。不是数字一高就代表抄袭。关键是要诚实写作。该引用的地方好好引用。该自己写的地方自己写。
评判相似度是一个综合的过程。先看数字。再看具体内容。再看论文的整体。数字是一个警报。提醒我们去注意可能的问题。最后还是要人来判断。人看论文的逻辑。看论文的创新。看论文的引用是否规范。这样才对论文有一个完整的评价。
写论文是学习的重要过程。通过写论文我们学会整理资料。学会表达观点。学会尊重别人的成果。查重软件帮助我们保持学术的诚实。它的评判是一个客观的参考。我们理解它的原理。正确看待它的结果。就能更好地完成论文。