论文查重库里的文章有很多来源。
学生写完论文要交给学校。学校为了防止抄袭行为会把论文放进查重系统检查。查重系统怎么知道论文是不是抄袭的呢?因为它里面有一个很大的数据库。这个数据库就像一个巨大的仓库。仓库里装满了各种文章资料。这些文章资料是从不同地方收集来的。
第一类来源是已经发表过的学术文章。世界上有很多学术期刊。学者们做研究写出文章投给期刊。期刊通过后文章就发表了。这些发表的文章很重要。它们代表了人类的知识积累。查重库会收录这些期刊文章。中文的期刊很多。英文的期刊更多。还有各种国际学术会议的文章。会议结束后往往出版论文集。这些论文集也会被收进查重库。
第二类来源是学生的毕业论文。本科生毕业要写论文。研究生毕业更要写论文。硕士生写硕士论文。博士生写博士论文。这些论文完成后提交给学校。学校不仅保存纸质版还会保存电子版。很多学校会和查重公司合作。他们把学生的论文授权给查重公司使用。这样查重库里的学生论文就越来越多了。去年的论文放进去。今年的论文也放进去。一年一年积累起来数量非常庞大。
第三类来源是互联网上的公开资料。现在网络很发达。很多东西都能在网上找到。新闻网站每天发布新闻。博客平台有很多人写文章。百科网站有各种词条解释。论坛贴吧里有许多讨论。这些公开的网页内容也可能被查重库收集。当然不是所有网页都收。主要是那些有价值的、成文的资料。
第四类来源是书籍。书籍是知识的宝库。查重库会收录一些出版书籍的电子版本。特别是那些学术专著和教材。这些书里的内容很有参考价值。不过书籍的数量太多不可能全部收录。查重库会选择那些常用的、重要的书籍。
第五类来源是合作机构共享的资料。不同的学校之间可能有合作。不同的查重系统之间也可能有合作。他们互相分享自己的数据库资源。你有的文章给我一份。我有的文章给你一份。这样大家的数据库都变得更丰富了。
这些文章怎么进到查重库里的呢?有几个主要的方式。
第一种方式是直接购买。查重公司花钱去买期刊数据库的版权。他们和期刊出版社签订合同。出版社同意把文章提供给查重公司。查重公司付给出版社费用。这是一种商业合作。
第二种方式是网络抓取。查重公司会用专门的软件。这种软件叫网络爬虫。爬虫像蜘蛛一样在网上爬行。它访问一个个网页。把网页上的文字内容复制下来。然后保存到自己的数据库里。当然爬虫只会抓取允许抓取的公开网页。
第三种方式是用户上传。这是很重要的一种方式。每个学生用查重系统检查论文时,系统会问学生是否同意把论文收录进数据库。很多学生会同意。这样学生的论文就成了数据库的新内容。下次其他学生再查重时,就能和这份论文比对了。这种模式让数据库自己生长,越用越大。
第四种方式是机构合作。查重公司和学校、研究机构合作。学校把自己积累的论文资料交给查重公司。查重公司为学校提供查重服务。双方各取所需。学校帮助查重库丰富了内容。查重库帮助学校检测论文质量。
查重库不断更新。每天都有新文章加进来。新的期刊出版了。新的学生毕业了。新的网页出现了。数据库就像滚雪球越滚越大。十年前可能只有几百万篇文章。现在可能有几亿篇甚至更多。中文的有中文的数据库。英文的有英文的数据库。其他语言的也有自己的数据库。
查重库里的文章有各种格式。最早的文章可能是扫描的。用扫描仪把纸质文章变成图片。再用识别软件把图片里的文字识别出来。后来有了电子文档,比如Word文件、PDF文件。这些文件直接就能提取文字。现在大部分资料都是电子版的了。格式统一处理方便。
查重库里的文章覆盖很多学科。理工科的文章很多。物理化学、数学计算机、生物医学都有。人文社科的文章也很多。文学历史、哲学法律、经济管理都有。艺术类的文章相对少一些但也存在。基本上大学里开设的专业都能找到相关文章。
不同查重系统的数据库不一样。有的系统数据库很大。有的系统数据库小一些。有的系统专注于某些学科。有的系统覆盖全面。学校会选择适合自己需求的系统。重点大学可能用大的系统。普通学校可能用小的系统。不同国家的系统也不同。中国的系统中文资料多。外国的系统外文资料多。
查重库的存在有重要意义。它帮助维护学术诚信。学生知道有查重库就不敢随便抄袭。他们必须自己思考自己写作。这对培养学生能力有好处。老师批改论文也放心一些。知道学生不是抄来的。学校能保证毕业论文的质量。学术环境变得更干净。
查重库也有局限性。它只能检测文字重复。如果学生把别人的话改写成自己的话,查重系统可能检测不出来。它不能判断观点是否抄袭。两个人可能有相似的想法但各自独立写作。查重系统会标出重复部分但无法解释原因。需要人工进一步判断。
查重库里的文章永远收不全。总有一些文章没有被收录。私人笔记不会收录。内部文件不会收录。还未发表的草稿不会收录。某些小众资料不会收录。查重系统只能基于已有资料判断。它不能保证百分百检测所有抄袭。
查重库的使用要合理。不能完全依赖查重结果。重复率高不一定就是抄袭。可能是常用术语、共同知识。重复率低不一定没问题。可能只是巧妙改写。老师和学生都要正确看待查重报告。把它作为参考工具而不是绝对标准。
查重库里的文章是人类知识的缩影。每一篇文章都代表一个人的思考。无数人的思考汇聚成庞大的数据库。这个数据库在不断发展。每年每月每日都在增加新内容。它记录了学术进步的轨迹。它反映了人类认识世界的过程。从过去到现在再到未来,查重库会一直存在一直更新。