大数据查重是怎么进行查重的

大家都知道大数据查重却很少知道查重的原理,当然很多人只关注好不好用,能不能用就行,其他的无所谓那不是自己要考虑的,交给商家考虑就行。但我还是来说说查重的原理,让大家对大数据查重有更深层次的了解,让有些对这方面有兴趣或者想自己制作查重的朋友更加清楚。

大数据查重,主要是看提交的论文,对照比较数据库的文章,综合查重的。不同的平台所对比度数据库是不同的,包括国内重要的论文数据库,专利论文数据库,重要的报纸数据库,该有的都会有,但是同样的论文内容收录太多反而会算重复率。其实查重的算法其实大同小异,总体相似度 = 相似字数 / 检测字数,相似字数一般用杰卡德相似系数,两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。J(A,B)=|A交B|/|A并B|。杰卡德相似系数是衡量两个集合的相似度一种指标。但jaccard算法不适合协同过滤,因为在协同过滤中,评分是一个很关键的参考因素,而jaccard算法忽略了其中的评分环节。杰卡德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰卡德相似度就适合来承担这个任务。

算法其实很简单,难的是要有自己的对比库,查重企业的对比库都是花了很多时间和金钱搭建的,如果想要自己企业也有查重服务,也没必要大费周章重新搭建数据库,这是很费事费力的,可以从其他企业连一个接口过来这样就可以使用他们的对比库了。

Tocheck致力于文本相似度检测技术的研究和开发,为企事业单位提供标书查重、项目申报/专利查重、员工论文查重、企业信息资产安全保护等多种服务。


2023-03-06 15:18:53

相关文章

从哪些角度理解开标异议? 专利侵权风险要如何避免? 采购方式是怎么分类的? 招标文件规定的技术标准原则有什么? 为什么说标书对比查重工具很重要? 网上询价采购的优缺点是什么? 已有专利被侵权了该采取哪些措施?