python 实现文档查重报告

问:python代码查重原理
  1. 答:a=['python',1,2,3,1,6,'a','a',3,3,3,'a','python','3','8']
    b=list(set(a))
    cf=[]
    for i in b:
    cf.append(a.count(b))
    for i in range(len(b)):
    print(b[i],'一共有',cf[i],'个',sep='')
问:如何利用python提取两个excel对比后的重复值的信息?
  1. 答:data3 = pandas.merge(data1, data2, on=['名称'], how='inner')
    inner:内连接,取交集,这样改一下就符合你的要求了
问:python比较txt文档中每行文本之间重复词的个数
  1. 答:读文件可以使用open函数 readlines函数卖取所有行
    使用split把行的内容分成词
    使用set(a.split(' '))转换成元组
    然后两个元组 用 & 可以求得交集
    再使用len()就可以求得重复的个数
    line1 = '颜色 衣服 简单 适合 大方 质量 款式 舒服 挺 穿 穿着'
    line2 = '挺 服务 衣服 态度 快 蛮 合身 质量 物流 服务态度 好 老板'
    jiaoji = set(line1.split(' ')) & set(line2.split(' '))
    print(jiaoji)
    print('重复词数:',len(jiaoji))
    输出为
    {'衣服', '挺', '质量'}
    重复词数: 3
问:有没有人能帮忙对代码进行查重
  1. 答:试一下antiplag,,能对程序语言(如java、c/c++、python等)、中英文文档进行查重。
  2. 答:代码查重? 这个真的是第一次听到,你的意思是论文里包含代码,需要查重吗,可以通过  试一下,把代码粘贴进去就行
问:如何找出 python list 中有重复的项
  1. 答:可以对第二个list的元素进行遍历,检查是否出现在第二个list当中,如果使用表理解,可以使用一行代码完成任务。
    list1 = [1,2,3,4,5]
    list2 = [4,5,6,7,8]
    print [l for l in list1 if l in list2]
    # [4,5]
    如果每一个列表中均没有重复的元素,那么还有另外一种更好的办法。首先把两个list转换成set,然后对两个set取交集,即可得到两个list的重复元素。
    set1 = set(list1)
    set2 = set(list2)
    print set1 & set 2
    # {4,5}
  2. 答:def finddupl(lst):
        """找出 lst 中有重复的项
            (与重复次数无关,且与重复位置无关)
        """
        exists, dupl = set(), set()
        for item in lst:
            if item in exists:
                dupl.add(temp)
            else:
                exists.add(temp)
        return dupl
  3. 答:l = [1,1,2,2,2,3,3,3,3,5,6,4,6,4,5,5,5]
    d = {}
    for x in set(l):
    d[x] = l.count(x)
    print d
点击进入下载PDF全文

相关文章

QQ咨询