python怎么做数据查重

问:如何找出 python list 中有重复的项
  1. 答:可以对第二个list的元素进行遍历,检查是否出现在第二个list当中,如果使用表理解,可以使用一行代码完成任务。
    list1 = [1,2,3,4,5]
    list2 = [4,5,6,7,8]
    print [l for l in list1 if l in list2]
    # [4,5]
    如果每一个列表中均没有重复的元素,那么还有另外一种更好的办法。首先把两个list转换成set,然后对两个set取交集,即可得到两个list的重复元素。
    set1 = set(list1)
    set2 = set(list2)
    print set1 & set 2
    # {4,5}
  2. 答:def finddupl(lst):
        """找出 lst 中有重复的项
            (与重复次数无关,且与重复位置无关)
        """
        exists, dupl = set(), set()
        for item in lst:
            if item in exists:
                dupl.add(temp)
            else:
                exists.add(temp)
        return dupl
  3. 答:l = [1,1,2,2,2,3,3,3,3,5,6,4,6,4,5,5,5]
    d = {}
    for x in set(l):
    d[x] = l.count(x)
    print d
问:Python怎么从文件里的数据去重复,去重复后,再保存到文件里,把重复的数据保存出来
  1. 答:内容读出来通过逗号分割成一个列表,再去掉重复的,再写入到文件里面
    # -*- coding:utf-8 -*-
    filename = 'data.txt'
    with open(filename, 'r') as f:
        content = f.read()
        content = list(set(content.split(',')))
        content = ','.join(content)
        with open(filename, 'w') as _f:
            _f.write(content)
问:如何利用python提取两个excel对比后的重复值的信息?
  1. 答:data3 = pandas.merge(data1, data2, on=['名称'], how='inner')
    inner:内连接,取交集,这样改一下就符合你的要求了
问:python如何比对两批数据
  1. 答:用SQL语句直接比对
    以上,是使用python操作数据库,好处是可视、可控,便于调试,便于控制结果输出,不足之处是,由于两次遍历全部数据,导致比对效率低。我们也可以直接使用SQL语句,完成两个表之前对某一列数据的比对。
问:如何使用python或者宏对excel中数据进行统计重复次数
  1. 答:在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入,数据清洗,预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
  2. 答:把你录制的宏里面的工作表名称改成activesheet就可以了
    activesheet是表示当前工作表
    甚至可以一次搞定,用循环语句一次读取200多个工作表。
  3. 答:这个网址你可以参考一哈
  4. 答:这会写这样的代码!
    要看你具体的Excel文档,不好妄自揣测。(如果不方便可以根据实际情况模拟数据)
  5. 答:把Sheet“名称”用变量代替就可以了。主要还看你的表格是多工作簿还是一个工作簿中有200多个Sheet
点击进入下载PDF全文

相关文章

QQ咨询