前言当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,或者如何直接删除重复的数据是一个关键的步骤,pandas提供了很方便的方法:duplicated()和drop_duplicates()。 一、duplicated()duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。
subset:默认为None,需要标记重复的标签或标签序列 keep:默认为‘first’,如何标记重复标签
keep:与DataFrame.duplicated的keep相同
keep:与DataFrame.duplicated的keep相同 例子: import panas as pddf = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] }) df df.duplicated()
df.duplicated(keep='last') df.duplicated(keep=False) df.duplicated(subset=['brand'])
关于Index的重复标记: df = df.set_index('brand')df df.index.duplicated() array([False, True, False, True, True]) 二、drop_duplicates()与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。
Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子: df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] }) df df.drop_duplicates() df.drop_duplicates(inplace = True) df
总结有剩余无,pandas有很多好用的库,但是系统学下来很不现实,都是在实际项目中不断的发现、积累、记录下来。 到此这篇关于Python pandas找出、删除重复数据的文章就介绍到这了,更多相关pandas找出删除重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! |
本文实例为大家分享了C# GDI+实现时钟表盘的具体代码,供大家参考,具体内容如下一、...
目录一、正则表达式应用举例1、C#校验合法性:2、C#限制输入3、正则表达式匹配闭合HTM...
本文实例为大家分享了C#实现图形界面的时钟的具体代码,供大家参考,具体内容如下秒针...
目录一、ObjectContext对象上下文1、ObjectContext和DbContext的对比2、ObjectContext...
IronPython是一种在 .NET及 Mono上的 Python实现,由微软的 Jim Hugunin所发起,是一...
本文实例为大家分享了使用C#写一个时钟,供大家参考,具体内容如下时钟是这样的一共使...
一、介绍Topshelf是一个开源的跨平台的宿主服务框架,支持Windows和Mono,只需要几行...
本文实例为大家分享了C#实现动态数字时钟和日历的具体代码,供大家参考,具体内容如下...