Aprenda a Remover Duplicatas em DataFrames com Pandas

Um guia prático sobre como lidar com duplicatas em DataFrames utilizando a biblioteca Pandas.

Removendo Duplicatas em DataFrames com Pandas

A manipulação de dados é uma parte crucial da análise de dados e, frequentemente, os conjuntos de dados contêm informações duplicadas que devem ser removidas para garantir a precisão das análises. Neste tutorial, vamos explorar as melhores maneiras de remover valores duplicados de um DataFrame utilizando a biblioteca Pandas.

O que é um DataFrame?

Um DataFrame é uma estrutura de dados bidimensional, semelhante a uma tabela em um banco de dados ou uma planilha em Excel, que armazena dados em linhas e colunas. Ele é amplamente utilizado em Python para análise de dados devido à sua flexibilidade e funcionalidade.

Por que remover duplicatas?

Duplicatas podem introduzir viés nas análises, afetar resultados estatísticos e distorcer insights. Portanto, é fundamental identificá-las e removê-las antes de prosseguir com a análise de dados.

Como identificar valores duplicados

Para identificar valores duplicados em um DataFrame, utilizamos o método duplicated(), que retorna uma série booleana indicando se cada linha é uma duplicata de uma linha anterior. Veja um exemplo:

import pandas as pd

dados = {
    'Nome': ['Alice', 'Bob', 'Alice', 'David'],
    'Idade': [24, 30, 24, 22]
}

df = pd.DataFrame(dados)
print(df.duplicated())

Este código cria um DataFrame com duas colunas e identifica quais linhas são duplicadas. O resultado será:

0    False
1    False
2     True
3    False
dtype: bool

O terceiro registro é uma duplicata do primeiro.

Removendo duplicatas

Para remover duplicatas, podemos usar o método drop_duplicates(). Por padrão, ele mantém a primeira ocorrência e remove as subsequentes:

df_sem_duplicatas = df.drop_duplicates()
print(df_sem_duplicatas)

Esse código cria um novo DataFrame, df_sem_duplicatas, que contém apenas as entradas únicas. O resultado será:

    Nome  Idade
0  Alice     24
1    Bob     30
3  David     22

Removendo duplicatas com base em colunas específicas

Às vezes, você pode querer remover duplicatas com base em colunas específicas. Para isso, basta passar uma lista de colunas para o parâmetro subset de drop_duplicates(). Veja como fazer:

df_sem_duplicatas_coluna = df.drop_duplicates(subset=['Nome'])
print(df_sem_duplicatas_coluna)

Neste caso, o DataFrame resultante terá apenas a primeira ocorrência de cada nome:

    Nome  Idade
0  Alice     24
1    Bob     30
3  David     22

Mantendo a última ocorrência

Se em vez de manter a primeira ocorrência você deseja manter a última, pode usar o parâmetro keep:

df_ultima_ocorrencia = df.drop_duplicates(keep='last')
print(df_ultima_ocorrencia)

Isso resultará na manutenção da última ocorrência de cada duplicata:

    Nome  Idade
2  Alice     24
1    Bob     30
3  David     22

Conclusão

Remover duplicatas de um DataFrame Pandas é uma tarefa essencial para garantir a qualidade dos dados. Com os métodos duplicated() e drop_duplicates(), você pode facilmente identificar e remover entradas duplicadas, além de personalizar o processo conforme suas necessidades. Pratique essas técnicas em seus próprios conjuntos de dados para se tornar um especialista na manipulação de dados com Pandas!

Referências

Para mais informações sobre a biblioteca Pandas e suas funcionalidades, consulte a documentação oficial .

Trabalhar com conjuntos de dados muitas vezes envolve a necessidade de limpar e organizar as informações. Um dos problemas mais comuns que os analistas enfrentam é a presença de dados duplicados. Esses dados podem surgir devido a erros de entrada, processos de coleta de dados mal estruturados ou diversas fontes de dados que não foram integradas corretamente. A remoção de duplicatas não só melhora a qualidade dos dados, mas também aumenta a eficiência das análises subsequentes, permitindo obter insights mais precisos e confiáveis. Dominar essa habilidade é fundamental para qualquer profissional que trabalhe com análise de dados, pois garante que as decisões tomadas sejam baseadas em informações precisas e relevantes.

Algumas aplicações:

  • Limpeza de dados para análises estatísticas.
  • Preparação de dados para machine learning.
  • Otimização de relatórios e dashboards.

Dicas para quem está começando

  • Verifique sempre se há duplicatas antes de iniciar a análise.
  • Experimente os métodos de visualização para entender melhor seus dados.
  • Estude a documentação do Pandas para explorar mais funcionalidades.
Foto de Gustavo Ferraz
Contribuições de
Gustavo Ferraz

Desenvolvedor backend com experiência em PHP, Java e integração de APIs em Node.js e Python.

Mais sobre o autor
Compartilhe este tutorial: Como remover valores duplicados de um DataFrame Pandas?

Compartilhe este tutorial

Continue aprendendo:

Como encontrar valores duplicados em um DataFrame Pandas?

Aprenda a detectar e lidar com valores duplicados em DataFrames usando a biblioteca Pandas.

Tutorial anterior

Como substituir valores nulos em um DataFrame Pandas?

Aprenda a substituir valores nulos em um DataFrame utilizando a biblioteca Pandas de forma eficiente.

Próximo tutorial