Filtrando Linhas em DataFrames com Pandas: Um Guia Completo

Um guia prático sobre como aplicar filtros em DataFrames utilizando a biblioteca Pandas

Como filtrar linhas de um DataFrame Pandas com base em uma condição?

Filtrar linhas em um DataFrame do Pandas é uma tarefa fundamental para manipulação de dados. Isso permite que você trabalhe apenas com os dados que são relevantes para sua análise. Nesta seção, vamos explorar diferentes maneiras de aplicar filtros em DataFrames, utilizando condições específicas.

Usando o operador de comparação

Você pode filtrar linhas utilizando operadores de comparação, como ==, >, <, >=, <=, e !=. Por exemplo, para filtrar linhas onde a coluna 'idade' é maior que 18, você pode usar:

import pandas as pd

dados = {
    'nome': ['Alice', 'Bob', 'Charlie', 'David'],
    'idade': [22, 17, 19, 25]
}
df = pd.DataFrame(dados)

filtro = df['idade'] > 18
df_filtrado = df[filtro]
print(df_filtrado)

O código acima cria um DataFrame com nomes e idades, e em seguida aplica um filtro para obter apenas aqueles com idade superior a 18 anos. O resultado será:

     nome  idade
0   Alice     22
3   David     25

Filtrando por múltiplas condições

É possível combinar múltiplas condições usando os operadores & (E) e | (OU). Por exemplo, para filtrar pessoas com idade superior a 18 e cujo nome começa com a letra 'A', você pode fazer:

filtro = (df['idade'] > 18) & (df['nome'].str.startswith('A'))
df_filtrado = df[filtro]
print(df_filtrado)

Usando o método query

Outra forma prática de filtrar linhas é utilizando o método query. Ele oferece uma sintaxe mais legível. O mesmo filtro anterior poderia ser escrito assim:

df_filtrado = df.query('idade > 18 and nome.str.startswith("A")')
print(df_filtrado)

Filtrando por valores em uma lista

Se você deseja filtrar linhas que contêm valores específicos, pode usar o método isin(). Por exemplo, para filtrar linhas onde o nome é 'Alice' ou 'Charlie':

filtro = df['nome'].isin(['Alice', 'Charlie'])
df_filtrado = df[filtro]
print(df_filtrado)

Conclusão

Filtrar linhas em um DataFrame é uma habilidade essencial para qualquer analista de dados. Com as técnicas que discutimos, você agora pode aplicar filtros simples e complexos em seus conjuntos de dados, facilitando suas análises e extraindo as informações mais relevantes.

Lembre-se de que o Pandas oferece uma ampla gama de funcionalidades para manipulação de dados, e a prática constante ajudará você a dominar essas técnicas rapidamente.

Filtrar dados em uma estrutura como um DataFrame é uma habilidade crucial para quem trabalha com análise de dados. Com a biblioteca Pandas, você pode extrair informações valiosas de conjuntos de dados extensos de maneira eficiente. Aprender a aplicar essas técnicas não só melhora suas habilidades em Python, mas também amplia sua capacidade de tomar decisões baseadas em dados.

Algumas aplicações:

  • Análise de dados financeiros
  • Filtragem de dados de vendas
  • Extração de informações relevantes para relatórios

Dicas para quem está começando

  • Comece praticando com pequenos DataFrames.
  • Use a documentação do Pandas para explorar mais funções.
  • Experimente filtrar com diferentes condições.
Foto de Lucas Martins
Contribuições de
Lucas Martins

Desenvolvedor full stack atuando com PHP, Java, Node.js e Python.

Mais sobre o autor
Compartilhe este tutorial: Como filtrar linhas de um DataFrame Pandas com base em uma condição?

Compartilhe este tutorial

Continue aprendendo:

Como renomear colunas de um DataFrame Pandas?

Aprenda a renomear colunas em DataFrames do Pandas de maneira prática e eficiente.

Tutorial anterior

Como encontrar valores duplicados em um DataFrame Pandas?

Aprenda a detectar e lidar com valores duplicados em DataFrames usando a biblioteca Pandas.

Próximo tutorial