Como selecionar colunas ao ler arquivos CSV utilizando Pandas

Saiba como utilizar o Pandas para ler somente as colunas necessárias de arquivos CSV, otimizando seu trabalho com dados.

Como selecionar colunas ao ler arquivos CSV utilizando Pandas

Ler arquivos CSV é uma das atividades mais comuns ao trabalhar com análise de dados. O Pandas, uma poderosa biblioteca do Python, facilita essa tarefa de forma significativa. Neste tutorial, vamos explorar como ler apenas algumas colunas de um arquivo CSV, evitando a sobrecarga de dados desnecessários.

Importando Bibliotecas Necessárias

Para começar, você precisa importar a biblioteca Pandas. Caso ainda não tenha o Pandas instalado, pode fazê-lo utilizando o comando:

pip install pandas

Depois de instalado, você pode importá-lo em seu script:

import pandas as pd

Aqui, estamos importando a biblioteca Pandas e dando a ela o alias pd, o que nos permitirá usar suas funções de maneira mais prática.

Lendo o Arquivo CSV

Suponha que temos um arquivo chamado dados.csv com as seguintes colunas: Nome, Idade, Cidade, Salario. Se quisermos ler apenas as colunas Nome e Salario, podemos usar o seguinte código:

dados = pd.read_csv('dados.csv', usecols=['Nome', 'Salario'])

Neste exemplo, estamos utilizando o parâmetro usecols, que nos permite especificar quais colunas queremos ler. Isso é especialmente útil para arquivos grandes, onde a leitura de dados desnecessários pode consumir tempo e memória.

Exibindo os Dados Lidos

Após a leitura, é sempre uma boa prática verificar os dados que foram carregados. Você pode fazer isso usando o método head():

print(dados.head())

O método head() exibirá as primeiras cinco linhas do DataFrame, permitindo que você veja rapidamente como os dados foram carregados.

Tratando Dados Faltantes

Ao trabalhar com dados, é comum encontrar valores faltantes. O Pandas fornece várias maneiras de lidar com isso. Você pode optar por descartar linhas com valores faltantes ou substituir esses valores. Para descartar linhas, você pode usar:

dados.dropna(inplace=True)

Ou, se preferir substituir os valores faltantes por zero, utilize:

dados.fillna(0, inplace=True)

Salvando o DataFrame em um Novo CSV

Após processar os dados, você pode querer salvar o novo DataFrame em um arquivo CSV. Para isso, use o método to_csv():

dados.to_csv('dados_filtrados.csv', index=False)

Esse comando salvará o DataFrame dados em um novo arquivo chamado dados_filtrados.csv, sem incluir os índices das linhas.

Conclusão

Neste tutorial, aprendemos como ler apenas algumas colunas de um arquivo CSV usando a biblioteca Pandas. Essa prática não só otimiza o uso de memória, mas também melhora a eficiência da análise de dados. Lembre-se de experimentar diferentes opções de leitura e tratamento de dados para se tornar um especialista em manipulação de dados com Pandas.

A manipulação de dados é uma habilidade crucial no mundo atual, onde a análise de grandes volumes de informação é uma rotina. O Pandas se destaca como uma das bibliotecas mais utilizadas para esse fim em Python. Com ela, você pode ler, manipular e analisar dados de maneira eficiente e intuitiva. Entender como selecionar colunas específicas de arquivos CSV é um passo importante para otimizar suas análises e focar nas informações que realmente importam.

Algumas aplicações:

  • Filtrar dados relevantes para relatórios
  • Reduzir o tempo de processamento ao trabalhar com grandes conjuntos de dados
  • Facilitar a visualização de informações específicas

Dicas para quem está começando

  • Comece sempre importando apenas as colunas necessárias.
  • Familiarize-se com os métodos de tratamento de dados faltantes.
  • Use a documentação oficial do Pandas para explorar suas funcionalidades.

Contribuições de Gustavo Ferraz

Compartilhe este tutorial: Como ler apenas algumas colunas de um arquivo CSV no Pandas?

Compartilhe este tutorial

Continue aprendendo:

Como abrir um arquivo CSV usando Pandas?

Aprenda a abrir e manipular arquivos CSV utilizando a biblioteca Pandas em Python.

Tutorial anterior

Como converter um dicionário para JSON em Python?

Aprenda a converter dicionários em JSON utilizando Python de forma simples e prática.

Próximo tutorial