Data Science (27 Part Series)
1 Aprimorando a Seleção, Filtragem e Agrupamento de Dados no Pandas
2 Operadores Relacionais e Lógicos no Pandas: Simplificando a Filtragem de Dados
… 23 more parts…
3 Python Pandas: Explorando a Função “read” e suas Possibilidades
4 Desmistificando e Simplificando a Biblioteca NumPy em Python
5 Explorando Estruturas de Dados e Laços no Python: Sets, Arrays, Loops, Listas e Dicionários
6 Explorando as Funções Básicas no Python Pandas: Manipulação e Análise de Dados Simplificadas
7 Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas
8 Desvendando a Sintaxe das Expressões Regulares em Python: Um Guia Completo
9 Utilização e Aplicação do Método melt() no Pandas
10 Utilização e Aplicação do `json_normalize()` no Pandas
11 Introdução ao método `apply()` e lambda no Pandas: Um Guia Completo
12 Tratamento de Dados Nulos no Pandas: Uma Abordagem Completa e Detalhada
13 Pandas `get_dummies`: Uma Abordagem Completa com Exemplos
14 Tratamento de Outliers no Pandas: Estratégias e Exemplos
15 Introdução ao Pandas: Unindo DataFrames
16 A Função `loc` do Pandas: Filtragem Detalhada e Exemplos Práticos
17 Detalhando os Diferentes Tipos de Leitura e suas parâmetros Função `read()` no Pandas
18 Guia Avançado do Método `merge` no Pandas com Exemplos
19 O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados
20 Projeto de Data Science: Análise de Dados do Airbnb
21 Uma Jornada pelo Universo da Amostragem em Data Science com Python: Teoria e Prática
22 Uma Exploração Abrangente da Estatística Descritiva em Data Science com Python: Exemplos Práticos com Dataset Fictício
23 Explorando os Quantis e Quartis em Data Science com Python: Uma Análise Detalhada com Exemplos Práticos e Dataset Fictício
24 Desvendando as Relações com Correlação de Dados em Data Science usando Python: Exemplos Práticos com Dataset Fictício
25 Explorando a Poderosa Representação Gráfica em Data Science com Python: Exemplos Práticos com Dataset Fictício
26 Google Cloud Storage com Python: Um Guia Completo
27 Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
O Pandas, uma biblioteca amplamente utilizada em análise de dados e manipulação, oferece uma gama de funcionalidades que facilitam a tarefa de trabalhar com conjuntos de dados complexos. Uma dessas funcionalidades é o método cut
, que fornece uma maneira conveniente de segmentar e agrupar dados numéricos em intervalos personalizados. Neste artigo, exploraremos em detalhes o método cut
, discutindo sua sintaxe, recursos e fornecendo exemplos práticos para demonstrar sua utilidade.
Introdução ao Método cut
O método cut
faz parte da biblioteca Pandas e é utilizado para discretizar os dados numéricos em intervalos específicos. Isso é útil quando você deseja criar categorias a partir de dados contínuos, tornando a análise mais compreensível e permitindo a aplicação de operações agregadas sobre essas categorias.
Sintaxe Básica
A sintaxe básica do método cut
é a seguinte:
<span>pandas</span><span>.</span><span>cut</span><span>(</span><span>x</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>None</span><span>,</span> <span>right</span><span>=</span><span>True</span><span>,</span> <span>include_lowest</span><span>=</span><span>False</span><span>,</span> <span>...)</span><span>pandas</span><span>.</span><span>cut</span><span>(</span><span>x</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>None</span><span>,</span> <span>right</span><span>=</span><span>True</span><span>,</span> <span>include_lowest</span><span>=</span><span>False</span><span>,</span> <span>...)</span>pandas.cut(x, bins, labels=None, right=True, include_lowest=False, ...)
Enter fullscreen mode Exit fullscreen mode
-
x
: A série ou array contendo os dados a serem discretizados. -
bins
: Os limites dos intervalos a serem usados para segmentação. -
labels
: Etiquetas opcionais para as categorias resultantes. -
right
: Indica se os intervalos devem ser fechados à direita (incluindo o limite direito) ou não. -
include_lowest
: Se verdadeiro, inclui o limite inferior no primeiro intervalo.
Exemplos de Uso do Método cut
Agora, vamos explorar alguns exemplos para entender como o método cut
funciona na prática.
Exemplo 1: Segmentação de Notas
Suponha que temos um conjunto de notas de estudantes e queremos segmentá-las em faixas, como “A”, “B”, “C”, etc. Vamos usar o método cut
para realizar essa tarefa:
<span>import</span> <span>pandas</span> <span>as</span> <span>pd</span><span>notas</span> <span>=</span> <span>[</span><span>78</span><span>,</span> <span>92</span><span>,</span> <span>65</span><span>,</span> <span>88</span><span>,</span> <span>95</span><span>,</span> <span>70</span><span>,</span> <span>82</span><span>,</span> <span>60</span><span>,</span> <span>78</span><span>,</span> <span>85</span><span>]</span><span>bins</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>60</span><span>,</span> <span>70</span><span>,</span> <span>80</span><span>,</span> <span>90</span><span>,</span> <span>100</span><span>]</span><span>categorias</span> <span>=</span> <span>[</span><span>'F'</span><span>,</span> <span>'D'</span><span>,</span> <span>'C'</span><span>,</span> <span>'B'</span><span>,</span> <span>'A'</span><span>]</span><span>notas_segmentadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>notas</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>categorias</span><span>)</span><span>print</span><span>(</span><span>notas_segmentadas</span><span>)</span><span>import</span> <span>pandas</span> <span>as</span> <span>pd</span> <span>notas</span> <span>=</span> <span>[</span><span>78</span><span>,</span> <span>92</span><span>,</span> <span>65</span><span>,</span> <span>88</span><span>,</span> <span>95</span><span>,</span> <span>70</span><span>,</span> <span>82</span><span>,</span> <span>60</span><span>,</span> <span>78</span><span>,</span> <span>85</span><span>]</span> <span>bins</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>60</span><span>,</span> <span>70</span><span>,</span> <span>80</span><span>,</span> <span>90</span><span>,</span> <span>100</span><span>]</span> <span>categorias</span> <span>=</span> <span>[</span><span>'F'</span><span>,</span> <span>'D'</span><span>,</span> <span>'C'</span><span>,</span> <span>'B'</span><span>,</span> <span>'A'</span><span>]</span> <span>notas_segmentadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>notas</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>categorias</span><span>)</span> <span>print</span><span>(</span><span>notas_segmentadas</span><span>)</span>import pandas as pd notas = [78, 92, 65, 88, 95, 70, 82, 60, 78, 85] bins = [0, 60, 70, 80, 90, 100] categorias = ['F', 'D', 'C', 'B', 'A'] notas_segmentadas = pd.cut(notas, bins, labels=categorias) print(notas_segmentadas)
Enter fullscreen mode Exit fullscreen mode
Neste exemplo, as notas foram agrupadas em categorias de acordo com os intervalos fornecidos em bins
e etiquetadas com as categorias correspondentes.
Exemplo 2: Idades em Faixas Etárias
Vamos considerar um cenário em que temos uma lista de idades de indivíduos e queremos categorizá-las em grupos etários:
<span>idades</span> <span>=</span> <span>[</span><span>25</span><span>,</span> <span>32</span><span>,</span> <span>50</span><span>,</span> <span>18</span><span>,</span> <span>65</span><span>,</span> <span>40</span><span>,</span> <span>28</span><span>,</span> <span>72</span><span>,</span> <span>55</span><span>,</span> <span>30</span><span>]</span><span>faixas_etarias</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>18</span><span>,</span> <span>30</span><span>,</span> <span>50</span><span>,</span> <span>100</span><span>]</span><span>categorias_idades</span> <span>=</span> <span>[</span><span>'<18'</span><span>,</span> <span>'18-30'</span><span>,</span> <span>'31-50'</span><span>,</span> <span>'51+'</span><span>]</span><span>idades_categorizadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>idades</span><span>,</span> <span>faixas_etarias</span><span>,</span> <span>labels</span><span>=</span><span>categorias_idades</span><span>,</span> <span>right</span><span>=</span><span>False</span><span>)</span><span>print</span><span>(</span><span>idades_categorizadas</span><span>)</span><span>idades</span> <span>=</span> <span>[</span><span>25</span><span>,</span> <span>32</span><span>,</span> <span>50</span><span>,</span> <span>18</span><span>,</span> <span>65</span><span>,</span> <span>40</span><span>,</span> <span>28</span><span>,</span> <span>72</span><span>,</span> <span>55</span><span>,</span> <span>30</span><span>]</span> <span>faixas_etarias</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>18</span><span>,</span> <span>30</span><span>,</span> <span>50</span><span>,</span> <span>100</span><span>]</span> <span>categorias_idades</span> <span>=</span> <span>[</span><span>'<18'</span><span>,</span> <span>'18-30'</span><span>,</span> <span>'31-50'</span><span>,</span> <span>'51+'</span><span>]</span> <span>idades_categorizadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>idades</span><span>,</span> <span>faixas_etarias</span><span>,</span> <span>labels</span><span>=</span><span>categorias_idades</span><span>,</span> <span>right</span><span>=</span><span>False</span><span>)</span> <span>print</span><span>(</span><span>idades_categorizadas</span><span>)</span>idades = [25, 32, 50, 18, 65, 40, 28, 72, 55, 30] faixas_etarias = [0, 18, 30, 50, 100] categorias_idades = ['<18', '18-30', '31-50', '51+'] idades_categorizadas = pd.cut(idades, faixas_etarias, labels=categorias_idades, right=False) print(idades_categorizadas)
Enter fullscreen mode Exit fullscreen mode
Neste exemplo, estamos criando categorias para diferentes grupos etários com base nos intervalos fornecidos. Ao definir right=False
, garantimos que o limite direito do intervalo não esteja incluído, resultando em categorias mutuamente exclusivas.
Conclusão
O método cut
do Pandas é uma ferramenta extremamente útil para segmentar e categorizar dados numéricos em intervalos personalizados. Isso facilita a análise e a agregação de informações, permitindo uma compreensão mais clara dos dados. Ao utilizar o método cut
, os analistas de dados podem transformar dados contínuos em categorias significativas, simplificando o processo de tomada de decisões e descoberta de insights.
Neste artigo, exploramos a sintaxe básica do método cut
e apresentamos exemplos práticos de seu uso em diferentes cenários. Com o conhecimento desses exemplos, você está preparado para aplicar o método cut
em seus próprios projetos de análise de dados, aproveitando ao máximo essa funcionalidade poderosa do Pandas.
Data Science (27 Part Series)
1 Aprimorando a Seleção, Filtragem e Agrupamento de Dados no Pandas
2 Operadores Relacionais e Lógicos no Pandas: Simplificando a Filtragem de Dados
… 23 more parts…
3 Python Pandas: Explorando a Função “read” e suas Possibilidades
4 Desmistificando e Simplificando a Biblioteca NumPy em Python
5 Explorando Estruturas de Dados e Laços no Python: Sets, Arrays, Loops, Listas e Dicionários
6 Explorando as Funções Básicas no Python Pandas: Manipulação e Análise de Dados Simplificadas
7 Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas
8 Desvendando a Sintaxe das Expressões Regulares em Python: Um Guia Completo
9 Utilização e Aplicação do Método melt() no Pandas
10 Utilização e Aplicação do `json_normalize()` no Pandas
11 Introdução ao método `apply()` e lambda no Pandas: Um Guia Completo
12 Tratamento de Dados Nulos no Pandas: Uma Abordagem Completa e Detalhada
13 Pandas `get_dummies`: Uma Abordagem Completa com Exemplos
14 Tratamento de Outliers no Pandas: Estratégias e Exemplos
15 Introdução ao Pandas: Unindo DataFrames
16 A Função `loc` do Pandas: Filtragem Detalhada e Exemplos Práticos
17 Detalhando os Diferentes Tipos de Leitura e suas parâmetros Função `read()` no Pandas
18 Guia Avançado do Método `merge` no Pandas com Exemplos
19 O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados
20 Projeto de Data Science: Análise de Dados do Airbnb
21 Uma Jornada pelo Universo da Amostragem em Data Science com Python: Teoria e Prática
22 Uma Exploração Abrangente da Estatística Descritiva em Data Science com Python: Exemplos Práticos com Dataset Fictício
23 Explorando os Quantis e Quartis em Data Science com Python: Uma Análise Detalhada com Exemplos Práticos e Dataset Fictício
24 Desvendando as Relações com Correlação de Dados em Data Science usando Python: Exemplos Práticos com Dataset Fictício
25 Explorando a Poderosa Representação Gráfica em Data Science com Python: Exemplos Práticos com Dataset Fictício
26 Google Cloud Storage com Python: Um Guia Completo
27 Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform
原文链接:O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados
暂无评论内容