O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados

Data Science (27 Part Series)

1 Aprimorando a Seleção, Filtragem e Agrupamento de Dados no Pandas
2 Operadores Relacionais e Lógicos no Pandas: Simplificando a Filtragem de Dados
… 23 more parts…
3 Python Pandas: Explorando a Função “read” e suas Possibilidades
4 Desmistificando e Simplificando a Biblioteca NumPy em Python
5 Explorando Estruturas de Dados e Laços no Python: Sets, Arrays, Loops, Listas e Dicionários
6 Explorando as Funções Básicas no Python Pandas: Manipulação e Análise de Dados Simplificadas
7 Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas
8 Desvendando a Sintaxe das Expressões Regulares em Python: Um Guia Completo
9 Utilização e Aplicação do Método melt() no Pandas
10 Utilização e Aplicação do `json_normalize()` no Pandas
11 Introdução ao método `apply()` e lambda no Pandas: Um Guia Completo
12 Tratamento de Dados Nulos no Pandas: Uma Abordagem Completa e Detalhada
13 Pandas `get_dummies`: Uma Abordagem Completa com Exemplos
14 Tratamento de Outliers no Pandas: Estratégias e Exemplos
15 Introdução ao Pandas: Unindo DataFrames
16 A Função `loc` do Pandas: Filtragem Detalhada e Exemplos Práticos
17 Detalhando os Diferentes Tipos de Leitura e suas parâmetros Função `read()` no Pandas
18 Guia Avançado do Método `merge` no Pandas com Exemplos
19 O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados
20 Projeto de Data Science: Análise de Dados do Airbnb
21 Uma Jornada pelo Universo da Amostragem em Data Science com Python: Teoria e Prática
22 Uma Exploração Abrangente da Estatística Descritiva em Data Science com Python: Exemplos Práticos com Dataset Fictício
23 Explorando os Quantis e Quartis em Data Science com Python: Uma Análise Detalhada com Exemplos Práticos e Dataset Fictício
24 Desvendando as Relações com Correlação de Dados em Data Science usando Python: Exemplos Práticos com Dataset Fictício
25 Explorando a Poderosa Representação Gráfica em Data Science com Python: Exemplos Práticos com Dataset Fictício
26 Google Cloud Storage com Python: Um Guia Completo
27 Explorando as Funções Específicas da Biblioteca google-cloud-storage no Google Cloud Platform

O Pandas, uma biblioteca amplamente utilizada em análise de dados e manipulação, oferece uma gama de funcionalidades que facilitam a tarefa de trabalhar com conjuntos de dados complexos. Uma dessas funcionalidades é o método cut, que fornece uma maneira conveniente de segmentar e agrupar dados numéricos em intervalos personalizados. Neste artigo, exploraremos em detalhes o método cut, discutindo sua sintaxe, recursos e fornecendo exemplos práticos para demonstrar sua utilidade.

Introdução ao Método `cut`

O método cut faz parte da biblioteca Pandas e é utilizado para discretizar os dados numéricos em intervalos específicos. Isso é útil quando você deseja criar categorias a partir de dados contínuos, tornando a análise mais compreensível e permitindo a aplicação de operações agregadas sobre essas categorias.

Sintaxe Básica

A sintaxe básica do método cut é a seguinte:


<span>pandas</span><span>.</span><span>cut</span><span>(</span><span>x</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>None</span><span>,</span> <span>right</span><span>=</span><span>True</span><span>,</span> <span>include_lowest</span><span>=</span><span>False</span><span>,</span> <span>...)</span>
<span>pandas</span><span>.</span><span>cut</span><span>(</span><span>x</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>None</span><span>,</span> <span>right</span><span>=</span><span>True</span><span>,</span> <span>include_lowest</span><span>=</span><span>False</span><span>,</span> <span>...)</span>
pandas.cut(x, bins, labels=None, right=True, include_lowest=False, ...)

Enter fullscreen mode Exit fullscreen mode

x: A série ou array contendo os dados a serem discretizados.
bins: Os limites dos intervalos a serem usados para segmentação.
labels: Etiquetas opcionais para as categorias resultantes.
right: Indica se os intervalos devem ser fechados à direita (incluindo o limite direito) ou não.
include_lowest: Se verdadeiro, inclui o limite inferior no primeiro intervalo.

Exemplos de Uso do Método `cut`

Agora, vamos explorar alguns exemplos para entender como o método cut funciona na prática.

Exemplo 1: Segmentação de Notas

Suponha que temos um conjunto de notas de estudantes e queremos segmentá-las em faixas, como “A”, “B”, “C”, etc. Vamos usar o método cut para realizar essa tarefa:


<span>import</span> <span>pandas</span> <span>as</span> <span>pd</span>
<span>notas</span> <span>=</span> <span>[</span><span>78</span><span>,</span> <span>92</span><span>,</span> <span>65</span><span>,</span> <span>88</span><span>,</span> <span>95</span><span>,</span> <span>70</span><span>,</span> <span>82</span><span>,</span> <span>60</span><span>,</span> <span>78</span><span>,</span> <span>85</span><span>]</span>
<span>bins</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>60</span><span>,</span> <span>70</span><span>,</span> <span>80</span><span>,</span> <span>90</span><span>,</span> <span>100</span><span>]</span>
<span>categorias</span> <span>=</span> <span>[</span><span>'F'</span><span>,</span> <span>'D'</span><span>,</span> <span>'C'</span><span>,</span> <span>'B'</span><span>,</span> <span>'A'</span><span>]</span>
<span>notas_segmentadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>notas</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>categorias</span><span>)</span>
<span>print</span><span>(</span><span>notas_segmentadas</span><span>)</span>
<span>import</span> <span>pandas</span> <span>as</span> <span>pd</span>

<span>notas</span> <span>=</span> <span>[</span><span>78</span><span>,</span> <span>92</span><span>,</span> <span>65</span><span>,</span> <span>88</span><span>,</span> <span>95</span><span>,</span> <span>70</span><span>,</span> <span>82</span><span>,</span> <span>60</span><span>,</span> <span>78</span><span>,</span> <span>85</span><span>]</span>
<span>bins</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>60</span><span>,</span> <span>70</span><span>,</span> <span>80</span><span>,</span> <span>90</span><span>,</span> <span>100</span><span>]</span>
<span>categorias</span> <span>=</span> <span>[</span><span>'F'</span><span>,</span> <span>'D'</span><span>,</span> <span>'C'</span><span>,</span> <span>'B'</span><span>,</span> <span>'A'</span><span>]</span>

<span>notas_segmentadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>notas</span><span>,</span> <span>bins</span><span>,</span> <span>labels</span><span>=</span><span>categorias</span><span>)</span>

<span>print</span><span>(</span><span>notas_segmentadas</span><span>)</span>
import pandas as pd

notas = [78, 92, 65, 88, 95, 70, 82, 60, 78, 85]
bins = [0, 60, 70, 80, 90, 100]
categorias = ['F', 'D', 'C', 'B', 'A']

notas_segmentadas = pd.cut(notas, bins, labels=categorias)

print(notas_segmentadas)

Enter fullscreen mode Exit fullscreen mode

Neste exemplo, as notas foram agrupadas em categorias de acordo com os intervalos fornecidos em bins e etiquetadas com as categorias correspondentes.

Exemplo 2: Idades em Faixas Etárias

Vamos considerar um cenário em que temos uma lista de idades de indivíduos e queremos categorizá-las em grupos etários:


<span>idades</span> <span>=</span> <span>[</span><span>25</span><span>,</span> <span>32</span><span>,</span> <span>50</span><span>,</span> <span>18</span><span>,</span> <span>65</span><span>,</span> <span>40</span><span>,</span> <span>28</span><span>,</span> <span>72</span><span>,</span> <span>55</span><span>,</span> <span>30</span><span>]</span>
<span>faixas_etarias</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>18</span><span>,</span> <span>30</span><span>,</span> <span>50</span><span>,</span> <span>100</span><span>]</span>
<span>categorias_idades</span> <span>=</span> <span>[</span><span>'<18'</span><span>,</span> <span>'18-30'</span><span>,</span> <span>'31-50'</span><span>,</span> <span>'51+'</span><span>]</span>
<span>idades_categorizadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>idades</span><span>,</span> <span>faixas_etarias</span><span>,</span> <span>labels</span><span>=</span><span>categorias_idades</span><span>,</span> <span>right</span><span>=</span><span>False</span><span>)</span>
<span>print</span><span>(</span><span>idades_categorizadas</span><span>)</span>
<span>idades</span> <span>=</span> <span>[</span><span>25</span><span>,</span> <span>32</span><span>,</span> <span>50</span><span>,</span> <span>18</span><span>,</span> <span>65</span><span>,</span> <span>40</span><span>,</span> <span>28</span><span>,</span> <span>72</span><span>,</span> <span>55</span><span>,</span> <span>30</span><span>]</span>
<span>faixas_etarias</span> <span>=</span> <span>[</span><span>0</span><span>,</span> <span>18</span><span>,</span> <span>30</span><span>,</span> <span>50</span><span>,</span> <span>100</span><span>]</span>
<span>categorias_idades</span> <span>=</span> <span>[</span><span>'<18'</span><span>,</span> <span>'18-30'</span><span>,</span> <span>'31-50'</span><span>,</span> <span>'51+'</span><span>]</span>

<span>idades_categorizadas</span> <span>=</span> <span>pd</span><span>.</span><span>cut</span><span>(</span><span>idades</span><span>,</span> <span>faixas_etarias</span><span>,</span> <span>labels</span><span>=</span><span>categorias_idades</span><span>,</span> <span>right</span><span>=</span><span>False</span><span>)</span>

<span>print</span><span>(</span><span>idades_categorizadas</span><span>)</span>
idades = [25, 32, 50, 18, 65, 40, 28, 72, 55, 30]
faixas_etarias = [0, 18, 30, 50, 100]
categorias_idades = ['<18', '18-30', '31-50', '51+']

idades_categorizadas = pd.cut(idades, faixas_etarias, labels=categorias_idades, right=False)

print(idades_categorizadas)

Enter fullscreen mode Exit fullscreen mode

Neste exemplo, estamos criando categorias para diferentes grupos etários com base nos intervalos fornecidos. Ao definir right=False, garantimos que o limite direito do intervalo não esteja incluído, resultando em categorias mutuamente exclusivas.

Conclusão

O método cut do Pandas é uma ferramenta extremamente útil para segmentar e categorizar dados numéricos em intervalos personalizados. Isso facilita a análise e a agregação de informações, permitindo uma compreensão mais clara dos dados. Ao utilizar o método cut, os analistas de dados podem transformar dados contínuos em categorias significativas, simplificando o processo de tomada de decisões e descoberta de insights.

Neste artigo, exploramos a sintaxe básica do método cut e apresentamos exemplos práticos de seu uso em diferentes cenários. Com o conhecimento desses exemplos, você está preparado para aplicar o método cut em seus próprios projetos de análise de dados, aproveitando ao máximo essa funcionalidade poderosa do Pandas.

Data Science (27 Part Series)

原文链接：O Método `cut` do Pandas: Uma Ferramenta Poderosa para a Segmentação de Dados

展开阅读全文

文章版权声明 1、本网站名称：拾光赋
2、本站永久网址：https://www.blogs.ink
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ：805375623进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END