# suprimir avisos (warnings)
import warnings
warnings.filterwarnings("ignore")

import dask.dataframe as dd

# URL do conjunto de dados
url = "https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv"

# Carregando o conjunto de dados usando Dask
dados_casas_dask = dd.read_csv(url)

# Calculando estatísticas descritivas
descricao_dask = dados_casas_dask.describe()

# executa operações de forma eficiente em grandes conjuntos de dados
descricao_dask_computed = descricao_dask.compute()

# Exibindo o resultado das estatísticas descritivas
print(descricao_dask_computed)

          longitude      latitude  housing_median_age   total_rooms  \
count  20640.000000  20640.000000        20640.000000  20640.000000   
mean    -119.569704     35.631861           28.639486   2635.763081   
std        2.003532      2.135952           12.585558   2181.615252   
min     -124.350000     32.540000            1.000000      2.000000   
25%     -121.800000     33.930000           18.000000   1447.750000   
50%     -118.490000     34.260000           29.000000   2127.000000   
75%     -118.010000     37.710000           37.000000   3148.000000   
max     -114.310000     41.950000           52.000000  39320.000000   

       total_bedrooms    population    households  median_income  \
count    20433.000000  20640.000000  20640.000000   20640.000000   
mean       537.870553   1425.476744    499.539680       3.870671   
std        421.385070   1132.462122    382.329753       1.899822   
min          1.000000      3.000000      1.000000       0.499900   
25%        296.000000    787.000000    280.000000       2.563400   
50%        435.000000   1166.000000    409.000000       3.534800   
75%        647.000000   1725.000000    605.000000       4.743250   
max       6445.000000  35682.000000   6082.000000      15.000100   

       median_house_value  
count        20640.000000  
mean        206855.816909  
std         115395.615874  
min          14999.000000  
25%         119600.000000  
50%         179700.000000  
75%         264725.000000  
max         500001.000000

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pandas as pd

# Carregando o conjunto de dados usando pandas
dados_casas = pd.read_csv(url)

# Preparando os dados
X = dados_casas[["total_rooms"]]
y = dados_casas["median_house_value"]
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando um modelo XGBoost
modelo_xgb = xgb.XGBRegressor(objective ='reg:squarederror', n_estimators=100)
modelo_xgb.fit(X_treino, y_treino)

# Faz previsões
y_pred_xgb = modelo_xgb.predict(X_teste)

# Avaliando o modelo
rmse = mean_squared_error(y_teste, y_pred_xgb, squared=False)
print("RMSE do Modelo XGBoost:", rmse)

RMSE do Modelo XGBoost: 113329.45682157896

from sklearn.model_selection import GridSearchCV

# Defini os hiperparâmetros que serão otimizados
param_grid = {
    'learning_rate': [0.01, 0.1, 0.2],# Taxa de aprendizado, controla o quanto cada nova árvore contribui para corrigir os erros das árvores anteriores
    'max_depth': [3, 5, 7],           # Profundidade máxima das árvores, controlando a complexidade do modelo
    'subsample': [0.6, 0.8, 1.0],     # Fração das amostras usadas para treinar cada árvore. Usar menos de 1.0 (100%) ajuda a prevenir overfitting
    'n_estimators': [100, 200, 300]   # Número de árvores a serem construídas no modelo, controlando o número de iterações
}

# Instancia o modelo XGBoost
modelo_xgb = xgb.XGBRegressor(objective='reg:squarederror', random_state=42)

# Configura o GridSearchCV / validação cruzada com 5 divisões, e critério de avaliação será o erro quadrático médio negativo - scoring
grid_search = GridSearchCV(estimator=modelo_xgb, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1)

# Executa a busca pelos melhores hiperparâmetros
grid_search.fit(X_treino, y_treino)

# Exibi os melhores parâmetros encontrados
print("Melhores Hiperparâmetros:", grid_search.best_params_)

# Treina o modelo com os melhores parâmetros
modelo_otimizado = grid_search.best_estimator_

# Faz previsões e avalia o modelo otimizado
y_pred_otimizado = modelo_otimizado.predict(X_teste)
rmse_otimizado = mean_squared_error(y_teste, y_pred_otimizado, squared=False)
print("RMSE do Modelo Otimizado:", rmse_otimizado)

Fitting 5 folds for each of 81 candidates, totalling 405 fits
Melhores Hiperparâmetros: {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.6}
RMSE do Modelo Otimizado: 112555.30074019264

import shap

# Criaando um objeto Explainer
explainer = shap.Explainer(modelo_otimizado, X_treino)
shap_values = explainer(X_teste)

# Visualizando os valores SHAP
shap.summary_plot(shap_values, X_teste)

100%|===================| 6184/6192 [00:11<00:00]

import plotly.express as px

dados_casas = pd.read_csv(url)

# Criando um gráfico de dispersão interativo
fig = px.scatter(dados_casas, 
                 x="total_rooms",  # Coluna com o número total de cômodos
                 y="median_house_value",  # Coluna com o valor mediano da casa
                 title="Número de Cômodos (Agregado) vs. Valor Mediano da Casa",
                 hover_data={'total_rooms': True, 'median_house_value': ':.1f'})

# Atualizando o layout do gráfico
fig.update_layout(
    xaxis_title="Número Total de Cômodos (Agregado por Região)",  # Ajuste do rótulo no eixo X
    yaxis_title="Valor Mediano da Casa",  # Ajuste do rótulo no eixo Y
    title_x=0.5  # Centraliza o título
)

# Exibir o gráfico
fig.show()

import tensorflow as tfqq
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense


# Carregando o conjunto de dados usando pandas
dados_casas = pd.read_csv(url)

# Preparando os dados
X = dados_casas[["total_rooms"]].values
y = dados_casas["median_house_value"].values

# Definindo a arquitetura do modelo
modelo_tf = Sequential([
    Dense(10, activation='relu', input_shape=(X.shape[1],)),
    Dense(1)
])

# Compilando o modelo
modelo_tf.compile(optimizer='adam', loss='mse')

# Treinando o modelo
modelo_tf.fit(X, y, epochs=10, batch_size=32)

# Fazendo previsões
y_pred_tf = modelo_tf.predict(X)
d_tf = modelo_tf.predict(X)

Epoch 1/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 5s 1ms/step - loss: 56108036096.0000  
Epoch 2/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 931us/step - loss: 54081626112.0000
Epoch 3/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 900us/step - loss: 46221725696.0000
Epoch 4/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 811us/step - loss: 37783916544.0000
Epoch 5/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 780us/step - loss: 31379750912.0000
Epoch 6/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 817us/step - loss: 28132274176.0000
Epoch 7/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 820us/step - loss: 27776878592.0000
Epoch 8/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 898us/step - loss: 27917871104.0000
Epoch 9/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 812us/step - loss: 27391543296.0000
Epoch 10/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 798us/step - loss: 27503605760.0000
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 761us/step
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 768us/step

from tensorflow.keras.layers import Dropout

# Modificação da arquitetura do modelo para incluir Dropout
modelo_tf = Sequential([
    Dense(10, activation='relu', input_shape=(X.shape[1],)),
    Dropout(0.2),  # 20% das unidades serão desligadas durante o treinamento
    Dense(1)
])

# Compilando o modelo
modelo_tf.compile(optimizer='adam', loss='mse')

# Treinar o modelo com a nova arquitetura
modelo_tf.fit(X, y, epochs=10, batch_size=32)

Epoch 1/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 2s 855us/step - loss: 55228936192.0000
Epoch 2/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 825us/step - loss: 47544848384.0000
Epoch 3/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 934us/step - loss: 34778632192.0000
Epoch 4/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 887us/step - loss: 29066162176.0000
Epoch 5/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 914us/step - loss: 27990056960.0000
Epoch 6/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 893us/step - loss: 28555808768.0000
Epoch 7/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 900us/step - loss: 28106973184.0000
Epoch 8/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 891us/step - loss: 29005492224.0000
Epoch 9/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 928us/step - loss: 29002612736.0000
Epoch 10/10
645/645 ━━━━━━━━━━━━━━━━━━━━ 1s 864us/step - loss: 27780956160.0000

<keras.src.callbacks.history.History at 0x211cfd3db80>

Módulos Essenciais de Python

1. Dask: Manipulação e Análise de Dados em Grande Escala

2. XGBoost: Modelos de Gradient Boosting¶

3. SHAP: Interpretação de Modelos de Machine Learning¶

4. Plotly: Visualizações Interativas¶

5. TensorFlow: Deep Learning¶