Building Your Own AI Model with Open-Source Tools: A Step-by-Step Technical Guide - 拾光赋-拾光赋

Building Your Own AI Model with Open-Source Tools: A Step-by-Step Technical Guide

1个月前发布

04613

Why Build Your Own AI Model?

While APIs like GPT-4 or Gemini are powerful, they come with limitations: cost, latency, and lack of customization. Open-source models like Llama 3, Mistral, or BERT let you own the stack, tweak architectures, and optimize for niche tasks—whether that’s medical text analysis or real-time drone object detection.

In this guide, we’ll build a custom sentiment analysis model using Hugging Face Transformers and PyTorch, with step-by-step code. Let’s dive in!

Step 1: Choose Your Base Model

Open-source models act as a starting point via transfer learning. For example:

BERT for NLP tasks (text classification, NER).
ResNet for computer vision.
Whisper for speech-to-text.

Example: Let’s use DistilBERT—a lighter BERT variant—for our sentiment analysis task.


<span>from</span> <span>transformers</span> <span>import</span> <span>AutoTokenizer</span><span>,</span> <span>AutoModelForSequenceClassification</span>
<span>model_name</span> <span>=</span> <span>"</span><span>distilbert-base-uncased</span><span>"</span>
<span>tokenizer</span> <span>=</span> <span>AutoTokenizer</span><span>.</span><span>from_pretrained</span><span>(</span><span>model_name</span><span>)</span>
<span>model</span> <span>=</span> <span>AutoModelForSequenceClassification</span><span>.</span><span>from_pretrained</span><span>(</span><span>model_name</span><span>,</span> <span>num_labels</span><span>=</span><span>2</span><span>)</span>  <span># 2 classes: positive/negative </span>
<span>from</span> <span>transformers</span> <span>import</span> <span>AutoTokenizer</span><span>,</span> <span>AutoModelForSequenceClassification</span>

<span>model_name</span> <span>=</span> <span>"</span><span>distilbert-base-uncased</span><span>"</span>
<span>tokenizer</span> <span>=</span> <span>AutoTokenizer</span><span>.</span><span>from_pretrained</span><span>(</span><span>model_name</span><span>)</span>
<span>model</span> <span>=</span> <span>AutoModelForSequenceClassification</span><span>.</span><span>from_pretrained</span><span>(</span><span>model_name</span><span>,</span> <span>num_labels</span><span>=</span><span>2</span><span>)</span>  <span># 2 classes: positive/negative </span>
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  # 2 classes: positive/negative

Enter fullscreen mode Exit fullscreen mode

Step 2: Prepare Your Dataset

Use open datasets (e.g., Hugging Face Datasets, Kaggle) or curate your own. For this demo, we’ll load the IMDb Reviews dataset:


<span>from</span> <span>datasets</span> <span>import</span> <span>load_dataset</span>
<span>dataset</span> <span>=</span> <span>load_dataset</span><span>(</span><span>"</span><span>imdb</span><span>"</span><span>)</span>
<span>train_dataset</span> <span>=</span> <span>dataset</span><span>[</span><span>"</span><span>train</span><span>"</span><span>].</span><span>shuffle</span><span>().</span><span>select</span><span>(</span><span>range</span><span>(</span><span>1000</span><span>))</span>  <span># Smaller subset for testing </span><span>test_dataset</span> <span>=</span> <span>dataset</span><span>[</span><span>"</span><span>test</span><span>"</span><span>].</span><span>shuffle</span><span>().</span><span>select</span><span>(</span><span>range</span><span>(</span><span>200</span><span>))</span>
<span>from</span> <span>datasets</span> <span>import</span> <span>load_dataset</span>

<span>dataset</span> <span>=</span> <span>load_dataset</span><span>(</span><span>"</span><span>imdb</span><span>"</span><span>)</span>
<span>train_dataset</span> <span>=</span> <span>dataset</span><span>[</span><span>"</span><span>train</span><span>"</span><span>].</span><span>shuffle</span><span>().</span><span>select</span><span>(</span><span>range</span><span>(</span><span>1000</span><span>))</span>  <span># Smaller subset for testing </span><span>test_dataset</span> <span>=</span> <span>dataset</span><span>[</span><span>"</span><span>test</span><span>"</span><span>].</span><span>shuffle</span><span>().</span><span>select</span><span>(</span><span>range</span><span>(</span><span>200</span><span>))</span>
from datasets import load_dataset

dataset = load_dataset("imdb")
train_dataset = dataset["train"].shuffle().select(range(1000))  # Smaller subset for testing test_dataset = dataset["test"].shuffle().select(range(200))

Enter fullscreen mode Exit fullscreen mode

Preprocess the data: Tokenize text and format for PyTorch.


<span>def</span> <span>tokenize</span><span>(</span><span>batch</span><span>):</span>
    <span>return</span> <span>tokenizer</span><span>(</span><span>batch</span><span>[</span><span>"</span><span>text</span><span>"</span><span>],</span> <span>padding</span><span>=</span><span>True</span><span>,</span> <span>truncation</span><span>=</span><span>True</span><span>,</span> <span>max_length</span><span>=</span><span>512</span><span>)</span>
<span>train_dataset</span> <span>=</span> <span>train_dataset</span><span>.</span><span>map</span><span>(</span><span>tokenize</span><span>,</span> <span>batched</span><span>=</span><span>True</span><span>,</span> <span>batch_size</span><span>=</span><span>8</span><span>)</span>
<span>test_dataset</span> <span>=</span> <span>test_dataset</span><span>.</span><span>map</span><span>(</span><span>tokenize</span><span>,</span> <span>batched</span><span>=</span><span>True</span><span>,</span> <span>batch_size</span><span>=</span><span>8</span><span>)</span>
<span>def</span> <span>tokenize</span><span>(</span><span>batch</span><span>):</span>
    <span>return</span> <span>tokenizer</span><span>(</span><span>batch</span><span>[</span><span>"</span><span>text</span><span>"</span><span>],</span> <span>padding</span><span>=</span><span>True</span><span>,</span> <span>truncation</span><span>=</span><span>True</span><span>,</span> <span>max_length</span><span>=</span><span>512</span><span>)</span>

<span>train_dataset</span> <span>=</span> <span>train_dataset</span><span>.</span><span>map</span><span>(</span><span>tokenize</span><span>,</span> <span>batched</span><span>=</span><span>True</span><span>,</span> <span>batch_size</span><span>=</span><span>8</span><span>)</span>
<span>test_dataset</span> <span>=</span> <span>test_dataset</span><span>.</span><span>map</span><span>(</span><span>tokenize</span><span>,</span> <span>batched</span><span>=</span><span>True</span><span>,</span> <span>batch_size</span><span>=</span><span>8</span><span>)</span>
def tokenize(batch):
    return tokenizer(batch["text"], padding=True, truncation=True, max_length=512)

train_dataset = train_dataset.map(tokenize, batched=True, batch_size=8)
test_dataset = test_dataset.map(tokenize, batched=True, batch_size=8)

Enter fullscreen mode Exit fullscreen mode

Step 3: Fine-Tune the Model

Leverage Hugging Face’s Trainer class to handle training loops:


<span>from</span> <span>transformers</span> <span>import</span> <span>TrainingArguments</span><span>,</span> <span>Trainer</span>
<span>import</span> <span>numpy</span> <span>as</span> <span>np</span>
<span>from</span> <span>sklearn.metrics</span> <span>import</span> <span>accuracy_score</span>
<span># Define training arguments </span><span>training_args</span> <span>=</span> <span>TrainingArguments</span><span>(</span>
    <span>output_dir</span><span>=</span><span>"</span><span>./results</span><span>"</span><span>,</span>
    <span>num_train_epochs</span><span>=</span><span>3</span><span>,</span>
    <span>per_device_train_batch_size</span><span>=</span><span>8</span><span>,</span>
    <span>evaluation_strategy</span><span>=</span><span>"</span><span>epoch</span><span>"</span><span>,</span>
    <span>logging_dir</span><span>=</span><span>"</span><span>./logs</span><span>"</span><span>,</span>
<span>)</span>
<span># Define metrics </span><span>def</span> <span>compute_metrics</span><span>(</span><span>pred</span><span>):</span>
    <span>labels</span> <span>=</span> <span>pred</span><span>.</span><span>label_ids</span>
    <span>preds</span> <span>=</span> <span>np</span><span>.</span><span>argmax</span><span>(</span><span>pred</span><span>.</span><span>predictions</span><span>,</span> <span>axis</span><span>=</span><span>1</span><span>)</span>
    <span>return</span> <span>{</span><span>"</span><span>accuracy</span><span>"</span><span>:</span> <span>accuracy_score</span><span>(</span><span>labels</span><span>,</span> <span>preds</span><span>)}</span>
<span># Initialize Trainer </span><span>trainer</span> <span>=</span> <span>Trainer</span><span>(</span>
    <span>model</span><span>=</span><span>model</span><span>,</span>
    <span>args</span><span>=</span><span>training_args</span><span>,</span>
    <span>train_dataset</span><span>=</span><span>train_dataset</span><span>,</span>
    <span>eval_dataset</span><span>=</span><span>test_dataset</span><span>,</span>
    <span>compute_metrics</span><span>=</span><span>compute_metrics</span><span>,</span>
<span>)</span>
<span># Start training! </span><span>trainer</span><span>.</span><span>train</span><span>()</span>
<span>from</span> <span>transformers</span> <span>import</span> <span>TrainingArguments</span><span>,</span> <span>Trainer</span>
<span>import</span> <span>numpy</span> <span>as</span> <span>np</span>
<span>from</span> <span>sklearn.metrics</span> <span>import</span> <span>accuracy_score</span>

<span># Define training arguments </span><span>training_args</span> <span>=</span> <span>TrainingArguments</span><span>(</span>
    <span>output_dir</span><span>=</span><span>"</span><span>./results</span><span>"</span><span>,</span>
    <span>num_train_epochs</span><span>=</span><span>3</span><span>,</span>
    <span>per_device_train_batch_size</span><span>=</span><span>8</span><span>,</span>
    <span>evaluation_strategy</span><span>=</span><span>"</span><span>epoch</span><span>"</span><span>,</span>
    <span>logging_dir</span><span>=</span><span>"</span><span>./logs</span><span>"</span><span>,</span>
<span>)</span>

<span># Define metrics </span><span>def</span> <span>compute_metrics</span><span>(</span><span>pred</span><span>):</span>
    <span>labels</span> <span>=</span> <span>pred</span><span>.</span><span>label_ids</span>
    <span>preds</span> <span>=</span> <span>np</span><span>.</span><span>argmax</span><span>(</span><span>pred</span><span>.</span><span>predictions</span><span>,</span> <span>axis</span><span>=</span><span>1</span><span>)</span>
    <span>return</span> <span>{</span><span>"</span><span>accuracy</span><span>"</span><span>:</span> <span>accuracy_score</span><span>(</span><span>labels</span><span>,</span> <span>preds</span><span>)}</span>

<span># Initialize Trainer </span><span>trainer</span> <span>=</span> <span>Trainer</span><span>(</span>
    <span>model</span><span>=</span><span>model</span><span>,</span>
    <span>args</span><span>=</span><span>training_args</span><span>,</span>
    <span>train_dataset</span><span>=</span><span>train_dataset</span><span>,</span>
    <span>eval_dataset</span><span>=</span><span>test_dataset</span><span>,</span>
    <span>compute_metrics</span><span>=</span><span>compute_metrics</span><span>,</span>
<span>)</span>

<span># Start training! </span><span>trainer</span><span>.</span><span>train</span><span>()</span>
from transformers import TrainingArguments, Trainer
import numpy as np
from sklearn.metrics import accuracy_score

# Define training arguments training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    evaluation_strategy="epoch",
    logging_dir="./logs",
)

# Define metrics def compute_metrics(pred):
    labels = pred.label_ids
    preds = np.argmax(pred.predictions, axis=1)
    return {"accuracy": accuracy_score(labels, preds)}

# Initialize Trainer trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    compute_metrics=compute_metrics,
)

# Start training! trainer.train()

Enter fullscreen mode Exit fullscreen mode

Step 4: Evaluate and Optimize

After training, evaluate on the test set:


<span>results</span> <span>=</span> <span>trainer</span><span>.</span><span>evaluate</span><span>()</span>
<span>print</span><span>(</span><span>f</span><span>"</span><span>Test accuracy: </span><span>{</span><span>results</span><span>[</span><span>'</span><span>eval_accuracy</span><span>'</span><span>]</span><span>:</span><span>.</span><span>2</span><span>f</span><span>}</span><span>"</span><span>)</span>
<span>results</span> <span>=</span> <span>trainer</span><span>.</span><span>evaluate</span><span>()</span>
<span>print</span><span>(</span><span>f</span><span>"</span><span>Test accuracy: </span><span>{</span><span>results</span><span>[</span><span>'</span><span>eval_accuracy</span><span>'</span><span>]</span><span>:</span><span>.</span><span>2</span><span>f</span><span>}</span><span>"</span><span>)</span>
results = trainer.evaluate()
print(f"Test accuracy: {results['eval_accuracy']:.2f}")

Enter fullscreen mode Exit fullscreen mode

If performance is lacking:

Add more data.
Try hyperparameter tuning (learning rate, batch size).
Switch to a larger model (e.g., bert-large-uncased).

Step 5: Deploy Your Model

Convert your model to ONNX for production efficiency:


<span>from</span> <span>transformers</span> <span>import</span> <span>convert_graph_to_onnx</span>
<span>convert_graph_to_onnx</span><span>.</span><span>convert_pytorch</span><span>(</span><span>model</span><span>,</span> <span>tokenizer</span><span>,</span> <span>output_path</span><span>=</span><span>"</span><span>model.onnx</span><span>"</span><span>)</span>
<span>from</span> <span>transformers</span> <span>import</span> <span>convert_graph_to_onnx</span>

<span>convert_graph_to_onnx</span><span>.</span><span>convert_pytorch</span><span>(</span><span>model</span><span>,</span> <span>tokenizer</span><span>,</span> <span>output_path</span><span>=</span><span>"</span><span>model.onnx</span><span>"</span><span>)</span>
from transformers import convert_graph_to_onnx

convert_graph_to_onnx.convert_pytorch(model, tokenizer, output_path="model.onnx")

Enter fullscreen mode Exit fullscreen mode

Deploy via FastAPI:


<span>from</span> <span>fastapi</span> <span>import</span> <span>FastAPI</span>
<span>from</span> <span>pydantic</span> <span>import</span> <span>BaseModel</span>
<span>app</span> <span>=</span> <span>FastAPI</span><span>()</span>
<span>class</span> <span>TextRequest</span><span>(</span><span>BaseModel</span><span>):</span>
    <span>text</span><span>:</span> <span>str</span>
<span>@app.post</span><span>(</span><span>"</span><span>/predict</span><span>"</span><span>)</span>
<span>def</span> <span>predict</span><span>(</span><span>request</span><span>:</span> <span>TextRequest</span><span>):</span>
    <span>inputs</span> <span>=</span> <span>tokenizer</span><span>(</span><span>request</span><span>.</span><span>text</span><span>,</span> <span>return_tensors</span><span>=</span><span>"</span><span>pt</span><span>"</span><span>,</span> <span>truncation</span><span>=</span><span>True</span><span>)</span>
    <span>outputs</span> <span>=</span> <span>model</span><span>(</span><span>**</span><span>inputs</span><span>)</span>
    <span>pred</span> <span>=</span> <span>"</span><span>positive</span><span>"</span> <span>if</span> <span>outputs</span><span>.</span><span>logits</span><span>.</span><span>argmax</span><span>().</span><span>item</span><span>()</span> <span>==</span> <span>1</span> <span>else</span> <span>"</span><span>negative</span><span>"</span>
    <span>return</span> <span>{</span><span>"</span><span>sentiment</span><span>"</span><span>:</span> <span>pred</span><span>}</span>
<span>from</span> <span>fastapi</span> <span>import</span> <span>FastAPI</span>
<span>from</span> <span>pydantic</span> <span>import</span> <span>BaseModel</span>

<span>app</span> <span>=</span> <span>FastAPI</span><span>()</span>

<span>class</span> <span>TextRequest</span><span>(</span><span>BaseModel</span><span>):</span>
    <span>text</span><span>:</span> <span>str</span>

<span>@app.post</span><span>(</span><span>"</span><span>/predict</span><span>"</span><span>)</span>
<span>def</span> <span>predict</span><span>(</span><span>request</span><span>:</span> <span>TextRequest</span><span>):</span>
    <span>inputs</span> <span>=</span> <span>tokenizer</span><span>(</span><span>request</span><span>.</span><span>text</span><span>,</span> <span>return_tensors</span><span>=</span><span>"</span><span>pt</span><span>"</span><span>,</span> <span>truncation</span><span>=</span><span>True</span><span>)</span>
    <span>outputs</span> <span>=</span> <span>model</span><span>(</span><span>**</span><span>inputs</span><span>)</span>
    <span>pred</span> <span>=</span> <span>"</span><span>positive</span><span>"</span> <span>if</span> <span>outputs</span><span>.</span><span>logits</span><span>.</span><span>argmax</span><span>().</span><span>item</span><span>()</span> <span>==</span> <span>1</span> <span>else</span> <span>"</span><span>negative</span><span>"</span>
    <span>return</span> <span>{</span><span>"</span><span>sentiment</span><span>"</span><span>:</span> <span>pred</span><span>}</span>
from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class TextRequest(BaseModel):
    text: str

@app.post("/predict")
def predict(request: TextRequest):
    inputs = tokenizer(request.text, return_tensors="pt", truncation=True)
    outputs = model(**inputs)
    pred = "positive" if outputs.logits.argmax().item() == 1 else "negative"
    return {"sentiment": pred}

Enter fullscreen mode Exit fullscreen mode

Challenges & Best Practices

Overfitting: Use dropout layers, data augmentation, or early stopping.
Compute Limits: Use quantization (e.g., bitsandbytes for 4-bit training) or smaller models.
Data Quality: Clean noisy labels and balance class distributions.

Pro Tip: Start with a model hub like Hugging Face, and fine-tune incrementally.

Conclusion

Building custom AI models with open-source tools is accessible and cost-effective. By fine-tuning pre-trained models, you can achieve state-of-the-art results without massive datasets or budgets.

Got questions? Share your use cases below, and let’s discuss!

Resources:

原文链接：Building Your Own AI Model with Open-Source Tools: A Step-by-Step Technical Guide

展开阅读全文

© 版权声明

文章版权声明 1、本网站名称：拾光赋
2、本站永久网址：https://www.blogs.ink
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ：805375623进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

Python（EN）
# python # webdev # AI # chatgpt

喜欢就支持一下吧

Do not give in to fear

别在恐惧面前低下你的头

评论抢沙发

请登录后发表评论

暂无评论内容