Pablo Guides

איך לבנות מודל AI קטן, מהיר וחסכוני למשימות ייעודיות – גם בלי GPU

מדריך שלב־אחר־שלב לבניית מודל AI קטן ויעיל למשימה ספציפית (כמו חיפוש מסמכים או ניתוח טקסטים), תוך שימוש בבסיסי נתונים רגילים (MySQL/MongoDB), עבודה על מחשב אישי זול, וללא צורך בכרטיס גרפי (GPU).

## קטגוריה

בינה מלאכותית → אופטימיזציה

## תגיות

מודל קליל, RAG, NLP, CPU Only, Ollama, FastAPI, MySQL, MongoDB, Apache Solr, Vector DB, AI חסכוני

—

# 🧩 הקדמה

רוב האנשים חושבים שבניית מודל AI דורשת שרתים יקרים עם GPU, אך האמת שונה:
למשימות **ממוקדות וייעודיות** (כמו ניתוח חוזים משפטיים, קטלוג מסמכים רפואיים, או הפקת תובנות מטקסטים קצרים) – **לא חייבים GPU** ולא מודלים עצומים.

במדריך הזה תלמדו:

* איך לבחור מודל קטן (2B–7B פרמטרים) ולכווץ אותו עוד יותר
* איך להשתמש ב־**בסיסי נתונים רגילים** (כמו MySQL, PostgreSQL, MongoDB) לאחסון תוצאות ושיפור מהירות
* איך לשלב מנועי חיפוש מהירים כמו **Apache Solr** או **SQLite FTS5**
* איך להפעיל את כל זה על **מחשב אישי זול** בלי לאבד מהירות וביצועים

—

# 🚀 שלב 1: בחירת מודל קטן וקליל

## מודלים מומלצים

* **Qwen2.5 1.5B–3B** (קיים ב־[Ollama](https://ollama.ai/library))
* **Mistral 7B (Q4 quantized)** – קל יותר מגרסאות מלאות
* **BGE-M3** (להטמעות – embeddings)

## קוונטיזציה (Quantization)

תהליך שבו מצמצמים את גודל המודל (מ־FP16 ל־INT4/INT8) → חיסכון RAM פי 2–4.
לדוגמה ב־Ollama:
\[dm\_code\_snippet background="yes" background-mobile="yes" slim="yes" line-numbers="no" bg-color="#abb8c3" theme="dark" language="shell" wrapped="yes" height="" copy-text="Copy Code" copy-confirmed="Copied"]
ollama pull qwen2.5:3b-instruct-q4
\[/dm\_code\_snippet]

—

# 🗄️ שלב 2: שימוש בבסיס נתונים רגיל לאינדוקס

במקום לשמור את כל האמבדינגים כקבצי pickle בזיכרון, נשתמש ב־**DB רגיל**.

## אפשרות A: MySQL/MariaDB

* טבלאות פשוטות עם אינדקס על שדות טקסט
* שימוש ב־FULLTEXT SEARCH לתוצאות מהירות
* מתאים במיוחד אם כבר יש WP/MySQL בסביבה

## אפשרות B: SQLite עם FTS5

* קליל במיוחד, קובץ יחיד (`.db`)
* תומך ב־Full Text Search מהיר
* מושלם למחשבים חלשים

## אפשרות C: MongoDB

* נוח לאובייקטים מורכבים
* תומך גם ב־Vector Index (מגרסה 7)

## אפשרות D: Apache Solr/ElasticSearch

* פתרון כבד יותר אך מהיר בצורה קיצונית
* מומלץ אם יש הרבה מסמכים (מעל מיליון קטעים)

—

# ⚡ שלב 3: מנגנון קדם־שליפה (Retrieval)

במקום לשלוח את כל המסמכים למודל → נשלוף קודם עם מנוע חיפוש מהיר (DB/Solr), ורק על **20–50 מועמדים** נעשה חישוב embedding והשוואה.

### דוגמה: שליפה ראשונית ב־Solr

\[dm\_code\_snippet background="yes" background-mobile="yes" slim="yes" line-numbers="no" bg-color="#abb8c3" theme="dark" language="shell" wrapped="yes" height="" copy-text="Copy Code" copy-confirmed="Copied"]
curl "[http://localhost:8983/solr/legal/select?q=חוזה+שכירות\&rows=50\&fl=id,text,score](http://localhost:8983/solr/legal/select?q=חוזה+שכירות&rows=50&fl=id,text,score)"
\[/dm\_code\_snippet]

### דוגמה: שליפה ב־MySQL

\[dm\_code\_snippet background="yes" background-mobile="yes" slim="yes" line-numbers="no" bg-color="#abb8c3" theme="dark" language="shell" wrapped="yes" height="" copy-text="Copy Code" copy-confirmed="Copied"]
SELECT id, text, MATCH(text) AGAINST ('חוזה שכירות' IN NATURAL LANGUAGE MODE) AS score
FROM legal\_docs
ORDER BY score DESC
LIMIT 50;
\[/dm\_code\_snippet]

—

# 🖥️ שלב 4: התקנה והפעלה על PC פשוט

## דרישות מינימום

* **זיכרון RAM**: 8GB (מומלץ 16GB)
* **מעבד**: i5/i7 רגיל (או Ryzen שקול)
* **מערכת הפעלה**: Linux / Windows 11 + WSL2

## התקנות הכרחיות

# התקנת Ollama

curl -fsSL [https://ollama.com/install.sh](https://ollama.com/install.sh) | sh

# התקנת Python Virtual Env

python -m venv .venv
source .venv/bin/activate
pip install fastapi uvicorn pymysql pymongo pysolr
\[/dm\_code\_snippet]

—

# 📊 שלב 5: אופטימיזציות נוספות

* **הקטנת context window** (לא צריך 8k–16k טוקנים → מספיק 2k)
* **שמירה במטמון** של תשובות לשאלות חוזרות
* **ניקוי מסמכים לפני אינדוקס** (להסיר headers, footers, טבלאות ריקות)
* **Batching** של אמבדינגים → פחות קריאות למודל

—

# 📚 ספריות מומלצות

* [Ollama](https://ollama.ai/) — הרצת מודלים קטנים מקומיים
* [FastAPI](https://fastapi.tiangolo.com/) — API מהיר ודל משאבים
* [SQLite FTS5](https://www.sqlite.org/fts5.html) — מנוע Full-Text קליל במיוחד
* [PyMySQL](https://pymysql.readthedocs.io/) — חיבור ל־MySQL מ־Python
* [PyMongo](https://pymongo.readthedocs.io/) — חיבור ל־MongoDB
* [Apache Solr](https://solr.apache.org/) — מנוע חיפוש מהיר מאוד

—

# ✅ סיכום

במקום לבנות מודלים ענקיים, אפשר להגיע ל־**מהירות, יעילות וביצועים גבוהים** עם שילוב של:

1. מודל קטן ומקוונטזי
2. בסיס נתונים רגיל (SQLite/MySQL/MongoDB)
3. מנגנון קדם־שליפה מהיר (FTS/Solr)
4. מחשב זול עם CPU בלבד

כך אפשר להקים עוזר AI ייעודי, מהיר וחסכוני — **בלי GPU** ובעלות נמוכה.

—

🖼️ **תמונה מומלצת לפוסט:**
תמונה של מאזניים + סמל של מעבד (CPU)

* שם קובץ: `lightweight-ai-model.png`
* ALT: "מודל AI קליל ומהיר ל־CPU בלבד"