Wdrożenie lokalnego modelu AI

Suwerenna Infrastruktura AI
Przyszłość Twojej Firmy

Przejście z wynajmu usług chmurowych (SaaS) na posiadanie własnego, zamkniętego ekosystemu analitycznego. Całkowita ochrona tajemnicy przedsiębiorstwa, brak miesięcznych opłat za zapytania i wydajność dorównująca rozwiązaniom korporacyjnym.

Bezpieczeństwo — Zero-Data-Leak

Niezależność technologiczna

Automatyzacja procesów

01 — Architektura sprzętowa

Fundament wydajności

Dedykowana stacja robocza zoptymalizowana pod obliczenia równoległe i przetwarzanie dużych bloków tekstu.

Procesor obliczeniowy

NVIDIA RTX 5090 · 32 GB

15 500–17 000 zł

Główny procesor obliczeniowy dla sieci neuronowych (architektura Blackwell, GDDR7).

Wartość: błyskawiczne odpowiedzi i analiza długich umów bez opóźnień.

Jak to działa +

Model językowy to ogromna macierz liczb (wagi). Generowanie odpowiedzi to mnożenie macierzy — zadanie idealne dla tysięcy rdzeni CUDA / Tensor pracujących równolegle.
32 GB pamięci VRAM GDDR7 mieści większy model lub dłuższe okno kontekstu w całości na karcie — bez przerzucania danych do wolniejszej pamięci RAM. To zapas na większe modele w przyszłości.
Im więcej zapytań mieści się jednocześnie w VRAM, tym więcej pracowników obsłuży serwer bez kolejkowania. Pobór mocy 575 W wymaga mocnego zasilacza i dobrego chłodzenia.

Pamięć operacyjna

128 GB RAM · DDR5

3 000–5 000 zł

Pamięć podręczna na pliki wejściowe.

Wartość: jednoczesna analiza tysięcy stron dokumentów (okno kontekstu).

Jak to działa +

Zanim dokument trafi do modelu, jest wczytywany, dzielony i indeksowany — wszystko w pamięci RAM. 128 GB to bufor pozwalający operować na bardzo dużych zbiorach naraz.
RAM trzyma też cache modeli i kontenerów, dzięki czemu przełączanie między zadaniami jest natychmiastowe.
Zapas pamięci umożliwia uruchomienie kilku modeli pomocniczych (np. wektoryzującego) równolegle z głównym.

Pamięć masowa

Szyfrowane dyski NVMe

2 000–3 000 zł · 2× 2 TB

Lokalna baza danych i modele.

Wartość: pełna ochrona kryptograficzna (LUKS) przy kradzieży urządzenia.

Jak to działa +

NVMe czyta dane z prędkością kilku GB/s — model wielkości kilkunastu GB ładuje się w sekundy, a nie minuty.
LUKS szyfruje cały dysk „w locie". Bez hasła/klucza przy starcie systemu dane są kompletnie nieczytelne — fizyczna kradzież dysku nie daje dostępu do niczego.
Tu mieszkają: modele AI, wektorowa baza wiedzy i logi — wszystko pod jednym, szczelnym zamkiem kryptograficznym.

02 — Środowisko operacyjne

Stabilność i izolacja

Standardy klasy Enterprise używane przez największe instytucje finansowe do utrzymania ciągłości pracy (SLA).

System operacyjny

Ubuntu 24.04 LTS · Linux

Długoterminowe wsparcie bezpieczeństwa i optymalne zarządzanie zasobami sprzętowymi.

Zero telemetrii — eliminuje ryzyko wysyłania jakichkolwiek logów na zewnątrz.

Jak to działa +

LTS = Long Term Support: 5 lat gwarantowanych aktualizacji bezpieczeństwa. System nie wymusza dużych zmian w trakcie eksploatacji — to fundament ciągłości pracy.
Linux zarządza pamięcią i procesorem efektywniej niż systemy desktopowe — cała moc sprzętu idzie na obliczenia AI, nie na zbędne usługi tła.
Brak telemetrii oznacza, że system nie raportuje niczego producentowi — żaden plik ani metadana nie opuszczają serwera.

Konteneryzacja

Docker Engine

Każda aplikacja (czat, baza danych, automatyzacja) działa w zamkniętym „pudełku".

Niezawodność: awaria jednego procesu nie wpływa na cały serwer.

Jak to działa +

Kontener to izolowana paczka z aplikacją i wszystkimi jej zależnościami. Usługi nie wchodzą sobie w drogę i nie psują się nawzajem przy aktualizacjach.
Restart, aktualizacja czy cofnięcie wersji pojedynczej usługi zajmują sekundy i nie dotykają reszty systemu.
Cała architektura jest opisana w plikach konfiguracyjnych — odtworzenie serwera od zera na nowym sprzęcie to powtarzalna, przewidywalna operacja.

03 — Silnik obliczeniowy

Modele językowe (LLM)

Analityczny rdzeń systemu — rozumienie języka naturalnego i logika biznesowa.

Środowisko wykonawcze

Ollama

Menedżer procesów AI. Dynamicznie zarządza zasobami karty graficznej.

Maksymalna wydajność i brak wąskich gardeł przy wielu zapytaniach naraz.

Jak to działa +

Ollama pobiera, ładuje i utrzymuje modele w pamięci karty graficznej — bez ręcznej konfiguracji sterowników i bibliotek.
Kolejkuje i równoważy zapytania wielu użytkowników, żeby GPU było wykorzystane optymalnie, bez przestojów.
Udostępnia standardowe API, do którego podłącza się interfejs czatu i system automatyzacji — wszystko mówi jednym, spójnym językiem.

Model główny · MoE

Gemma 4 · 26B

Architektura „Mieszaniny Ekspertów" — aktywuje tylko wyspecjalizowane bloki zależnie od zadania.

Precyzja w tekstach prawnych, analizie cenników i odporność na halucynacje.

Jak to działa +

Model przewiduje odpowiedź słowo po słowie, opierając się na ogromnej wiedzy zakodowanej w jego parametrach oraz na dostarczonym kontekście.
Mixture of Experts (MoE): zamiast uruchamiać wszystkie parametry naraz, model aktywuje tylko wyspecjalizowane „bloki-ekspertów" potrzebne do danego zadania — stąd wysoka jakość przy mniejszym koszcie obliczeń.
W połączeniu z systemem RAG model odpowiada na podstawie firmowych faktów, a nie domysłów — to klucz do odporności na zmyślanie.

Modele wektorujące

BGE-M3

Algorytmy rozumiejące kontekst semantyczny języka polskiego.

Precyzyjne przeszukiwanie archiwów po znaczeniu, nie tylko po słowach.

Jak to działa +

Model wektorujący (embedding) zamienia każdy fragment tekstu na ciąg liczb opisujący jego znaczenie — tzw. wektor.
Teksty o podobnym sensie mają bliskie sobie wektory, nawet jeśli używają zupełnie innych słów („zniżka" ↔ „rabat").
BGE-M3 jest wielojęzyczny i dobry w polskim, co jest kluczowe dla precyzyjnego przeszukiwania umów i dokumentów firmowych.

04 — Baza wiedzy

System RAG

Retrieval-Augmented Generation — mechanizm, który pozwala AI czytać Twoje dokumenty bez modyfikacji jej pierwotnego kodu.

Wektorowa baza danych

ChromaDB / Qdrant

Tradycyjne bazy szukają słów — wektorowa szuka znaczeń. Przechowuje gotowe wektory fragmentów i błyskawicznie zwraca te najbliższe pytaniu.

pytanie: „zniżka"→ paragraf o „rabatach"→ fakt dla modelu

Pełny proces krok po kroku +

1. Wczytanie: dokumenty (PDF, DOCX, umowy) są wczytywane do systemu.
2. Podział (chunking): tekst dzielony jest na sensowne fragmenty.
3. Wektoryzacja: każdy fragment dostaje swój wektor znaczeniowy (BGE-M3) i trafia do bazy.
4. Pytanie: zapytanie pracownika też zamieniane jest na wektor.
5. Wyszukiwanie: baza znajduje fragmenty o najbliższym znaczeniu.
6. Odpowiedź: model dostaje te fragmenty jako fakt i formułuje odpowiedź ze wskazaniem źródła.

Frontend

Open WebUI

Przejrzysty interfejs dla pracowników, przypominający najpopularniejsze komunikatory AI.

Zarządzanie użytkownikami, nadawanie uprawnień, bezpieczne kolekcje dokumentów oraz wbudowany chunking wgrywanych plików.

Jak to działa +

Każdy pracownik ma własne konto z rolą — administrator decyduje, kto widzi które modele i które kolekcje dokumentów.
Działowe kolekcje wiedzy (np. „Prawne", „Handlowe") pozwalają ograniczyć dostęp do wrażliwych dokumentów tylko do uprawnionych zespołów.
Gdy pracownik wrzuca plik do kolekcji, Open WebUI sam go wczytuje, tnie na fragmenty (wielkość fragmentu i zakładkowanie ustawiane w panelu admina) i wysyła do wektoryzacji.
Interfejs jest znajomy jak popularne czaty AI — zerowy próg wejścia dla zespołu, brak potrzeby szkoleń technicznych.

05 — Potok RAG

Trzy etapy, trzy narzędzia

Zanim AI odpowie na podstawie Twoich dokumentów, tekst przechodzi przez trzy odrębne etapy. Każdy robi co innego i wykonuje go inne narzędzie.

Etap 01

Chunking

Mechaniczne pokrojenie tekstu na fragmenty — po akapicie lub sekcji, z lekkim zakładkowaniem (overlap).

Decyduje tylko gdzie przeciąć. Bez rozumienia treści.

Wykonuje: Open WebUI (dokumenty od ludzi) lub n8n (automatyczne) — nie baza.

Etap 02

BGE-M3

Zamienia każdy gotowy fragment na wektor — ciąg liczb opisujący jego znaczenie.

Etap rozumienia. Niczego nie tnie — nadaje fragmentom „znaczeniowy odcisk palca", dzięki któremu podobne sensy leżą blisko siebie.

Wykonuje: BGE-M3 (model uruchamiany przez Ollama).

Etap 03

ChromaDB / Qdrant

Przechowuje wektory i przy zapytaniu błyskawicznie znajduje fragmenty o najbliższym znaczeniu.

Etap wyszukiwania. To „szafka", która z tysięcy fragmentów zwraca te najtrafniejsze dla pytania.

Wykonuje: ChromaDB / Qdrant (wektorowa baza danych).

Chunking pokrojenie książki na pojedyncze fiszki.

BGE-M3 nadanie każdej fiszce współrzędnych znaczeniowych.

Baza wektorowa szafka, która natychmiast wyciąga fiszki najbliższe pytaniu.

06 — Warstwa ingestu

Kto tnie dokumenty?

Chunking to zadanie warstwy ingestu — nie modelu i nie bazy. W zależności od tego, jak dokument trafia do systemu, robi to inne narzędzie.

Dokumenty od ludzi

Open WebUI

Pracownik wrzuca plik do kolekcji wiedzy przez interfejs. Open WebUI wczytuje go, tnie na fragmenty i wysyła do wektoryzacji — bez dodatkowych narzędzi.

wgranie pliku→ chunking→ BGE-M3→ baza

Szczegóły +

Wbudowany potok RAG obsługuje formaty PDF, DOCX, TXT i inne.
W panelu administracyjnym ustawiasz wielkość fragmentu i zakładkowanie — bez pisania kodu.
To domyślna, najprostsza droga dla wiedzy dodawanej ręcznie przez zespół.

Dokumenty z procesów

n8n

Gdy dokument wpada automatycznie (z poczty, strony WWW, ERP), cięciem zajmuje się przepływ w n8n — sam projektujesz każdy krok.

źródło (mail/WWW/ERP)→ Text Splitter→ BGE-M3→ baza

Szczegóły +

Węzły AI oparte o LangChain zawierają gotowe Text Splittery (np. Recursive Character Text Splitter) i loadery dokumentów.
Cały przepływ jest w pełni konfigurowalny: wczytaj → potnij → zwektoryzuj → zapisz do Qdrant/Chroma.
Idealne do masowego, bezobsługowego zasilania bazy wiedzy.

Strojenie chunkingu — pierwsza rzecz po wdrożeniu

Wielkość fragmentu i zakładkowanie

Dobór tych dwóch parametrów realnie wpływa na jakość odpowiedzi: za duże fragmenty rozmywają trafność wyszukiwania, a za małe gubią kontekst. Optymalne wartości ustala się na realnych dokumentach firmy.

Pamiętaj: BGE-M3 i baza wektorowa nie tną dokumentów — dostają już gotowe fragmenty. Całe krojenie odbywa się tu, w warstwie ingestu (Open WebUI lub n8n).

07 — Bezpieczeństwo · Zero-Trust

Architektura Zero-Trust

Trzy niezależne warstwy ochrony (defence in depth) — 100% szczelność systemu przy pełnej możliwości pracy zdalnej.

WARSTWA 01

Prywatny tunel VPN

Tailscale · WireGuard

Szyfrowane połączenie Peer-to-Peer. Serwer nie jest wystawiony na publiczny internet — nie da się go odnaleźć z zewnątrz.

Jak to działa +

WireGuard tworzy prywatną, szyfrowaną sieć, w której serwer i laptopy widzą się tak, jakby były w jednym pokoju — niezależnie od lokalizacji.
Serwer nie ma żadnego publicznego adresu do zaatakowania — z perspektywy internetu po prostu nie istnieje.

WARSTWA 02

Zapora sieciowa

UFW · Firewall

System sprzętowo blokuje każde zapytanie, które nie pochodzi z zaszyfrowanej sieci wewnętrznej.

Jak to działa +

Reguła domyślna brzmi: „blokuj wszystko". Przepuszczany jest wyłącznie ruch z prywatnego tunelu VPN.
Nawet gdyby ktoś poznał adres serwera, zapora odrzuca połączenie, zanim dotrze ono do jakiejkolwiek usługi.

WARSTWA 03

Uwierzytelnianie MFA

Tailscale MFA

Login i hasło to za mało. Dostęp wymaga akceptacji na prywatnym urządzeniu mobilnym.

Jak to działa +

Drugi składnik logowania to fizyczne urządzenie pracownika (telefon) — coś, co ma tylko on.
Kradzież laptopa czy wyciek hasła nie wystarczą, by uzyskać dostęp — brakuje potwierdzenia z telefonu.

07 — Bezpieczeństwo · Ochrona danych

Dane chronione w każdym stanie

Gdy spoczywają, gdy się przemieszczają i gdy są przetwarzane — w żadnym momencie nie opuszczają Twojej firmy.

SPOCZYNEK

Szyfrowanie dysków

LUKS · AES-256

Cały dysk zaszyfrowany w locie. Bez klucza przy starcie systemu dane są kompletnie nieczytelne.

Jak to działa +

Szyfrowane są wszystkie dane: modele AI, baza wektorowa, logi, kopie zapasowe — nic nie leży „na widoku".
Kradzież dysku lub całego komputera nie daje dostępu do żadnej informacji.
Ochrona obejmuje też sytuacje serwisowe — wymiana sprzętu czy diagnostyka nie ujawnia danych.

TRANZYT

Szyfrowanie połączeń

WireGuard · ChaCha20

Każdy bajt między pracownikiem a serwerem jest szyfrowany. Nikt po drodze nie podsłucha.

Jak to działa +

WireGuard używa nowoczesnej kryptografii stosowanej także przez dostawców chmury i banki.
Działa niezależnie od sieci, z której łączy się pracownik — kawiarnia, hotel czy dom są tak samo bezpieczne jak biuro.
Nawet kompromitacja routera pracownika nie ujawnia treści przesyłanych danych.

IZOLACJA

Zero-Data-Leak

Brak telemetrii · Air-gap (opc.)

System nie wysyła żadnych zapytań ani logów na zewnątrz. Dane pozostają w 100% u Ciebie.

Jak to działa +

Ubuntu LTS, Ollama i modele AI nie raportują niczego producentom — żaden plik ani metadana nie opuszczają serwera.
Modele językowe są uruchamiane lokalnie — w przeciwieństwie do usług chmurowych nie wysyłają Twoich pytań do obcego dostawcy.
Dla najbardziej wrażliwych wdrożeń możliwy jest pełny air-gap — serwer całkowicie odcięty od internetu.

07 — Bezpieczeństwo · Dostęp i hardening

Najmniejsze uprawnienia, pełna rozliczalność

Każdy ma dostęp tylko do tego, co naprawdę potrzebne. System jest wzmocniony i odporny na typowe wektory ataku.

RBAC

Role i uprawnienia

Open WebUI · ACL

Administrator decyduje, kto widzi które modele, które kolekcje dokumentów i które funkcje.

Jak to działa +

Każdy pracownik ma własne konto z przypisaną rolą — bez kont współdzielonych.
Działowe kolekcje wiedzy (np. „Prawne", „Handlowe") są dostępne tylko dla uprawnionych zespołów.
Zasada najmniejszych uprawnień: domyślnie nic, świadomie nadawane tylko to, co potrzebne do pracy.

AUDYT

Lokalne logi aktywności

Logi systemowe + aplikacyjne

Pełna rozliczalność bez wynoszenia danych na zewnątrz — kto, kiedy i o co pytał.

Jak to działa +

Logi logowań, dostępu do kolekcji i operacji administracyjnych są zapisywane lokalnie na zaszyfrowanym dysku.
W razie incydentu administrator ma kompletny ślad — kto, kiedy i co zrobił.
Żadne metadane ani zapytania nie są wysyłane do zewnętrznych dostawców — w odróżnieniu od usług SaaS.

HARDENING

Wzmocnienie systemu

SSH keys · fail2ban · Docker

Wiele warstw obrony przed typowymi atakami — od prób logowania po kompromitację pojedynczych usług.

Jak to działa +

Klucze SSH zamiast haseł — eliminują ataki słownikowe i brute-force.
fail2ban automatycznie blokuje adresy IP po nieudanych próbach logowania.
Izolacja kontenerów Docker — kompromitacja jednej usługi nie daje dostępu do reszty systemu.
Regularne aktualizacje LTS — łatki bezpieczeństwa instalowane przez 5 lat bez przerwy.

07 — Bezpieczeństwo · Ciągłość i zgodność

Odporność na awarie i zgodność z prawem

Dane bezpieczne nie tylko na co dzień, ale i w sytuacjach awaryjnych. Wdrożenie wspiera zgodność z RODO i ochronę tajemnicy przedsiębiorstwa.

BACKUP

Kopie zapasowe

Szyfrowane · powtarzalne odtwarzanie

Regularne, zaszyfrowane backupy bazy wiedzy i konfiguracji. Cała architektura opisana w kodzie.

Jak to działa +

Baza wektorowa i kolekcje dokumentów są regularnie kopiowane w postaci zaszyfrowanej.
Konfiguracja całego systemu mieści się w plikach Docker — odtworzenie serwera od zera to powtarzalna operacja, nie tygodniowa odbudowa.
Awaria sprzętu nie oznacza utraty wiedzy ani przestoju biznesu.

RODO

Zgodność z RODO

Brak transferu do krajów trzecich

Dane osobowe przetwarzane wyłącznie lokalnie, w Twojej firmie — bez wysyłania do USA czy innych jurysdykcji.

Jak to działa +

Brak transferu danych do dostawców chmurowych eliminuje cały rozdział problemów z RODO związanych z przekazywaniem do krajów trzecich.
Pełna kontrola nad lokalizacją, retencją i usunięciem danych — wymagana przez prawo ochrony danych osobowych.
Architektura ułatwia wykazanie zgodności przed audytem czy klientem (B2B wymaga to coraz częściej).

SUWERENNOŚĆ

Pełna własność i kontrola

Brak uzależnienia od dostawcy

Tajemnica przedsiębiorstwa nigdy nie trafia do obcych modeli. Brak ryzyka zmiany cennika czy zniknięcia dostawcy.

Jak to działa +

Modele, dane i procesy są na Twoim sprzęcie, pod Twoją kontrolą — żaden zewnętrzny dostawca nie może ich zablokować.
Zmiana cennika czy regulaminu zewnętrznej usługi nie wpływa na działanie firmy.
Wrażliwe dokumenty (umowy, strategia, dane finansowe) nigdy nie są używane do trenowania obcych modeli.

08 — Orkiestracja

Automatyzacja procesów

AI przechodzi z trybu „doradcy" w tryb „wykonawcy". Platforma n8n łączy moc modelu z pocztą, CRM i bazami danych — lokalnie, bez ograniczeń chmurowych.

Klasyfikacja poczty

n8n przechwytuje załączniki, wysyła je do modelu po ekstrakcję danych i sam wprowadza wartości do systemu ERP.

załącznik→ AI: NIP, kwota, termin→ ERP

Jak działa workflow +

Trigger: nowa wiadomość z fakturą uruchamia przepływ automatycznie.
AI: model odczytuje dokument i zwraca uporządkowane dane (kontrahent, NIP, kwota, termin).
Akcja: n8n zapisuje rekord w ERP i może np. powiadomić księgowość — bez udziału człowieka.

Generowanie ofert

Automatyczne sczytywanie zapytań ze strony WWW, weryfikacja w cenniku (RAG) i gotowy szkic umowy w ułamku sekundy.

zapytanie WWW→ cennik (RAG)→ szkic umowy

Jak działa workflow +

Trigger: formularz zapytania ofertowego ze strony WWW.
RAG: system sprawdza aktualny cennik i dostępność w firmowej bazie wiedzy.
Akcja: model przygotowuje gotowy szkic oferty/umowy do akceptacji handlowca — skraca proces z godzin do sekund.

09 — Wdrożenie

Etapy realizacji projektu

Przejrzysty, fazowy harmonogram. Każdy etap kończy się działającym, weryfikowalnym rezultatem.

0

audyt

Audyt i analiza potrzeb

Inwentaryzacja dokumentów i procesów, ustalenie scenariuszy użycia, dobór modeli i specyfikacji sprzętu pod realne obciążenie.

Efekt: jasny zakres wdrożenia i dobrany sprzęt.

1

sprzęt

Zakup i przygotowanie stacji

Kompletacja i montaż podzespołów, testy obciążeniowe pod pracę 24/7, weryfikacja stabilności termicznej i wydajności GPU.

Efekt: sprawdzona, wytrzymała stacja obliczeniowa.

2

bezpieczeństwo

System i polityki bezpieczeństwa

Instalacja Ubuntu LTS, szyfrowanie dysków (LUKS), konteneryzacja Docker oraz pełna warstwa Zero-Trust: Firewall (UFW), tunel Tailscale i MFA.

Efekt: szczelne, izolowane środowisko gotowe na dane firmy.

3

silnik AI

Implementacja środowiska AI

Instalacja Ollama, wdrożenie modeli językowego i wektorującego, konfiguracja wektorowej bazy danych (ChromaDB/Qdrant) oraz interfejsu Open WebUI.

Efekt: działający, prywatny asystent AI z kontrolą dostępu.

4

wiedza + automatyzacja

Baza wiedzy, automatyzacja i przekazanie

Zasilenie systemu dokumentami firmy (RAG), budowa kolekcji i uprawnień, wdrożenie przepływów n8n, a na koniec szkolenie zespołu i dokumentacja.

Efekt: w pełni operacyjny system zintegrowany z procesami firmy.

Suwerenna Infrastruktura AIPrzyszłość Twojej Firmy

Fundament wydajności

NVIDIA RTX 5090 · 32 GB

128 GB RAM · DDR5

Szyfrowane dyski NVMe

Stabilność i izolacja

Ubuntu 24.04 LTS · Linux

Docker Engine

Modele językowe (LLM)

Ollama

Gemma 4 · 26B

BGE-M3

System RAG

ChromaDB / Qdrant

Open WebUI

Trzy etapy, trzy narzędzia

Chunking

BGE-M3

ChromaDB / Qdrant

Kto tnie dokumenty?

Open WebUI

n8n

Wielkość fragmentu i zakładkowanie

Architektura Zero-Trust

Prywatny tunel VPN

Zapora sieciowa

Uwierzytelnianie MFA

Dane chronione w każdym stanie

Szyfrowanie dysków

Szyfrowanie połączeń

Zero-Data-Leak

Najmniejsze uprawnienia, pełna rozliczalność

Role i uprawnienia

Lokalne logi aktywności

Wzmocnienie systemu

Odporność na awarie i zgodność z prawem

Kopie zapasowe

Zgodność z RODO

Pełna własność i kontrola

Automatyzacja procesów

Klasyfikacja poczty

Generowanie ofert

Etapy realizacji projektu

Audyt i analiza potrzeb

Zakup i przygotowanie stacji

System i polityki bezpieczeństwa

Implementacja środowiska AI

Baza wiedzy, automatyzacja i przekazanie

Suwerenna Infrastruktura AI
Przyszłość Twojej Firmy