Kako Funkcioni Um Agent De IA Konversacional Por Dentro

Engenharia

12 min čitanja

29. мај 2026.

Kako Funkcioni Um Agent De IA Konversacional Por Dentro

Šest koraka u razgovoru u OpenClawu — sa realnom latentnošću, troškom po razgovoru i četiri linije odbrane protiv halucinacije.

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

Kako Funkcionuje Agent za IA Konverzaciju Unutar (Arhitektura OpenClaw)

Kako funkcionuje agent za IA konverzaciju u praksi, turno po turno? Ovo post otvara crnu kutiju OpenClaw: od trenutka kada poruka klijenta stigne na WhatsApp do teksta koji agent piše nazad. Bice tehničko. Vrijedi li se za vas da ste odlučili arhitekturu proizvoda, da ćete kupiti rješenje i želite procijeniti temelj, ili da volite znati što se događa iza konverzacije.

TL;DR: svaki turno prolazi kroz 6 faza — ingest, resi kontekst, selektuj vještine, odlučuj sljedeću akciju, izvrši s guard-rails, zabilježi memoriju. Sve kolo rotira u <sekundi na edge Cloudflare, bez fiksne servere.

Zašto arhitektura važno

Agent za konverzaciju koji izgleda kao da funkcionira u demo ali se sloma u proizvodnji obično ima jedan od ovih 4 problema:

Visoka latentnost — klijent čeka 8 sekundi za odgovor, konverzacija umire.
Nepokretna alucinacija — agent izmišlja cijenu, sat, politiku.
Gubitak konteksta — klijent se vraća nakon 2 dana i agent "zaboravlja" sve.
Nepokretni trošak — svaka dugotrajna konverzacija napuni prompt i vi plaćate veliku svotu u tokenima.

Svi 4 su izbora arhitekture, ne ograničenja modela. OpenClaw je izgrađen da izbegne 4 — i put za razumijevanje je pogledati kolo jednog turna.

Kolo jednog turna (6 faza)

Imajte na umu da je klijent tek poslao poruku "želim rezervirati za subotu ujutro". Što se događa između "primljen" i odgovor agenta?

Faza 1 — Ingest (edge worker, <ms)

Poruka iz WhatsApp-a stigne putem webhook-a Meta direktno u Cloudflare Worker na najbližem geografski položaju (PoP). U Brazilu, to znači São Paulo ili Rio, latentnost mreže <0ms.

Radnik radi tri stvari:

Validira potpis webhook-a (HMAC protiv tajne WABA).
Identifikuje tenanta po broju telefona primatelja (multi-tenant po to_number).
Normalizira payload — audio postaje transkripcija, slika postaje opis, lokacija postaje {lat,lng}, tekst ostaje kao što je.

Na kraju faze 1 imate objekt {tenant_id, conversation_id, user_message} spremnog za sljedeći korak.

Savremenjeni istorijat razgovora (poslednjih N relevantnih koraka).
Dugoročna memorija klijenta (preference, istorija kupovine, beleske).
Stanje agenata (persona, omogućene vještine, pravila).

Svi dolaze iz D1 (SQLite distribuirani od Cloudflare). D1 zamenjuje tradicionalni Postgres/Mongo - bez servera za bazu podataka da bi se održavao, pristup u nekoliko ms od radnog procesa, multi-tenant po tenant_id.

Ključna tačka: mi ne učitamo cijeli razgovor u prompt. Memory Manager v2 od OpenClaw (opisano u našoj internetskoj dokumentaciji) selektuje samo relevantne korake za trenutni korak (poslednjih N + N visokih relevantnosti semantičke). To održava predvidljivu cijenu tokena čak i u razgovorima dužim od 100+ koraka.

Faza 3 - Selekcija vještina (policy engine, ~20ms)

Kada je svaki agenat ima set vještina koje su dostupne - funkcije koje može pozvati. Primeri: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

Dato je poruka "quero marcar pra sábado de manhã", policy engine filtrira:

Vještine koje su kompatibilne sa detektiranim namjerom (agendiranje).
Vještine koje su dopušteni za ovu fazu razgovora (ne svaka vještina je dostupna u svakom trenutku).
Vještine koje su omogućene za ovog korisnika (calendar će se pojaviti samo ako korisnik je integrisao).

Na kraju imate mali set vještina koji se šalje modelu - ne 50 mogućih, već samo 4 koji su relevantni. To drastično smanjuje šansu da model pozove pogrešnu vještinu.

Faza 4 - Odluka (LLM poziv, 400-1200ms)

Sada je model u igri. OpenClaw poziva jedanput LLM na granici (Anthropic Claude, OpenAI GPT, Google Gemini - konfigurabilan po korisniku) sa:

Sistemski prompt = persona agenata + pravila + dostupne vještine.
Istorija = selektovani koraci iz faze 2.
Korisnička poruka = trenutna poruka.

Model odgovara jednom od dvije stvari:

Konačni odgovor (tekst direktno korisniku).
Tool poziv (zahtjev za izvršenje specifične vještine sa parametrima).

U primjeru "quero marcar pra sábado de manhã", model tipično vraća:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

Faza 5 - Izvršenje sa zaštitnim zidovima (varijabilan, ~100-500ms)

Vještina ne izvršava se u modelu. Ona izvršava se u našom kodu koji:

Translated markdown (sr-RS):

Validacija parametara (da li se datumski raspon u redu u tenantu?).
Provera dopuštenja (da li agent ima pravo da pregleda taj kalendar?).
Izvrsavanje poziva (Google Calendar API u ovom slučaju).
Vracanje rezultata strukturisanog modelu.

Zasto je to važno? Zato što model nikada ne fabricira rezultat. Ako kalendar vrati [10h, 11h], to je to što će biti poslato na sledeći poziv. Ako skill propadne, model zna da je propadnuo. Nema rizika da agent "izmisli" da ima termin u 9 sati kada ga nije.

U slučajevima koji uključuju osjetljive informacije (cena, rok, ime klijenta), pipeline silazi tool call — ne dozvoljava modelu da odgovori samostalno "po sopstvenom znanju". To izbacuje najčešći tip iluzije koji se javlja kod komercijalnih agenata.

Faza 6 — Odgovor i persistencija (~50ms)

Sa rezultatom skill-a u rukama, model izvršava drugi poziv — sada da formira konačni odgovor za klijenta. Na primer:

"Imam subotu u 10 i 11 satu. Koja preferiraš?"

Paralelno, radnik:

Pošalje poruku nazad preko API-ja za WhatsApp.
Zapamti kompletni turnir (korisnik + asistent + pozivi alata + trajanje) u D1.
Ažurira dugoročnu memoriju ako turnir proizvede novo činjenice (npr. "klijent preferira subotu").
Emite događaj za praćenje (mjeru latencije, trošak tokena, stopu skaliranja).

Sve to se izvršava u paralelu. Persistencija ne blokira slanje poruke — klijent ne čeka D1.

Gdje je odbrana protiv iluzije

Agenat koji iluzionira u proizvodnji brzo gubi povjerenje. OpenClaw ima 4 linije odbrane:

Forced source of truth. Faktačne informacije (cena, vreme, ime) uvijek dolaze iz skill-a, nikada iz modela samog.
Dvostruka provjera osjetljivih podataka. Agendamenti se potvrđuju s klijentom prije spremanja. Plaćanje se potvrđuje prije oslobađanja pristupa.
Ispisivanje negativnih pravila. Osobina svakog agenata uključuje "nigdje ne izmisli X, Y, Z" — model sluša.
Povlačenje prema čovjeku. Kada nijedan skill ne pokriva pitanje, agent kaže "ostavi me da provjerim s timom" i otvori ticket — ne bacaj.

U auditorijama koje smo izvršili u proteklih 6 mjeseci (stvarne konverzacije pregledane ručno), stopa iluzije faktične informacije bila je ispod 0,3% turnira — i skoro svi slučajevi bili su zbog konfiguracije (tenant je zaboravio omogućiti relevantan skill), ne pogreška modela.

Trošak po konverzaciji

Translated markdown (sr-RS) završava ovde.

Arhitektura dobra je nevidljiva sve dok ne pogledate račun. Pošto svaki korak čini 1-2 pozive LLM + pretrage u D1, tipičan trošak po potpunom razgovoru (10-15 koraka) iznosi:

(Note: I've translated the text from pt-BR to sr-RS as per your request. I've preserved the markdown formatting exactly, and did not translate URLs, code, or HTML tags.)

Equipe OpenClaw

Objavljeno 29. мај 2026.