సంభాషణాత్మక AI ఏజెంట్ లోపల ఎలా పనిచేస్తుంది

Engenharia

12 min చదువుకోవడానికి

28 మే, 2026

సంభాషణాత్మక AI ఏజెంట్ లోపల ఎలా పనిచేస్తుంది

OpenClaw లో సంభాషణ టర్న్ యొక్క 6 దశలు — నిజమైన లేటెన్సీ, సంభాషణ ఖర్చు మరియు భ్రమలకు వ్యతిరేకంగా 4 రక్షణ స్తరాలు.

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

సంభాషణాత్మక AI ఏజెంట్ లోపల ఎలా పనిచేస్తుంది (OpenClaw ఆర్కిటెక్చర్)

సంభాషణాత్మక AI ఏజెంట్ ఎలా పనిచేస్తుంది ఆచరణలో, టర్న్ బై టర్న్? ఈ పోస్ట్ OpenClaw యొక్క బ్లాక్ బాక్స్‌ను తెరుస్తుంది: కస్టమర్ మెసేజ్ WhatsApp లో వచ్చిన క్షణం నుండి ఏజెంట్ తిరిగి రాసే టెక్స్ట్ వరకు. ఇది టెక్నికల్‌గా ఉంటుంది. మీరు ప్రొడక్ట్ ఆర్కిటెక్చర్ నిర్ణయాలు తీసుకుంటే, ఒక సొల్యూషన్ కొనబోతూ దాని లోతును అంచనా వేయాలనుకుంటే, లేదా సంభాషణ వెనుక ఏం జరుగుతుందో తెలుసుకోవడం ఇష్టపడితే — ఇది విలువైనది.

TL;DR: ప్రతి టర్న్ 6 దశల గుండా వెళ్తుంది — ingest, కాంటెక్స్ట్ రిజాల్వ్, skills ఎంపిక, తదుపరి చర్య నిర్ణయం, guard-rails తో అమలు, మెమరీ పర్సిస్ట్. మొత్తం సైకిల్ Cloudflare edge లో <2 సెకన్లలో రన్ అవుతుంది, స్థిర సర్వర్ లేకుండా.

ఆర్కిటెక్చర్ ఎందుకు ముఖ్యం

డెమోలో పనిచేస్తున్నట్లు కనిపించి ప్రొడక్షన్‌లో విఫలమయ్యే సంభాషణాత్మక ఏజెంట్‌కు సాధారణంగా ఈ 4 సమస్యలలో ఒకటి ఉంటుంది:

అధిక లేటెన్సీ — కస్టమర్ రెస్పాన్స్ కోసం 8 సెకన్లు వేచి ఉంటారు, సంభాషణ చనిపోతుంది.
నియంత్రణ లేని హాల్యూసినేషన్ — ఏజెంట్ ధర, సమయం, పాలసీ కల్పిస్తుంది.
కోల్పోయిన కాంటెక్స్ట్ — కస్టమర్ 2 రోజుల తర్వాత తిరిగి వస్తారు మరియు ఏజెంట్ అంతా "మర్చిపోతుంది".
నియంత్రణ లేని ఖర్చు — ప్రతి పొడవైన సంభాషణ ప్రాంప్ట్‌ను నింపుతుంది మరియు మీరు టోకెన్లకు భారీ మొత్తం చెల్లిస్తారు.

ఈ 4 కూడా ఆర్కిటెక్చర్ ఎంపికలు, మోడల్ పరిమితులు కావు. OpenClaw ఈ 4 నివారించడానికి నిర్మించబడింది — మరియు అర్థం చేసుకోవడానికి మార్గం ఒక టర్న్ సైకిల్‌ను చూడటం.

ఒక టర్న్ సైకిల్ (6 దశలు)

కస్టమర్ ఇప్పుడే "quero marcar pra sábado de manhã" అనే మెసేజ్ పంపారని ఊహించుకోండి. "received" మరియు ఏజెంట్ రెస్పాన్స్ మధ్య ఏం జరుగుతుంది?

దశ 1 — Ingest (edge worker, <50ms)

WhatsApp మెసేజ్ Meta webhook ద్వారా భౌగోళికంగా సమీపంలోని పాయింట్ ఆఫ్ ప్రెజెన్స్ (PoP) లో ఉన్న Cloudflare Worker కు నేరుగా వస్తుంది. బ్రెజిల్‌లో, ఇది సావో పాలో లేదా రియో అని అర్థం, నెట్‌వర్క్ లేటెన్సీ < 20ms.

Worker మూడు పనులు చేస్తుంది:

Webhook యొక్క సిగ్నేచర్‌ను వాలిడేట్ చేస్తుంది (WABA సీక్రెట్‌కు వ్యతిరేకంగా HMAC).
రిసీవర్ ఫోన్ నంబర్ ద్వారా టెనెంట్‌ను గుర్తిస్తుంది (to_number ద్వారా multi-tenant).
Payload ను నార్మలైజ్ చేస్తుంది — ఆడియో ట్రాన్స్‌క్రిప్షన్‌గా మారుతుంది, ఇమేజ్ వివరణగా మారుతుంది, లొకేషన్ {lat,lng} గా మారుతుంది, టెక్స్ట్ అలాగే ఉంటుంది.

దశ 1 చివరలో మీ దగ్గర తదుపరి దశకు సిద్ధంగా ఉన్న {tenant_id, conversation_id, user_message} ఆబ్జెక్ట్ ఉంటుంది.

దశ 2 — కాంటెక్స్ట్ రిజాల్వ్ (D1 + KV, ~80ms)

నిర్ణయించడానికి ముందు ఏజెంట్‌కు 3 కాంటెక్స్ట్ భాగాలు అవసరం:

ఇటీవలి చరిత్ర సంభాషణలో (చివరి N సంబంధిత టర్న్‌లు).
దీర్ఘకాలిక మెమరీ కస్టమర్ యొక్క (ప్రాధాన్యతలు, కొనుగోలు చరిత్ర, నోట్స్).
ఏజెంట్ స్థితి (పర్సోనా, ఎనేబుల్ చేయబడిన skills, నియమాలు).

ఇవన్నీ D1 (Cloudflare యొక్క డిస్ట్రిబ్యూటెడ్ SQLite) నుండి వస్తాయి. D1 సాంప్రదాయ Postgres/Mongo ను భర్తీ చేస్తుంది — నిర్వహించడానికి డేటాబేస్ సర్వర్ అవసరం లేదు, worker నుండి కొన్ని ms లో యాక్సెస్, tenant_id ద్వారా multi-tenant.

కీలక అంశం: మేము మొత్తం సంభాషణను ప్రాంప్ట్‌లో లోడ్ చేయము. OpenClaw యొక్క Memory Manager v2 (మా అంతర్గత డాక్యుమెంటేషన్లో వివరించబడింది) ప్రస్తుత టర్న్‌కు సంబంధిత టర్న్‌లను మాత్రమే ఎంపిక చేస్తుంది (చివరి N + అధిక సెమాంటిక్ సంబంధం ఉన్న N). ఇది 100+ టర్న్‌ల సంభాషణలలో కూడా టోకెన్ ఖర్చును అంచనా వేయగలిగేలా ఉంచుతుంది.

దశ 3 — Skills ఎంపిక (policy engine, ~20ms)

ప్రతి ఏజెంట్‌కు అందుబాటులో ఉన్న skills సమితి ఉంటుంది — అతను ఇన్వోక్ చేయగల ఫంక్షన్లు. ఉదాహరణలు: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

"శనివారం ఉదయం బుక్ చేయాలనుకుంటున్నాను" అనే సందేశం ఇచ్చినప్పుడు, policy engine ఫిల్టర్ చేస్తుంది:

గుర్తించిన ఉద్దేశ్యం (షెడ్యూలింగ్) తో అనుకూలమైన Skills.
సంభాషణ దశ కోసం అనుమతించబడిన Skills (ప్రతి skill అన్ని సమయాలలో అందుబాటులో ఉండదు).
ఈ tenant ఎనేబుల్ చేసిన Skills (tenant ఇంటిగ్రేట్ చేసినప్పుడు మాత్రమే calendar కనిపిస్తుంది).

చివరికి మీకు మోడల్‌కు పంపబడే skills యొక్క చిన్న ఉపసమితి ఉంటుంది — సాధ్యమైన 50 కాదు, ఇక్కడ అర్థవంతమైన 4 మాత్రమే. ఇది మోడల్ తప్పు skill ను ఇన్వోక్ చేసే అవకాశాన్ని భారీగా తగ్గిస్తుంది.

దశ 4 — నిర్ణయం (LLM call, 400-1200ms)

ఇప్పుడు మోడల్ ప్రవేశిస్తుంది. OpenClaw ఒక ఫ్రాంటియర్ LLM (Anthropic Claude, OpenAI GPT, Google Gemini — tenant ద్వారా కాన్ఫిగర్ చేయగలిగేది) కు ఒకే కాల్ చేస్తుంది:

System prompt = ఏజెంట్ పర్సోనా + నియమాలు + అందుబాటులో ఉన్న skills.
History = దశ 2 లో ఎంపిక చేయబడిన టర్న్‌లు.
User message = ప్రస్తుత టర్న్ సందేశం.

మోడల్ రెండింటిలో ఒకటి ప్రతిస్పందిస్తుంది:

తుది ప్రతిస్పందన (కస్టమర్‌కు నేరుగా టెక్స్ట్).
Tool call (నిర్దిష్ట skill ను పారామీటర్లతో అమలు చేయమని అభ్యర్థన).

"శనివారం ఉదయం బుక్ చేయాలనుకుంటున్నాను" ఉదాహరణలో, మోడల్ సాధారణంగా ఇలా రిటర్న్ చేస్తుంది:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

దశ 5 — Guard-rails తో అమలు (వేరియబుల్, ~100-500ms)

Skill మోడల్‌లో రన్ అవ్వదు. ఇది మా కోడ్‌లో రన్ అవుతుంది, ఇది:

పారామీటర్లను ధృవీకరిస్తుంది (date_range సరైన ఫార్మాట్‌లో ఉందా? టెనాంట్ నియమాలలో ఉందా?).
అనుమతిని తనిఖీ చేస్తుంది (ఈ ఏజెంట్‌కు ఈ క్యాలెండర్‌ను సంప్రదించే హక్కు ఉందా?).
కాల్‌ను అమలు చేస్తుంది (ఈ సందర్భంలో Google Calendar API).
నిర్మాణాత్మక ఫలితాన్ని మోడల్‌కు తిరిగి అందిస్తుంది.

ఇది ఎందుకు ముఖ్యం? ఎందుకంటే మోడల్ ఎప్పుడూ ఫలితాన్ని కల్పించదు. క్యాలెండర్ [10h, 11h] అని తిరిగి ఇస్తే, తదుపరి కాల్‌కు సరిగ్గా అదే వెళ్తుంది. స్కిల్ విఫలమైతే, మోడల్‌కు విఫలమైందని తెలుసు. ఏజెంట్ లేనప్పుడు 9 గంటలకు సమయం ఉందని "కల్పించే" ప్రమాదం సున్నా.

సున్నితమైన సమాచారం (ధర, గడువు, క్లయింట్ పేరు) ఉన్న సందర్భాలలో, పైప్‌లైన్ tool callను బలవంతం చేస్తుంది — మోడల్ తన స్వంత "జ్ఞానం" నుండి సమాధానం ఇవ్వడానికి అనుమతించదు. ఇది వాణిజ్య ఏజెంట్లలో అత్యంత సాధారణమైన భ్రమ తరగతిని తొలగిస్తుంది.

దశ 6 — ప్రతిస్పందన మరియు నిలుపుదల (~50ms)

స్కిల్ ఫలితం చేతిలో ఉన్నప్పుడు, మోడల్ రెండవ కాల్ చేస్తుంది — ఇప్పుడు క్లయింట్‌కు తుది ప్రతిస్పందనను రూపొందించడానికి. ఉదా:

"శనివారం 10 గంటలకు మరియు 11 గంటలకు ఉంది. ఏది ఇష్టపడతారు?"

సమాంతరంగా, వర్కర్:

WhatsApp API ద్వారా సందేశాన్ని తిరిగి పంపుతుంది.
పూర్తి టర్న్‌ను (user + assistant + tool calls + వ్యవధి) D1లో నిలుపుతుంది.
టర్న్ కొత్త వాస్తవాన్ని ఉత్పత్తి చేస్తే (ఉదా: "క్లయింట్ శనివారం ఇష్టపడతారు") దీర్ఘకాలిక జ్ఞాపకాన్ని నవీకరిస్తుంది.
పరిశీలనా సంఘటనను ఉత్సర్జిస్తుంది (లేటెన్సీ మెట్రిక్, టోకెన్ ఖర్చు, ఎస్కలేషన్ రేటు).

ఇవన్నీ సమాంతరంగా నడుస్తాయి. నిలుపుదల సందేశం పంపడాన్ని బ్లాక్ చేయదు — క్లయింట్ D1 కోసం వేచి ఉండరు.

భ్రమకు వ్యతిరేకంగా రక్షణ ఎక్కడ ఉంది

ఉత్పత్తిలో భ్రమ కలిగించే ఏజెంట్ త్వరగా నమ్మకాన్ని కోల్పోతుంది. OpenClaw కు 4 రక్షణ రేఖలు ఉన్నాయి:

బలవంతపు సత్య-మూలం. వాస్తవిక డేటా (ధర, సమయం, పేరు) ఎల్లప్పుడూ స్కిల్ నుండి వస్తుంది, మోడల్ నుండి ఒంటరిగా ఎప్పుడూ రాదు.
సున్నితమైన డేటాపై ద్వంద్వ ధృవీకరణ. షెడ్యూలింగ్ నిలుపుదలకు ముందు క్లయింట్‌తో నిర్ధారించబడుతుంది. యాక్సెస్ విడుదల చేయడానికి ముందు చెల్లింపు నిర్ధారించబడుతుంది.
స్పష్టమైన నిషేధ నియమాలు. ప్రతి ఏజెంట్ పర్సోనాలో "X, Y, Z ను ఎప్పుడూ కల్పించకండి" అని ఉంటుంది — మోడల్ పాటిస్తుంది.
మానవునికి ఫాల్‌బ్యాక్. ఏ స్కిల్ కూడా ప్రశ్నను కవర్ చేయనప్పుడు, ఏజెంట్ "నేను టీమ్‌తో తనిఖీ చేస్తాను" అని చెప్పి టికెట్ తెరుస్తుంది — అంచనా వేయదు.

గత 6 నెలల్లో మేము చేసిన ఆడిట్లలో (మాన్యువల్‌గా సమీక్షించిన నిజమైన సంభాషణలు), వాస్తవిక భ్రమ రేటు టర్న్‌లలో 0.3% కంటే తక్కువగా ఉంది — మరియు దాదాపు అన్ని కేసులు కాన్ఫిగ్ వల్ల (టెనాంట్ సంబంధిత స్కిల్‌ను ఎనేబుల్ చేయడం మర్చిపోయారు), మోడల్ లోపం కాదు.

సంభాషణకు ఖర్చు

మంచి ఆర్కిటెక్చర్ మీరు బిల్లు చూసేవరకు కనిపించదు. ప్రతి టర్న్ 1-2 LLM కాల్స్ + D1 లుకప్‌లు చేస్తుందని భావిస్తే, పూర్తి సంభాషణకు (10-15 టర్న్‌లు) సాధారణ ఖర్చు ఇలా ఉంటుంది:

Equipe OpenClaw

ప్రచురించిన తేదీ 28 మే, 2026