కన్వర్సేషనల్ AI ఏజెంట్ లోపల ఎలా పని చేస్తుంది

Engenharia

12 min చదువుకోవడానికి

1 జూన్, 2026

కన్వర్సేషనల్ AI ఏజెంట్ లోపల ఎలా పని చేస్తుంది

OpenClaw లో సంభాషణ టర్న్ యొక్క 6 దశలు — వాస్తవ లేటెన్సీ, సంభాషణకు ఖర్చు మరియు హాలూసినేషన్‌కు వ్యతిరేకంగా 4 రక్షణ పంక్తులు.

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

సంభాషణాత్మక AI ఏజెంట్ లోపల ఎలా పనిచేస్తుంది (OpenClaw ఆర్కిటెక్చర్)

సంభాషణాత్మక AI ఏజెంట్ ఎలా పనిచేస్తుంది ఆచరణలో, టర్న్ బై టర్న్? ఈ పోస్ట్ OpenClaw యొక్క బ్లాక్ బాక్స్‌ను తెరుస్తుంది: క్లయింట్ సందేశం WhatsApp లో చేరిన క్షణం నుండి ఏజెంట్ తిరిగి వ్రాసే టెక్స్ట్ వరకు. ఇది టెక్నికల్‌గా ఉంటుంది. మీరు ప్రొడక్ట్ ఆర్కిటెక్చర్‌ను నిర్ణయిస్తే, సొల్యూషన్‌ను కొనుగోలు చేసి లోతుగా మూల్యాంకనం చేయాలనుకుంటే, లేదా సంభాషణ వెనుక ఏమి జరుగుతుందో తెలుసుకోవడానికి ఇష్టపడితే ఇది విలువైనది.

TL;DR: ప్రతి టర్న్ 6 దశల ద్వారా వెళుతుంది — ingest, కాంటెక్స్ట్ రిజాల్వ్, స్కిల్స్ ఎంపిక, తదుపరి చర్య నిర్ణయం, గార్డ్-రైల్స్‌తో అమలు, మెమరీ పర్సిస్ట్. మొత్తం సైకిల్ Cloudflare edge లో <2 సెకన్లలో నడుస్తుంది, ఫిక్స్డ్ సర్వర్ లేకుండా.

ఆర్కిటెక్చర్ ఎందుకు ముఖ్యం

డెమోలో పనిచేసినట్లు కనిపించే కానీ ప్రొడక్షన్‌లో విఫలమయ్యే సంభాషణాత్మక ఏజెంట్ సాధారణంగా ఈ 4 సమస్యలలో ఒకదాన్ని కలిగి ఉంటుంది:

అధిక లేటెన్సీ — క్లయింట్ రెస్పాన్స్ కోసం 8 సెకన్లు వేచి ఉంటాడు, సంభాషణ చనిపోతుంది.
అనియంత్రిత హాలూసినేషన్ — ఏజెంట్ ధర, సమయం, పాలసీని కల్పిస్తుంది.
కాంటెక్స్ట్ కోల్పోవడం — క్లయింట్ 2 రోజుల తర్వాత తిరిగి వస్తే ఏజెంట్ అన్నింటినీ "మరచిపోతుంది".
అనియంత్రిత ఖర్చు — ప్రతి సుదీర్ఘ సంభాషణ ప్రాంప్ట్‌ను నింపుతుంది మరియు మీరు టోకెన్‌కు భారీ మొత్తం చెల్లిస్తారు.

ఈ 4 ఆర్కిటెక్చర్ ఎంపికలు, మోడల్ పరిమితులు కాదు. OpenClaw ఈ 4 సమస్యలను నివారించడానికి నిర్మించబడింది — మరియు అర్థం చేసుకునే మార్గం ఒక టర్న్ సైకిల్‌ను పరిశీలించడం.

ఒక టర్న్ సైకిల్ (6 దశలు)

క్లయింట్ ఇప్పుడే "quero marcar pra sábado de manhã" సందేశం పంపినట్లు ఊహించండి. "received" మరియు ఏజెంట్ రెస్పాన్స్ మధ్య ఏమి జరుగుతుంది?

దశ 1 — Ingest (edge worker, <50ms)

WhatsApp సందేశం Meta వెబ్‌హుక్ ద్వారా భౌగోళికంగా అత్యంత సమీపంలోని Cloudflare Worker పాయింట్ ఆఫ్ ప్రెజెన్స్ (PoP) కు నేరుగా చేరుకుంటుంది. బ్రెజిల్‌లో, దీని అర్థం సావో పాలో లేదా రియో, నెట్‌వర్క్ లేటెన్సీ < 20ms.

వర్కర్ మూడు పనులు చేస్తుంది:

వెబ్‌హుక్ యొక్క సంతకాన్ని ధృవీకరిస్తుంది (WABA సీక్రెట్‌కు వ్యతిరేకంగా HMAC).
రిసీవర్ ఫోన్ నంబర్ ద్వారా టెనెంట్‌ను గుర్తిస్తుంది (to_number ద్వారా మల్టీ-టెనెంట్).
పేలోడ్‌ను నార్మలైజ్ చేస్తుంది — ఆడియో ట్రాన్స్‌క్రిప్షన్‌గా మారుతుంది, చిత్రం వివరణగా మారుతుంది, లొకేషన్ {lat,lng} గా మారుతుంది, టెక్స్ట్ అలాగే ఉంటుంది.

దశ 1 చివరిలో మీరు తదుపరి దశకు సిద్ధంగా ఉన్న {tenant_id, conversation_id, user_message} ఆబ్జెక్ట్‌ను కలిగి ఉంటారు.

దశ 2 — కాంటెక్స్ట్ రిజాల్వ్ (D1 + KV, ~80ms)

నిర్ణయించే ముందు ఏజెంట్‌కు 3 కాంటెక్స్ట్ భాగాలు అవసరం:

సంభాషణ యొక్క ఇటీవలి చరిత్ర (చివరి N సంబంధిత మలుపులు).
క్లయింట్ యొక్క దీర్ఘకాలిక జ్ఞాపకశక్తి (ప్రాధాన్యతలు, కొనుగోలు చరిత్ర, గమనికలు).
ఏజెంట్ స్థితి (వ్యక్తిత్వం, ప్రారంభించబడిన నైపుణ్యాలు, నియమాలు).

అన్నీ D1 (Cloudflare యొక్క పంపిణీ చేయబడిన SQLite) నుండి వస్తాయి. D1 సాంప్రదాయ Postgres/Mongo ను భర్తీ చేస్తుంది — నిర్వహించడానికి డేటాబేస్ సర్వర్ అవసరం లేదు, వర్కర్ నుండి కొన్ని ms లో యాక్సెస్, tenant_id ద్వారా మల్టీ-టెనెంట్.

ముఖ్య అంశం: మేము ప్రాంప్ట్‌లో మొత్తం సంభాషణను లోడ్ చేయము. OpenClaw యొక్క Memory Manager v2 (మా అంతర్గత డాక్యుమెంటేషన్లో వివరించబడింది) ప్రస్తుత మలుపుకు సంబంధించిన మలుపులను మాత్రమే ఎంచుకుంటుంది (చివరి N + అధిక సెమాంటిక్ సంబంధితత కలిగిన N). ఇది 100+ మలుపుల సంభాషణలలో కూడా టోకెన్ ఖర్చును అంచనా వేయదగినదిగా ఉంచుతుంది.

దశ 3 — నైపుణ్యాల ఎంపిక (పాలసీ ఇంజిన్, ~20ms)

ప్రతి ఏజెంట్‌కు అందుబాటులో ఉన్న నైపుణ్యాల సమితి ఉంటుంది — అతను ఆహ్వానించగల ఫంక్షన్లు. ఉదాహరణలు: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

"quero marcar pra sábado de manhã" సందేశం ఇచ్చినప్పుడు, పాలసీ ఇంజిన్ ఫిల్టర్ చేస్తుంది:

గుర్తించబడిన ఉద్దేశ్యంతో అనుకూలమైన నైపుణ్యాలు (షెడ్యూలింగ్).
సంభాషణ యొక్క ఈ దశకు అనుమతించబడిన నైపుణ్యాలు (ప్రతి నైపుణ్యం అన్ని సమయాల్లో అందుబాటులో ఉండదు).
ఈ టెనెంట్ ప్రారంభించిన నైపుణ్యాలు (టెనెంట్ ఇంటిగ్రేట్ చేస్తే మాత్రమే క్యాలెండర్ కనిపిస్తుంది).

చివరికి మీరు మోడల్‌కు పంపబడిన చిన్న నైపుణ్యాల ఉపసమితిని పొందుతారు — సాధ్యమైన 50 కాదు, ఇక్కడ అర్థవంతమైన 4 మాత్రమే. ఇది మోడల్ తప్పు నైపుణ్యాన్ని ఆహ్వానించే అవకాశాన్ని గణనీయంగా తగ్గిస్తుంది.

దశ 4 — నిర్ణయం (LLM కాల్, 400-1200ms)

ఇప్పుడు మోడల్ ప్రవేశిస్తుంది. OpenClaw ఫ్రంటియర్ LLM కు ఒకే కాల్ చేస్తుంది (Anthropic Claude, OpenAI GPT, Google Gemini — టెనెంట్ ద్వారా కాన్ఫిగర్ చేయదగినది):

System prompt = ఏజెంట్ వ్యక్తిత్వం + నియమాలు + అందుబాటులో ఉన్న నైపుణ్యాలు.
History = దశ 2లో ఎంచుకున్న మలుపులు.
User message = ప్రస్తుత మలుపు సందేశం.

మోడల్ రెండింటిలో ఒకదానితో స్పందిస్తుంది:

తుది సమాధానం (క్లయింట్‌కు నేరుగా టెక్స్ట్).
Tool call (పారామితులతో నిర్దిష్ట నైపుణ్యాన్ని అమలు చేయడానికి అభ్యర్థన).

"quero marcar pra sábado de manhã" ఉదాహరణలో, మోడల్ సాధారణంగా ఇలా తిరిగి ఇస్తుంది:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

దశ 5 — గార్డ్-రైల్స్‌తో అమలు (వేరియబుల్, ~100-500ms)

నైపుణ్యం మోడల్‌లో రన్ కాదు. ఇది మా కోడ్‌లో రన్ అవుతుంది, ఇది:

పారామీటర్లను ధృవీకరిస్తుంది (date_range సరైన ఫార్మాట్‌లో ఉందా? టెనెంట్ నియమాలలో ఉందా?).
అనుమతిని తనిఖీ చేస్తుంది (ఈ ఏజెంట్‌కు ఈ క్యాలెండర్‌ను చూసే హక్కు ఉందా?).
కాల్‌ను అమలు చేస్తుంది (ఈ సందర్భంలో Google Calendar API).
నిర్మాణాత్మక ఫలితాన్ని మోడల్‌కు తిరిగి ఇస్తుంది.

ఇది ఎందుకు ముఖ్యం? ఎందుకంటే మోడల్ ఎప్పుడూ ఫలితాన్ని తయారు చేయదు. క్యాలెండర్ [10h, 11h] తిరిగి ఇస్తే, తదుపరి కాల్‌కు సరిగ్గా అదే వెళ్తుంది. స్కిల్ విఫలమైతే, మోడల్‌కు అది విఫలమైందని తెలుసు. లేనప్పుడు 9h కు సమయం ఉందని ఏజెంట్ "కల్పించుకునే" ప్రమాదం సున్నా.

సున్నితమైన సమాచారం (ధర, గడువు, క్లయింట్ పేరు) ఉన్న సందర్భాల కోసం, పైప్‌లైన్ tool callను బలవంతం చేస్తుంది — మోడల్ తన స్వంత "జ్ఞానం" నుండి సమాధానం ఇవ్వనివ్వదు. ఇది వాణిజ్య ఏజెంట్లలో అత్యంత సాధారణమైన భ్రాంతి తరగతిని తొలగిస్తుంది.

దశ 6 — ప్రతిస్పందన మరియు నిలకడ (~50ms)

స్కిల్ ఫలితం చేతిలో ఉండగా, మోడల్ రెండవ కాల్ చేస్తుంది — ఇప్పుడు క్లయింట్‌కు తుది సమాధానాన్ని రూపొందించడానికి. ఉదా:

"నాకు శనివారం 10h మరియు 11h ఉన్నాయి. ఏది ఇష్టం?"

సమాంతరంగా, వర్కర్:

WhatsApp API ద్వారా సందేశాన్ని తిరిగి పంపుతుంది.
D1లో పూర్తి టర్న్‌ను (user + assistant + tool calls + వ్యవధి) నిలుపుతుంది.
టర్న్ కొత్త వాస్తవాన్ని ఉత్పత్తి చేస్తే (ఉదా: "క్లయింట్ శనివారాన్ని ఇష్టపడతారు") దీర్ఘకాలిక జ్ఞాపకశక్తిని నవీకరిస్తుంది.
పరిశీలనా సంఘటనను విడుదల చేస్తుంది (లేటెన్సీ మెట్రిక్, టోకెన్ ఖర్చు, ఎస్కలేషన్ రేటు).

ఇవన్నీ సమాంతరంగా నడుస్తాయి. నిలుపుదల సందేశ పంపడాన్ని నిరోధించదు — క్లయింట్ D1 కోసం వేచి ఉండదు.

భ్రాంతికి వ్యతిరేకంగా రక్షణ ఎక్కడ ఉంది

ప్రొడక్షన్‌లో భ్రాంతి చెందే ఏజెంట్ త్వరగా విశ్వాసం కోల్పోతుంది. OpenClaw కు 4 రక్షణ రేఖలు ఉన్నాయి:

బలవంతపు సత్య-మూలం. వాస్తవిక డేటా (ధర, సమయం, పేరు) ఎల్లప్పుడూ స్కిల్ నుండి వస్తుంది, ఒంటరిగా మోడల్ నుండి ఎప్పుడూ రాదు.
సున్నితమైన డేటాలో ద్వంద్వ ధృవీకరణ. షెడ్యూలింగ్ నిలుపుకునే ముందు క్లయింట్‌తో నిర్ధారించబడుతుంది. యాక్సెస్ విడుదల చేసే ముందు చెల్లింపు నిర్ధారించబడుతుంది.
స్పష్టమైన ప్రతికూల నియమాలు. ప్రతి ఏజెంట్ వ్యక్తిత్వంలో "X, Y, Z ను ఎప్పుడూ కల్పించుకోవద్దు" ఉంటుంది — మోడల్ పాటిస్తుంది.
మానవునికి ఫాల్‌బ్యాక్. ఏ స్కిల్ కూడా ప్రశ్నను కవర్ చేయనప్పుడు, ఏజెంట్ "టీమ్‌తో నేను తనిఖీ చేస్తాను" అని చెప్పి టికెట్ తెరుస్తుంది — ఊహించదు.

గత 6 నెలల్లో మేము చేసిన ఆడిట్లలో (మాన్యువల్‌గా సమీక్షించిన నిజమైన సంభాషణలు), వాస్తవిక భ్రాంతి రేటు టర్న్‌లలో 0.3% కంటే తక్కువగా ఉంది — మరియు దాదాపు అన్ని సందర్భాలు కాన్ఫిగ్ వల్ల (టెనెంట్ సంబంధిత స్కిల్‌ను ప్రారంభించడం మర్చిపోయారు), మోడల్ లోపం వల్ల కాదు.

సంభాషణకు ఖర్చు

మంచి ఆర్కిటెక్చర్ మీరు బిల్లును చూసే వరకు కనిపించదు. ప్రతి టర్న్ 1-2 LLM కాల్స్ + D1లో లుక్అప్‌లు చేస్తుందని బట్టి, పూర్తి సంభాషణకు (10-15 టర్న్‌లు) సాధారణ ఖర్చు:

Equipe OpenClaw

ప్రచురించిన తేదీ 1 జూన్, 2026