कन्भर्सेसनल एआई एजेन्ट भित्र कसरी काम गर्छ

Engenharia

12 min पढ्ने समय

June 2, 2026

कन्भर्सेसनल एआई एजेन्ट भित्र कसरी काम गर्छ

OpenClaw मा कुराकानीको एक पालोका ६ चरणहरू — वास्तविक लेटेन्सी, प्रति कुराकानी लागत र भ्रमको बिरुद्ध ४ रक्षा रेखाहरू।

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

कन्भर्सेशनल AI एजेन्ट भित्र कसरी काम गर्छ (OpenClaw आर्किटेक्चर)

कन्भर्सेशनल AI एजेन्ट कसरी काम गर्छ व्यवहारमा, टर्न-बाइ-टर्न? यो पोस्टले OpenClaw को ब्ल्याक बक्स खोल्छ: ग्राहकको सन्देश WhatsApp मा आइपुग्ने क्षणदेखि एजेन्टले फिर्ता लेख्ने पाठसम्म। यो प्राविधिक हुनेछ। यदि तपाईं उत्पादन आर्किटेक्चरको निर्णय गर्नुहुन्छ भने, यदि तपाईं समाधान किन्न जाँदै हुनुहुन्छ र गहिराइमा मूल्याङ्कन गर्न चाहनुहुन्छ भने, वा कुराकानीको पछाडि के भइरहेको छ जान्न रुचि राख्नुहुन्छ भने यो उपयोगी छ।

TL;DR: प्रत्येक टर्न ६ चरणहरूबाट गुज्रिन्छ — ingest, सन्दर्भ समाधान, skills छनोट, अर्को कार्य निर्णय, guard-rails सहित कार्यान्वयन, मेमोरी संरक्षण। सम्पूर्ण चक्र Cloudflare को edge मा <२ सेकेन्डमा चल्छ, कुनै निश्चित सर्भर बिना।

आर्किटेक्चर किन महत्त्वपूर्ण छ

डेमोमा काम गरेको जस्तो देखिने तर उत्पादनमा बिग्रने कन्भर्सेशनल एजेन्टमा सामान्यतया यी ४ समस्याहरू मध्ये एउटा हुन्छ:

उच्च लेटेन्सी — ग्राहकले प्रतिक्रियाको लागि ८ सेकेन्ड पर्खन्छ, कुराकानी मर्छ।
अनियन्त्रित हलुसिनेशन — एजेन्टले मूल्य, समय, नीति बनाउँछ।
हराएको सन्दर्भ — ग्राहक २ दिनपछि फर्कन्छ र एजेन्टले सबै "बिर्सन्छ"।
अनियन्त्रित लागत — प्रत्येक लामो कुराकानीले प्रोम्प्ट भर्छ र तपाईंले टोकनमा ठूलो रकम तिर्नुहुन्छ।

यी ४ वटै आर्किटेक्चर छनोटहरू हुन्, मोडेलको सीमा होइन। OpenClaw यी ४ बाट बच्नको लागि निर्माण गरिएको थियो — र बुझ्ने बाटो भनेको एक टर्नको चक्र हेर्नु हो।

एक टर्नको चक्र (६ चरणहरू)

कल्पना गर्नुहोस् कि ग्राहकले भर्खरै सन्देश पठाएको छ "शनिबार बिहान बुक गर्न चाहन्छु"। "received" र एजेन्टको प्रतिक्रियाको बीचमा के हुन्छ?

चरण १ — Ingest (edge worker, <50ms)

WhatsApp को सन्देश Meta को webhook मार्फत सिधै भौगोलिक रूपमा नजिकको Cloudflare Worker को उपस्थिति बिन्दु (PoP) मा आइपुग्छ। ब्राजिलमा, यसको अर्थ साओ पाउलो वा रियो हो, नेटवर्क लेटेन्सी < 20ms।

worker ले तीन कुरा गर्छ:

webhook को हस्ताक्षर प्रमाणित गर्छ (WABA को गोप्य विरुद्ध HMAC)।
रिसीभरको फोन नम्बरद्वारा tenant पहिचान गर्छ (multi-tenant to_number द्वारा)।
payload सामान्यीकरण गर्छ — अडियो ट्रान्सक्रिप्शन बन्छ, छवि विवरण बन्छ, स्थान {lat,lng} बन्छ, पाठ जस्ताको तस्तै रहन्छ।

चरण १ को अन्त्यमा तपाईंसँग अर्को चरणको लागि तयार {tenant_id, conversation_id, user_message} वस्तु हुन्छ।

चरण २ — सन्दर्भ समाधान (D1 + KV, ~80ms)

निर्णय गर्नु अघि एजेन्टलाई सन्दर्भका ३ टुक्राहरू चाहिन्छ:

वार्तालापको हालको इतिहास (अन्तिम N सान्दर्भिक पालाहरू)।
ग्राहकको दीर्घकालीन स्मृति (प्राथमिकताहरू, खरिद इतिहास, टिप्पणीहरू)।
एजेन्ट स्थिति (व्यक्तित्व, सक्षम गरिएका सीपहरू, नियमहरू)।

सबै D1 (Cloudflare को वितरित SQLite) बाट आउँछन्। D1 ले परम्परागत Postgres/Mongo लाई प्रतिस्थापन गर्छ — मर्मत गर्न डाटाबेस सर्भर छैन, worker बाट केही ms मा पहुँच, tenant_id द्वारा multi-tenant।

मुख्य बिन्दु: हामी prompt मा सम्पूर्ण वार्तालाप लोड गर्दैनौं। OpenClaw को Memory Manager v2 (हाम्रो आन्तरिक कागजातमा वर्णन गरिएको) ले हालको पालोको लागि सान्दर्भिक पालाहरू मात्र चयन गर्छ (अन्तिम N + उच्च सिमान्टिक सान्दर्भिकताका N)। यसले 100+ पालाहरूको वार्तालापमा पनि टोकन लागत अनुमानित राख्छ।

चरण 3 — सीप चयन (policy engine, ~20ms)

प्रत्येक एजेन्टसँग उपलब्ध सीपहरू को सेट हुन्छ — कार्यहरू जुन उसले आह्वान गर्न सक्छ। उदाहरणहरू: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano।

सन्देश "quero marcar pra sábado de manhã" दिइएमा, policy engine ले फिल्टर गर्छ:

पत्ता लगाइएको उद्देश्य (समय तालिका) सँग मिल्दो सीपहरू।
वार्तालापको यो चरणको लागि अनुमति दिइएका सीपहरू (सबै सीप सधैं उपलब्ध हुँदैनन्)।
यो tenant ले सक्षम गरेका सीपहरू (tenant ले एकीकृत गरेको खण्डमा मात्र calendar देखिन्छ)।

अन्तमा तपाईंसँग मोडेलमा पठाइएको सीपहरूको सानो उपसमूह हुन्छ — सम्भावित 50 होइन, यहाँ अर्थपूर्ण 4 मात्र। यसले मोडेलले गलत सीप आह्वान गर्ने सम्भावनालाई धेरै कम गर्छ।

चरण 4 — निर्णय (LLM call, 400-1200ms)

अब मोडेल प्रवेश गर्छ। OpenClaw ले फ्रन्टियर LLM (Anthropic Claude, OpenAI GPT, Google Gemini — tenant द्वारा कन्फिगर गर्न मिल्ने) मा एकल कल गर्छ:

System prompt = एजेन्टको व्यक्तित्व + नियमहरू + उपलब्ध सीपहरू।
History = चरण 2 मा चयन गरिएका पालाहरू।
User message = हालको पालोको सन्देश।

मोडेलले दुई मध्ये एउटा कुरा जवाफ दिन्छ:

अन्तिम जवाफ (ग्राहकको लागि सीधा पाठ)।
Tool call (विशिष्ट प्यारामिटरहरू सहित एक विशिष्ट सीप कार्यान्वयन गर्न अनुरोध)।

उदाहरण "quero marcar pra sábado de manhã" मा, मोडेलले सामान्यतया फर्काउँछ:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

चरण 5 — guard-rails सहित कार्यान्वयन (परिवर्तनशील, ~100-500ms)

सीप मोडेलमा चल्दैन। यो हाम्रो कोडमा चल्छ, जसले:

प्यारामिटरहरू मान्य गर्दछ (date_range सही ढाँचामा छ? tenant का नियमहरू भित्र छ?)।
अनुमति जाँच गर्दछ (यो एजेन्टलाई यो क्यालेन्डर हेर्ने अधिकार छ?)।
कल कार्यान्वयन गर्दछ (यस अवस्थामा Google Calendar API)।
संरचित परिणाम फर्काउँछ मोडेललाई।

यो किन महत्त्वपूर्ण छ? किनभने मोडेलले कहिल्यै परिणाम बनाउँदैन। यदि क्यालेन्डरले [10h, 11h] फर्कायो भने, अर्को कलमा ठ्याक्कै त्यही जान्छ। यदि skill असफल भयो भने, मोडेललाई थाहा हुन्छ कि असफल भयो। एजेन्टले 9h मा समय छ भनेर "आविष्कार" गर्ने शून्य जोखिम जब छैन।

संवेदनशील जानकारी (मूल्य, समयसीमा, ग्राहकको नाम) समावेश गर्ने केसहरूका लागि, pipeline ले tool call लाई बाध्य पार्छ — मोडेललाई आफ्नै "ज्ञान" बाट जवाफ दिन दिँदैन। यसले व्यावसायिक एजेन्टहरूमा सबैभन्दा सामान्य भ्रमको वर्ग हटाउँछ।

चरण 6 — प्रतिक्रिया र स्थायित्व (~50ms)

skill को परिणाम हातमा लिएर, मोडेलले दोस्रो कल गर्छ — अब ग्राहकको लागि अन्तिम प्रतिक्रिया बनाउन। उदाहरण:

"मसँग शनिबार 10h र 11h छ। कुन रुचाउनुहुन्छ?"

समानान्तर रूपमा, worker:

पठाउँछ WhatsApp API मार्फत सन्देश फिर्ता।
स्थायी बनाउँछ पूर्ण टर्न (user + assistant + tool calls + अवधि) D1 मा।
दीर्घकालीन मेमोरी अपडेट गर्दछ यदि टर्नले नयाँ तथ्य उत्पादन गर्यो (उदा: "ग्राहकले शनिबार रुचाउँछन्")।
अवलोकनयोग्यता घटना उत्सर्जन गर्दछ (विलम्बता मेट्रिक, टोकन लागत, वृद्धि दर)।

यो सबै समानान्तर रूपमा चल्छ। स्थायित्वले सन्देश पठाउनलाई रोक्दैन — ग्राहकले D1 को पर्खाइ गर्दैन।

भ्रम विरुद्ध सुरक्षा कहाँ छ

उत्पादनमा भ्रम गर्ने एजेन्टले छिटो विश्वास गुमाउँछ। OpenClaw सँग 4 सुरक्षा रेखाहरू छन्:

बाध्यकारी सत्य-स्रोत। तथ्यात्मक डेटा (मूल्य, समय, नाम) सधैं skill बाट आउँछ, कहिल्यै मोडेल एक्लैबाट होइन।
संवेदनशील डेटामा दोहोरो प्रमाणीकरण। स्थायी बनाउनु अघि ग्राहकसँग समय तालिका पुष्टि गरिन्छ। पहुँच दिनु अघि भुक्तानी पुष्टि गरिन्छ।
स्पष्ट नकारात्मक नियमहरू। प्रत्येक एजेन्टको व्यक्तित्वमा "कहिल्यै X, Y, Z आविष्कार नगर्नुहोस्" समावेश छ — मोडेलले पालना गर्छ।
मानवमा Fallback। जब कुनै पनि skill ले प्रश्न कभर गर्दैन, एजेन्टले "मलाई टोलीसँग जाँच गर्न दिनुहोस्" भन्छ र टिकट खोल्छ — अनुमान गर्दैन।

हामीले पछिल्लो 6 महिनामा गरेका लेखापरीक्षणहरूमा (वास्तविक कुराकानीहरू म्यानुअल रूपमा समीक्षा गरिएको), तथ्यात्मक भ्रम दर 0.3% टर्नहरू भन्दा कम रह्यो — र लगभग सबै केसहरू config द्वारा थिए (tenant ले सान्दर्भिक skill सक्षम गर्न बिर्सियो), मोडेल त्रुटि होइन।

प्रति कुराकानी लागत

राम्रो आर्किटेक्चर अदृश्य हुन्छ जबसम्म तपाईंले बिल हेर्नुहुन्न। प्रत्येक टर्नले 1-2 LLM कलहरू + D1 मा लुकअपहरू गर्ने भएकोले, पूर्ण वार्तालाप (10-15 टर्नहरू) को सामान्य लागत यस्तो हुन्छ:

Equipe OpenClaw

प्रकाशित June 2, 2026