Engenharia

12 min पढ़ने का समय

31 मई 2026

कैसे काम करता है एक AI कंसेशनल एजेंट

ओपनक्लॉ के 6 चरणों में एक बातचीत का टर्न - वास्तविक लेटेंसी, बातचीत का लागत और अलुकिनेशन के खिलाफ 4 लाइनें

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

एक AI चैटबॉट की कार्यप्रणाली (ओपनक्लॉ की आर्किटेक्चर)

एक AI चैटबॉट की कार्यप्रणाली को समझने के लिए, आइए एक चरण-दर-चरण विवरण देखें: यह पोस्ट ओपनक्लॉ की कार्यप्रणाली को समझने के लिए एक मार्गदर्शक है: क्लाइंट की संदेश से लेकर चैटबॉट के द्वारा लिखे गए पाठ तक। यह विशेष रूप से तकनीकी होगा। यदि आप उत्पाद की डिज़ाइन करते हैं, एक समाधान खरीदने के लिए तैयार हैं, या चैट के पीछे के कार्यों को समझने में रुचि रखते हैं, तो यह पोस्ट आपके लिए उपयोगी होगा।

TL;DR: प्रत्येक चरण 6 चरणों से गुजरता है - इंगेस्ट, कॉन्टेक्स्ट रिज़ॉल्व, स्किल्स सेलेक्ट, नेक्स्ट एक्शन डिसाइड, एक्जीक्यूट विद गार्ड-रेल्स, और मेमोरी पेरिस्ट। पूरा चक्र क्लाउडफ्लेयर की एज क्लाउड में <सेकंड में घूमता है, कोई फिक्स्ड सर्वर नहीं है।

आर्किटेक्चर का महत्व

एक चैटबॉट जो डेमो में काम करता है लेकिन प्रोडक्शन में टूट जाता है, आमतौर पर इनमें से 4 समस्याओं का सामना करता है:

उच्च लेटेंसी - क्लाइंट 8 सेकंड तक प्रतिक्रिया के लिए इंतजार करता है, और चैट मर जाती है।
अनियंत्रित अलुकिनेशन - चैटबॉट कीमत, समय, और नीति जैसी चीजें बनाता है।
कॉन्टेक्स्ट खो दिया - क्लाइंट 2 दिनों के बाद वापस आता है और चैटबॉट "भूल" जाता है।
अनियंत्रित लागत - प्रत्येक लंबी चैट प्रॉम्प्ट को भर देती है और आपको टोकन के लिए बहुत पैसे देने पड़ते हैं।

इन 4 समस्याएं आर्किटेक्चर के चयन के कारण होती हैं, न कि मॉडल की सीमा। ओपनक्लॉ को इन 4 समस्याओं को रोकने के लिए डिज़ाइन किया गया है - और इसके लिए, आइए एक चरण-दर-चरण विवरण देखें.

एक चरण-दर-चरण चक्र (6 चरण)

क्लाइंट ने "मैं शनिवार की सुबह के लिए बुकिंग करना चाहता हूं" जैसी संदेश भेजा है। आइए देखें कि क्लाइंट के "रिसीव्ड" से लेकर चैटबॉट के द्वारा लिखे गए पाठ तक क्या होता है।

चरण 1 - इंगेस्ट (एज वॉर्कर, <ms)

व्हाट्सएप के वेबहुक से क्लाइंट का संदेश क्लाउडफ्लेयर वर्कर के माध्यम से क्लाउडफ्लेयर के पॉइंट ऑफ प्रिजेंस (पीओपी) में आता है। भारत में, यह साओ पाउलो या रियो में होता है, जो कि <0ms की नेटवर्क लेटेंसी के साथ होता है।

वर्कर तीन चीजें करता है:

सिग्नेचर की वैलिडेशन (HMAC के खिलाफ वेबहुक की सिग्नेचर)
टेनेंट की पहचान (क्लाइंट के फोन नंबर के माध्यम से)
पेडलोड की नॉर्मलाइजेशन (आडियो को ट्रांसक्रिप्शन में बदलना, इमेज को डिस्क्रिप्शन में बदलना, लोकेशन को {लैट,लॉन्ग} में बदलना, और टेक्स्ट को जैसा है)

चरण 1 के अंत में, आपके पास एक ऑब्जेक्ट {टेनेंट_आईडी, कॉन्वेर्सेशन_आईडी, यूजर_मैसेज} होगा जो चरण 2 के लिए तैयार है।

चरण 2 - कॉन्टेक्स्ट रिज़ॉल्व (D1 + KV, ~80ms)

चैटबॉट को 3 पीसी कॉन्टेक्स्ट की आवश्यकता है:

कॉन्वेर्सेशन हिस्ट्री (पिछले संदेशों की सूची)
क्लाइंट की प्रोफाइल (क्लाइंट की जानकारी)
कॉन्वेर्सेशन का स्टेट (चैट का वर्तमान स्थिति)

चरण 2 के अंत में, आपके पास एक ऑब्जेक्ट {कॉन्वेर्सेशन_हिस्ट्री, क्लाइंट_प्रोफाइल, कॉन्वेर्सेशन_स्टेट} होगा जो चरण 3 के लिए तैयार है।

चरण 3 - स्किल्स सेलेक्ट (D2 + KV, ~80ms)

चैटबॉट को क्लाइंट के संदेश को समझने के लिए स्किल्स की आवश्यकता है:

नेचर लैंग्वेज प्रोसेसिंग (संदेश को समझने के लिए)
इंटेंट रिकग्निशन (क्लाइंट के इंटेंट को पहचानने के लिए)
स्किल्स की सूची (चैटबॉट के पास उपलब्ध स्किल्स की सूची)

चरण 3 के अंत में, आपके पास एक ऑब्जेक्ट {स्किल्स_लिस्ट, इंटेंट_रिकग्निशन, नेचर_लैंग्वेज_प्रोसेसिंग} होगा जो चरण 4 के लिए तैयार है।

चरण 4 - नेक्स्ट एक्शन डिसाइड (D3 + KV, ~80ms)

चैटबॉट को क्लाइंट के संदेश के आधार पर नेक्स्ट एक्शन का निर्णय लेने की आवश्यकता है:

एक्शन स्पेस (चैटबॉट के पास उपलब्ध एक्शन की सूची)
कॉन्वेर्सेशन का स्टेट (चैट का वर्तमान स्थिति)
क्लाइंट की प्रोफाइल (क्लाइंट की जानकारी)

चरण 4 के अंत में, आपके पास एक ऑब्जेक्ट {नेक्स्ट_एक्शन, एक्शन_स्पेस, कॉन्वेर्सेशन_स्टेट} होगा जो चरण 5 के लिए तैयार है।

चरण 5 - एक्जीक्यूट विद गार्ड-रेल्स (D4 + KV, ~80ms)

चैटबॉट को क्लाइंट के संदेश के आधार पर एक्शन को निष्पादित करने की आवश्यकता है:

एक्शन की निष्पादिति (चैटबॉट द्वारा निष्पादित एक्शन)
गार्ड-रेल्स (चैटबॉट द्वारा निष्पादित एक्शन के लिए गार्ड-रेल्स)
कॉन्वेर्सेशन का स्टेट (चैट का वर्तमान स्थिति)

चरण 5 के अंत में, आपके पास एक ऑब्जेक्ट {एक्शन_निष्पादित, गार्ड-रेल्स, कॉन्वेर्सेशन_स्टेट} होगा जो चरण 6 के लिए तैयार है।

चरण 6 - मेमोरी पेरिस्ट (D5 + KV, ~80ms)

चैटबॉट को क्लाइंट के संदेश के आधार पर मेमोरी को पेरिस्ट करने की आवश्यकता है:

मेमोरी की पेरिस्ट (चैटबॉट द्वारा पेरिस्ट की गई मेमोरी)
कॉन्वेर्सेशन का स्टेट (चैट का वर्तमान स्थिति)
क्लाइंट की प्रोफाइल (क्लाइंट की जानकारी)

चरण 6 के अंत में, आपके पास एक ऑब्जेक्ट {मेमोरी_पेरिस्ट, कॉन्वेर्सेशन_स्टेट, क्लाइंट_प्रोफाइल} होगा जो चरण 7 के लिए तैयार है।

चरण 7 - रिप्लाई (D6 + KV, ~80ms)

चैटबॉट को क्लाइंट के संदेश के आधार पर रिप्लाई करने की आवश्यकता है:

रिप्लाई की निष्पादिति (चैटबॉट द्वारा निष्पादित रिप्लाई)
कॉन्वेर्सेशन का स्टेट (चैट का वर्तमान स्थिति)
क्लाइंट की प्रोफाइल (क्लाइंट की जानकारी)

चरण 7 के अंत में, आपके पास एक ऑब्जेक्ट {रिप्लाई_निष्पादित, कॉन्वेर्सेशन_स्टेट, क्लाइ

पिछला इतिहास (अंतिम N प्रतिक्रियाएं जो महत्वपूर्ण हैं)।
लंबे समय तक की याददाश्त (ग्राहक की पसंद, खरीद का इतिहास, नोट्स)।
एजेंट का स्थिति (व्यक्तित्व, सक्षम कौशल, नियम)।

सब कुछ D1 (Cloudflare का वितरित SQLite) से आता है। D1 पारंपरिक पोस्टग्रेस/मोंगो को बदल देता है - सर्वर के लिए कोई बैंक की आवश्यकता नहीं है, वर्कर से एक्सेस केवल कुछ मिलीसेकंड में होता है, और multi-tenant tenant_id द्वारा।

मुख्य बिंदु: हम पूरी बातचीत को प्रॉम्प्ट में नहीं ले जाते हैं। OpenClaw का Memory Manager 2 (हमारी अंदरूनी दस्तावेज़ीकरण में वर्णित) केवल प्रतिक्रिया के लिए प्रासंगिक प्रतिक्रियाएं चुनता है (अंतिम N + N उच्च सेमांटिक महत्व के बिना)। यह 100+ प्रतिक्रियाओं वाली बातचीत में भी टोकन की लागत को अनुमानित रखता है।

चरण 3 - कौशल का चयन (नीति इंजन, ~20ms)

प्रत्येक एजेंट के पास एक सेट कौशल उपलब्ध है - जो वह कार्य कर सकता है। उदाहरण: consultar_calendario, crear_evento, gerar_link_pagamento, consultar_pedido, chamar_humano।

दिए गए संदेश "quero marcar pra sábado de manhã" के साथ, नीति इंजन फिल्टर करता है:

**कौशल जो संदेश की देखी गई इच्छा के साथ संगत हैं (अगेंदा)।
**कौशल जो इस बातचीत की फेज के लिए अनुमति दी गई हैं (कोई कौशल हर समय उपलब्ध नहीं होता है)।
**कौशल जो इस टेनेंट द्वारा सक्षम किए गए हैं (कैलेंडर केवल तब दिखाई देगा जब टेनेंट ने एकीकृत किया होगा)।

अंत में, आपके पास एक छोटा सा सेट होता है कौशल जो पास हो जाते हैं - न कि 50 संभावित कौशल, बल्कि यहां केवल 4 जो यहां काम करते हैं। यह गलत कौशल को कॉल करने की संभावना को काफी कम करता है।

चरण 4 - निर्णय (एलएलएम कॉल, 400-1200ms)

अब मॉडल आता है। OpenClaw एक एकल कॉल करता है एलएलएम के साथ (Anthropic Claude, OpenAI GPT, Google Gemini - टेनेंट द्वारा संगठित) के साथ:

सिस्टम प्रॉम्प्ट = एजेंट का व्यक्तित्व + नियम + उपलब्ध कौशल।
इतिहास = चरण 2 में चुने गए प्रतिक्रियाएं।
यूजर मैसेज = वर्तमान प्रतिक्रिया का संदेश।

मॉडल दो चीजों में से एक का उत्तर देता है:

अंतिम प्रतिक्रिया (ग्राहक के लिए सीधा टेक्स्ट)।
टूल कॉल (एक विशिष्ट कौशल को कॉल करने के लिए अनुरोध के साथ पैरामीटर)।

उदाहरण के लिए, "quero marcar pra sábado de manhã" के साथ, मॉडल आमतौर पर वापस आता है:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

चरण 5 - कार्यान्वयन के साथ गार्ड-रेल (स्थिर, ~100-500ms)

कौशल मॉडल में नहीं चलता है। यह हमारे कोड में चलता है, जो:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

वैधता जांच (date_range का फॉर्मेट सही है? यह टेनेंट के नियमों के अनुसार है?)
अनुमति की जांच (क्या यह एजेंट इस कैलेंडर को देखने के लिए अधिकृत है?)
कॉल करना (इस मामले में Google Calendar API)
संरचित परिणाम वापस करना मॉडल को

क्यों यह महत्वपूर्ण है? क्योंकि मॉडल कभी भी परिणाम बनाता नहीं है। यदि कैलेंडर [10h, 11h] वापस करता है, तो यही वह है जो अगली कॉल के लिए जाता है। यदि स्किल फेल हो जाती है, तो मॉडल जानता है कि वह फेल हो गई है। कोई भी जोखिम नहीं है कि एजेंट "9 बजे का समय बनाएगा" जब वह नहीं है।

जिन मामलों में संवेदनशील जानकारी शामिल होती है (कीमत, समय सीमा, ग्राहक का नाम), पाइपलाइन tool call को मजबूर करता है - मॉडल को अपने "ज्ञान" से उत्तर नहीं देने देता है। यह सबसे आम क्लास की भ्रम की स्थिति को समाप्त करता है जो व्यावसायिक एजेंटों में होती है।

चरण 6 - उत्तर और स्थायित्व (~50ms)

स्किल के परिणाम के साथ, मॉडल दूसरी कॉल करता है - अब अंतिम ग्राहक के लिए उत्तर बनाने के लिए। उदाहरण के लिए:

"मैंने शनिवार को 10 बजे और 11 बजे का समय है। क्या आप पसंद करते हैं?"

वही समय, वर्कर:

वापसी की संदेश भेजता है WhatsApp API के माध्यम से।
पूरा टर्न (उपयोगकर्ता + सहायक + टूल कॉल + अवधि) को स्थायी करता है D1 में।
लंबे समय तक याद रखने वाली मेमोरी को अपडेट करता है यदि टर्न ने कोई नया तथ्य उत्पन्न किया है (उदाहरण के लिए, "ग्राहक शनिवार को पसंद करता है")।
दृश्यता के लिए इवेंट भेजता है (लेटेंसी, टोकन का लागत, स्केलिंग की दर)।

सारी चीजें एक साथ चलती हैं। स्थायित्व संदेश भेजने को रोकता नहीं - ग्राहक को D1 की प्रतीक्षा नहीं करनी होती है।

भ्रम की स्थिति का बचाव कहाँ है

उत्पादन में भ्रम करने वाला एजेंट जल्द ही विश्वास खो देता है। ओपनक्लॉ के पास 4 पंक्तियों की रक्षा है:

स्रोत-ट्रुथ को मजबूर किया गया है। तथ्यात्मक डेटा (कीमत, समय, नाम) हमेशा स्किल से आता है, कभी भी मॉडल से नहीं।
संवेदनशील डेटा पर दोहरी जांच की जाती है। कैलेंडर की पुष्टि ग्राहक से पहले स्थायित्व की जाती है। भुगतान की पुष्टि होती है पहले से ही एक्सेस को मुक्त करने से पहले।
विशिष्ट निगेटिव नियम हैं। प्रत्येक एजेंट की व्यक्तिगत व्यक्ति में "नहीं बनाएं X, Y, Z" शामिल होती है - मॉडल का पालन करता है।
मानव के लिए फॉलबैक। जब कोई स्किल प्रश्न को कवर नहीं करता है, तो एजेंट कहता है "मुझे टीम के साथ जांचने दो" और एक टिकट खोलता है - नहीं फ्लिप करता है।

अंतिम 6 महीनों में किए गए ऑडिट (वास्तविक समय में हाथ से जांच की गई बातचीत) में, तथ्यात्मक भ्रम की दर 0.3% टर्न के नीचे रही है - और अधिकांश मामले कॉन्फ़िगरेशन (टेनेंट ने संबंधित स्किल को सक्षम नहीं किया) के कारण थे, न कि मॉडल की गलती।

संवाद का लागत

Translated markdown (hi-IN) का अंतिम भाग:

संवाद की लागत

संवाद की लागत का विवरण नीचे दिया गया है:

संवाद की लागत: 0.0001 डॉलर प्रति संवाद
संवाद की संख्या: 1000000 संवाद प्रति दिन
कुल लागत: 100 डॉलर प्रति दिन

यह लागत संवाद की संख्या और संवाद की लागत पर निर्भर करती है।

Arkitektura acchi bhālī hai vishāl hai jab tak aap khārach kī bhārī nahīn dekhte. Diya hai ki har gatividhi mein 1-2 LLM ke call + D1 ke lookups hota hai, to pūrī baat (10-15 gatividhi) ke liye aam khārach yeh hai:

10-15 gatividhiyon ke liye, khārach 1-2 LLM ke call + 10-15 D1 ke lookups hota hai.

Equipe OpenClaw

प्रकाशित 31 मई 2026