Engenharia
كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل
Engenharia
12 min وقت القراءة
٢٩ مايو ٢٠٢٦

كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل

المراحل الست للجولة المحادثة في OpenClaw — مع تأخير حقيقي، وتكلفة لكل محادثة، والخطوط الأربعة للدفاع ضد الخيال

Equipe OpenClaw

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…


كيف يعمل وكيل الذكاء الاصطناعي المحادثي من الداخل (مخطط OpenClaw)

كيف يعمل وكيل الذكاء الاصطناعي المحادثي في الواقع، دورة بعد دورة؟ هذا المقال يفتح الصندوق الأسود لOpenClaw: من لحظة وصول الرسالة من العميل إلى نص الرد الذي يكتبه الوكيل. سيكون هذا تقنيًا. قد يكون هذا مفيدًا إذا كنت تختار مخطط المنتج، إذا كنت ستشتري حلًا وترغب في تقييم الأساس، أو إذا كنت تحب أن تعرف ما يحدث وراء المحادثة.

TL;DR: كل دورة تمر عبر 6 مراحل — استيعاب، حل السياق، تحديد المهارات، اتخاذ إجراء التالي، تنفيذ مع الحواجز، الحفظ في الذاكرة. كل الدورة تدور في <ثانية على حافة Cloudflare، بدون خادم ثابت.


لماذا يهم المخطط

وكيل محادثي يبدو يعمل في التظاهرة ولكن ينهار في الإنتاج العادي عادةً ما يكون له واحد من هذه 4 المشكلات:

  1. التباطؤ العالي — العميل ينتظر 8 ثواني للرد، المحادثة تموت.
  2. الخيال غير المسيطر عليه — الوكيل يخترع السعر، الوقت، السياسة.
  3. السياق المفقود — العميل يعود بعد 2 أيام و الوكيل "ينسى" كل شيء.
  4. التكلفة غير المسيطرة — كل محادثة طويلة تملأ النص البديل وتكلفك الكثير من العملات.

ال4 هي اختيارات للمخطط، وليست قيودًا على النموذج. تم بناء OpenClaw لتفادي 4 المشكلات — وطريقك للفهم هو النظر في دورة الوكيل.


دورة الوكيل (6 مراحل)

تخيل أن العميل قد أرسل رسالة "أريد أن أرزح في السبت في الصباح" . ماذا يحدث بين "المستقبل" والرد من الوكيل؟

المرحلة 1 — استيعاب (العامل في الحافة، <ms)

الرسالة من WhatsApp تصل عبر webhook من Meta مباشرة إلى عامل في الحافة في نقطة تواجد (PoP) أقرب جغرافيًا. في البرازيل، هذا يعني ساو باولو أو ريو، التأخير في الشبكة <0ms.

العامل يفعل ثلاثة أشياء:

  1. التحقق من التوقيع لل webhook (HMAC ضد سر الختم من WABA).
  2. تحديد العميل حسب رقم الهاتف المرسل (multi-tenant بواسطة to_number).
  3. التنسيق لل payload — الصوت يتحول إلى نصوص، الصورة إلى وصف، الموقع إلى {lat,lng}, النص يبقى كما هو.

في نهاية المرحلة 1 لديك كائن {tenant_id, conversation_id, user_message} جاهز للخطوة التالية.

المرحلة 2 — حل السياق (D1 + KV، ~80ms)

الوكيل يحتاج إلى 3 قطع من السياق قبل اتخاذ القرار:

  1. السياق الحالي — ماذا قاله العميل في المحادثة السابقة؟
  2. السياق التاريخي — ماذا قاله العميل في المحادثات السابقة؟
  3. السياق الخارجي — ماذا يحدث في العالم الخارجي؟
  • التاريخ السابق للمحادثة (الأخير N دورات ذات صلة).
  • ذاكرة طويلة الأمد للعميل (تفضيلات، تاريخ الشراء، ملاحظات).
  • حالة العميل (شخصية، مهارات مفعلة، قواعد).

جميعها تأتي من D1 (SQLite الموزع من Cloudflare). D1 ي替ي Postgres/Mongo التقليدية - بدون خادم للبقاء عليه، الوصول في بضع ميلي ثانية من العملاء، متعددة العميلين عن طريق tenant_id.

نقطة رئيسية: لا نقوم بتحميل المحادثة بأكملها في النص. Manager الذاكرة 2 من OpenClaw (المقروء في.setUp documentation الخاصة بنا) يختار فقط الدورات ذات الصلة للدورة الحالية (الأخير N + N من الأهمية semantics). هذا يبقي التكلفة من التوقيع متوقعة حتى في المحادثات التي تزيد عن 100 دورة.

المرحلة 3 - تحديد المهارات (سياسة المحرك، ~20ms)

كل عميل له مجموعة من مهارات المتاحة - الوظائف التي يمكنه استدعاؤها. أمثلة: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

عندما نستقبل الرسالة "quero marcar pra sábado de manhã", سياسة المحرك يفترض:

  • مهارات متوافقة مع النية المكتشفة (التخطيط).
  • مهارات المسموح بها في مرحلة المحادثة (لا كل مهارة متاحة في كل وقت).
  • مهارات التي أذن بها هذا العميل (المنيا فقط يظهر إذا كان العميل متكامل).

في النهاية لديك مجموعة صغيرة من المهارات التي يتم تمريرها إلى النموذج - لا 50 مهارة، فقط 4 التي تظهر هنا. هذا يقلل بشكل كبير من فرصة استدعاء النموذج مهارة خاطئة.

المرحلة 4 - القرار (استدعاء LLM، 400-1200ms)

الآن يأتي النموذج. OpenClaw يصدر استدعاء واحد إلى LLM من الأمام (Anthropic Claude، OpenAI GPT، Google Gemini - قابل للتعديل من قبل العميل) مع:

  • نص النظام = شخصية العميل + قواعد + مهارات متاحة.
  • التاريخ = الدورات المحددة في المرحلة 2.
  • رسالة المستخدم = رسالة الدورة الحالية.

النموذج يرد أو من بين:

  • الجواب النهائي (نص مباشر إلى العميل).
  • استدعاء أداة (طلب لتنفيذ مهارة محددة مع معلمات).

في مثال "quero marcar pra sábado de manhã", النموذج عادة ما يرد:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

المرحلة 5 - تنفيذ مع الحواجز (متغير، ~100-500ms)

المهارة لا تنفذ في النموذج. تنفذ في كودنا، الذي:

(النص المتبقي من السOURCE markdown)

  1. التحقق من صحة المعلمات (هل يحتوي date_range على صيغة صحيحة؟ هل يتوافق مع القواعد المحددة للعقار؟).
  2. التحقق من الصلاحيات (هل له هذا العامل الحق في استعراض هذا التقويم؟).
  3. تنفيذ الدعوة (API Google Calendar في هذه الحالة).
  4. إعادة النتائج المنسقة إلى النموذج.

لماذا يهم هذا؟ لأن النموذج لا يصنع النتائج أبدًا. إذا عاد التقويم ب [10h, 11h] ، فهذا هو ما سيتم إرساله إلى الدعوة التالية. إذا فشل المهام، يعرف النموذج أن فشل. لا يوجد خطر من أن العامل "ينتج" أن له موعد في الساعة 9 صباحًا عندما لا يكون لديه.

في الحالات التي تشمل المعلومات الحساسة (السعر، المدة، اسم العميل)، يفرض الملف المنسق tool call - لا يترك النموذج يرد من "المعرفة" الخاصة به. هذا يحذف فئة الخيال الأكثر شيوعًا في العاملين في مجال التجارة.

المرحلة 6 - الإجابة والاستمرار (~50ms)

باستخدام النتائج من المهام في يده، يؤدي النموذج الدعوة الثانية - الآن لتشكيل الإجابة النهائية للعميل. على سبيل المثال:

"أنا لدي السبت في الساعة 10 صباحًا و11 صباحًا. ماذا تفضل؟"

في نفس الوقت، العامل:

  1. إرسال الرسالة مرة أخرى من خلال API WhatsApp.
  2. الحفظ للجولة completa (المستخدم + المساعد + الدعوات + المدة) في D1.
  3. تحديث الذاكرة الطويلة الأجل إذا كانت الجولة أنتجت حقيقة جديدة (على سبيل المثال: "العميل يفضل السبت").
  4. إصدار حدث مراقبة (مقياس الDELAY، تكلفة التوقيع، معدل التوسع).

كل ذلك ي चलत في نفس الوقت. الاستمرار لا يمنع إرسال الرسالة - لا ينتظر العميل D1.


أين هو defense ضد الخيال

العامل الذي يخيل نفسه في الإنتاج يخسر الثقة بسرعة. OpenClaw لديه 4 خطوط دفاع:

  1. الواقعية المبنية على المصدر. البيانات الحقيقية (السعر، الوقت، الاسم) تأتي دائمًا من المهام، لا من النموذج بمفرده.
  2. التحقق من البيانات الحساسة. التخطيط يؤكد على العميل قبل الحفظ. الدفع يؤكد قبل إطلاق الوصول.
  3. النصوص السلبية المحددة. شخصية كل عامل تشمل "لا تخلق أبدًا X، Y، Z" - يطيع النموذج.
  4. الانعطاف إلى البشر. عندما لا تغطي المهام السؤال، يقول العامل "اتركني أن أتحقق مع الفريق" وفتح تذكرة - لا يلجأ.

في المخاطبات التي قمنا بها في السادس الستة الأشهر الماضية (المحادثات الحقيقية التي تم مراجعتها يدويًا)، انخفضت نسبة الخيال الحقيقي إلى 0.3% من الجولات - وجميع الحالات كانت بسبب تكوين (العقار ينسى تثبيت المهام ذات الصلة)، وليس بسبب خطأ النموذج.


التكلفة لكل محادثة

القواعد الحرجة:

  • احتفظ بجميع تنسيق markdown بالضبط (رأس ##، القوائم -، الخط العريض، الخط المائل، الروابط، الحقول البرمجية، الخ).
  • لا ترجم URLs أو الكود أو عناصر HTML
  • لا أضف مقدمة أو تعليق
  • أخرج فقط markdown المترجم، لا شيء آخر

المصدر markdown: Arquitetura boa é invisível até você olhar a fatura. Dado que cada turno faz 1-2 chamadas de LLM + lookups em D1, o custo típico por conversa completa (10-15 turnos) fica em:

ترجمة markdown (ar-EG): Arquitetura جيدة هي غير مرئية حتى تطلع على الفاتورة. نظرًا لأن كل دورة تجعل 1-2 مكالمات ل LLM + lookups في D1، فإن التكلفة المعتادة لكل محادثة كاملة (10-15 دورة) هي:


Equipe OpenClaw

نُشر في ٢٩ مايو ٢٠٢٦

اقرأ أيضًا