كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل

Engenharia

12 min وقت القراءة

٢٩ مايو ٢٠٢٦

كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل

المراحل 6 للجولة المحادثة في OpenClaw — مع تأخير حقيقي، تكلفة المحادثة، والخطوط 4 من الدفاع ضد الخيال

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

كيف يعمل وكيل الذكاء الاصطناعي المحادثي من الداخل (مخطط OpenClaw)

كيف يعمل وكيل الذكاء الاصطناعي المحادثي في الواقع، دورة بعد دورة؟ هذا المقال يفتح الصندوق الأسود لOpenClaw: من لحظة وصول الرسالة من العميل إلى نص الرد الذي يكتبه الوكيل. سيكون هذا تقنيًا. قد يكون هذا مفيدًا إذا كنت تفكر في تصميم المنتج، إذا كنت ستشتري حلًا وترغب في تقييم الأساس، أو إذا كنت تحب أن تعرف ما يحدث وراء المحادثة.

TL;DR: كل دورة تمر عبر 6 مراحل — استيعاب، حل السياق، تحديد المهارات، اتخاذ إجراء التالي، تنفيذ مع الحواجز، الحفظ في الذاكرة. كل الدورة تدور في <ثانية على حافة Cloudflare، بدون خادم ثابت.

لماذا يهم المخطط

وكيل محادثي يبدو يعمل في التظاهرة ولكن ينهار في الإنتاج العادي عادةً ما يكون له واحد من هذه 4 المشكلات:

التباطؤ العالي — العميل ينتظر 8 ثواني للرد، المحادثة تموت.
الخيال غير المسيطر عليه — الوكيل يخترع السعر، الوقت، السياسة.
السياق المفقود — العميل يعود بعد 2 أيام و الوكيل "ينسى" كل شيء.
التكلفة غير المسيطرة — كل محادثة طويلة تملأ النص البديل وتكلفك الكثير من التوقيعات.

ال4 هي اختيارات للمخطط، وليست قيودًا على النموذج. تم بناء OpenClaw لتفادي 4 المشكلات — وطريقك للفهم هو النظر في دورة الوكيل.

دورة الوكيل (6 مراحل)

تخيل أن العميل قد أرسل رسالة "أريد أن أرزح في السبت في الصباح" . ماذا يحدث بين "المستقبل" والرد من الوكيل؟

المرحلة 1 — استيعاب (العامل في الحافة، <ms)

الرسالة من WhatsApp تصل عبر webhook من Meta مباشرة إلى عامل في الحافة في نقطة تواجد (PoP) أقرب جغرافيًا. في البرازيل، هذا يعني ساو باولو أو ريو، التأخير في الشبكة <0ms.

العامل يفعل ثلاثة أشياء:

التحقق من التوقيع لل webhook (HMAC ضد سر الختم من WABA).
تحديد العميل عن طريق رقم الهاتف المرسل (multi-tenant عن طريق to_number).
التنسيق لل payload — الصوت يتحول إلى نصوص، الصورة إلى وصف، الموقع إلى {lat,lng}, النص يبقى كما هو.

في نهاية المرحلة 1 لديك كائن {tenant_id, conversation_id, user_message} جاهز للخطوة التالية.

التاريخ السابق للمحادثة (الأخيرة N دورات ذات صلة).
ذاكرة الطويل الأجل للعميل (التفضيلات، تاريخ الشراء، الملاحظات).
حالة العميل (الشخصية، المهارات المفعلة، القواعد).

كلها تأتي من D1 (SQLite الموزع من Cloudflare). D1 ي替ي Postgres/Mongo التقليدية - بدون خادم للبنان لصيانة، الوصول في بضع ميلي ثانية من العملاء، متعدد العميلين عن طريق tenant_id.

نقطة رئيسية: لا نقوم بتحميل المحادثة بأكملها في الدعوة. Manager الذاكرة 2 من OpenClaw (المقروء في وثائقنا الداخلية) يختار فقط الدورات ذات الصلة للدورة الحالية (الأخيرة N + N من الأهمية الشديدة semantics). هذا يحافظ على تكلفة التوقيع التنبؤية حتى في المحادثات التي تزيد عن 100 دورة.

المرحلة 3 - تحديد المهارات (سياسة المحرك، ~20ms)

كل عميل له مجموعة من مهارات المتاحة - الوظائف التي يمكنه استدعاؤها. أمثلة: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

عندما نستقبل الرسالة "quero marcar pra sábado de manhã", سياسة المحرك يفترض:

المهارات المنسقة مع النية المكتشفة (التخطيط).
المهارات المسموح بها في مرحلة المحادثة (ليس كل مهارة متاحة في كل وقت).
المهارات التي أذن بها هذا العميل (المنظور فقط يظهر إذا كان العميل قام بدمجه).

في النهاية لديك مجموعة صغيرة من المهارات التي يتم تمريرها إلى النموذج - وليس 50 مهارة، ولكن 4 فقط التي تظهر هنا. هذا يقلل بشكل كبير من فرصة استدعاء النموذج للمهارة الخاطئة.

المرحلة 4 - القرار (دعوة LLM، 400-1200ms)

الآن يأتي النموذج. OpenClaw يقوم بدعوة LLM من الأمام (Anthropic Claude، OpenAI GPT، Google Gemini - قابل للتعديل من قبل العميل) مع:

دعوة النظام = الشخصية للعامل + القواعد + المهارات المتاحة.
التاريخ = الدورات المحددة في المرحلة 2.
رسالة المستخدم = الرسالة الحالية.

النموذج يرد أو إحدى الأشياء:

الجواب النهائي (نص مباشر للعميل).
دعوة أداة (طلب لتنفيذ مهارة محددة مع معلمات).

في مثال "quero marcar pra sábado de manhã", النموذج عادة ما يرد:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

المرحلة 5 - تنفيذ مع الحواجز (متغير، ~100-500ms)

المهارة لا تنفذ في النموذج. تنفذ في كودنا، الذي:

(النص المتبقي من الترجمة)

حماية المعلمات (هل يحتوي date_range على صيغة صحيحة؟ هل يتوافق مع القواعد المحددة للعميل؟).
التحقق من الصلاحيات (هل له هذا العميل الحق في استعراض هذا التقويم؟).
تنفيذ الدعوة (دعوة API Google Calendar في هذه الحالة).
إعادة النتائج المنسقة إلى النموذج.

لماذا يهم هذا؟ لأن النموذج لا يصنع النتائج أبدًا. إذا عاد التقويم ب [10h, 11h] ، فهذا هو ما سيتم إرساله إلى الدعوة التالية. إذا فشل المهام، يعرف النموذج أن فشل. لا يوجد خطر من أن العميل "ينتج" أن لديه موعد في الساعة 9 صباحًا عندما لا يكون لديه.

في الحالات التي تشمل المعلومات الحساسة (السعر، المدة، اسم العميل)، يفرض الملف المنسق tool call - لا يترك النموذج يرد من "المعرفة" الخاصة به. هذا يحذف فئة الخيال الأكثر شيوعًا في العاملين في مجال التجارة.

المرحلة 6 - الإجابة والاستمرار (~50ms)

باستخدام النتائج من المهام في يده، يؤدي النموذج الدعوة الثانية - الآن لتشكيل الإجابة النهائية للعميل. على سبيل المثال:

"أنا لدي السبت في الساعة 10 صباحًا و11 صباحًا. ماذا تفضل؟"

في نفس الوقت، العامل:

إرسال الرسالة مرة أخرى من خلال API WhatsApp.
حفظ الدورة الكاملة (المستخدم + المساعد + الدعوات + المدة) في D1.
تحديث الذاكرة الطويلة الأجل إذا تم إنتاج حقيقة جديدة (على سبيل المثال: "العميل يفضل السبت").
إصدار حدث مراقبة (مقياس الDELAY، تكلفة التوقيع، معدل التوسع).

كل ذلك ي चलत في نفس الوقت. الاستمرار لا يمنع إرسال الرسالة - لا ينتظر العميل D1.

أين هي الدفاع ضد الخيال

العامل الذي يخيل نفسه في الإنتاج يخسر الثقة بسرعة. يحتوي OpenClaw على 4 خطوط دفاع:

المصدر الحقيقي المُفروض. البيانات الحقيقية (السعر، الوقت، الاسم) تأتي دائمًا من المهام، لا من النموذج بمفرده.
التحقق من البيانات الحساسة مرتين. يتم تأكيد المواعيد مع العميل قبل الحفظ. يتم تأكيد الدفع قبل إطلاق الوصول.
النصائح السلبية المحددة. تتضمن شخصية كل عامل "لا اخترع أبدًا X، Y، Z" - يتبع النموذج.
الانعطاف إلى البشر. عندما لا تغطي المهام أي سؤال، يقول العامل "اتركني أن أتحقق مع الفريق" وفتح تذكرة - لا يلجأ.

في المطابقات التي قمنا بها في السادسة الماضية (الحوارات الحقيقية التي تم مراجعتها يدويًا)، انخفضت نسبة الخيال الحقيقي إلى 0.3% من الدورات - وجميع الحالات كانت بسبب التكوين (العميل نسي إصدار المهام المحددة)، وليس بسبب خطأ النموذج.

التكلفة لكل محادثة

Critical Rules:

احتفاظ بكل تنسيق markdown بالضبط (رؤوس ##, القوائم -, الخط العريض, الخط المائل, الروابط, حزم الكود, الخ)
لا تترجم URLs, الكود, أو عناوين HTML
لا تضيف مقدمة أو تعليق
خروج فقط markdown المترجم, لا شيء آخر

Source markdown: Arquitetura boa é invisível até você olhar a fatura. Dado que cada turno faz 1-2 chamadas de LLM + lookups em D1, o custo típico por conversa completa (10-15 turnos) fica em:

Translated markdown (ar-QA): Arquitetura الخيالية هي غير مرئية حتى تطلع على الفاتورة. نظرا لان كل دور يصنع 1-2 اتصالات LLM + lookups في D1, فإن التكلفة العادية لكل محادثة كاملة (10-15 دور) هي:

(ملاحظة: تم الاحتفاظ بكل تنسيق markdown بالضبط, وتم تجاهل URLs, الكود, و HTML tags)

Equipe OpenClaw

نُشر في ٢٩ مايو ٢٠٢٦