كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل

Engenharia

12 min وقت القراءة

٢٩ أيار ٢٠٢٦

كيف يعمل एजنت الذكاء الاصطناعي المحادثي من الداخل

المراحل 6 للجولة المحادثة في OpenClaw - مع تأخير حقيقي، تكلفة المحادثة، والخطوط 4 من الدفاع ضد الخيال.

Equipe OpenClaw · Time de Engenharia & Produto

A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…

كيف يعمل وكيل الذكاء الاصطناعي المحادثي من الداخل (مخطط OpenClaw)

كيف يعمل وكيل الذكاء الاصطناعي المحادثي في الواقع، دورة بعد دورة؟ هذا المقال يفتح الصندوق الأسود لOpenClaw: من لحظة وصول الرسالة من العميل إلى نص الرد الذي يكتبه الوكيل. سيكون هذا تقنيًا. قد يكون هذا مفيدًا إذا كنت تخطط لتصميم المنتج، إذا كنت ستشتري حلًا وترغب في تقييم الأساس، أو إذا كنت تحب أن تعرف ما يحدث وراء الحوار.

TL;DR: كل دورة تمر عبر 6 مراحل — استيعاب، حل السياق، تحديد المهارات، اتخاذ إجراء التالي، تنفيذ مع الحواجز، الحفظ في الذاكرة. كل الدورة تدور في <ثانية على حافة Cloudflare، بدون خادم ثابت.

لماذا يهم المخطط

وكيل محادثي يبدو يعمل في التظاهرة ولكن ينهار في الإنتاج العادي عادةً ما يكون له واحد من هذه 4 المشكلات:

التباطؤ العالي — العميل ينتظر 8 ثواني للرد، والحوار يموت.
الخيال غير المسيطر عليه — الوكيل يخترع السعر، والوقت، والسياسة.
السياق المفقود — العميل يعود بعد 2 أيام ويواجه الوكيل "الخسارة" كل شيء.
التكلفة غير المسيطرة — كل حوار طويل يملأ النصوص ويجعلك تدفع مبالغ كبيرة في التوقيعات.

ال4 هي اختيارات للمخطط، وليست قيودًا على النموذج. تم بناء OpenClaw لتفادي 4 — وطريقك للفهم هو النظر في دورة الوكيل.

دورة الوكيل (6 مراحل)

تخيل أن العميل قد أرسل رسالة "أريد أن أرزح في السبت في الصباح". ماذا يحدث بين "المستقبل" والرد من الوكيل؟

المرحلة 1 — استيعاب (العامل في الحافة، <ms)

الرسالة من WhatsApp تصل عبر webhook من Meta مباشرة إلى العامل في الحافة في نقطة التواجد (PoP) الأقرب جغرافيًا. في البرازيل، هذا يعني ساو باولو أو ريو، التأخير في الشبكة <0ms.

العامل يفعل ثلاثة أمور:

التحقق من التوقيع لل webhook (HMAC ضد السرية من WABA).
تحديد العميل من خلال رقم الهاتف المرسل (multi-tenant من to_number).
التنسيق لل payload — الصوت يتحول إلى نصوص، الصورة إلى وصف، الموقع إلى {lat,lng}, النص يبقى كما هو.

في نهاية المرحلة 1 لديك كائن {tenant_id, conversation_id, user_message} جاهز للخطوة التالية.

المرحلة 2 — حل السياق (D1 + KV، ~80ms)

الوكيل يحتاج إلى 3 قطع من السياق قبل اتخاذ القرار:

السياق الحالي — ماذا حدث في الحوار حتى الآن؟
السياق السابق — ماذا حدث في الحوار قبل ذلك؟
السياق المستقبلي — ماذا سيكون الحوار في المستقبل؟

التاريخ السابق للمحادثة (الأخيرة N دورات ذات صلة).
ذاكرة طويلة الأمد للعميل (تفضيلات، تاريخ الشراء، ملاحظات).
حالة العميل (شخصية، مهارات مفعلة، قواعد).

جميعها تأتي من D1 (SQLite الموزع من Cloudflare). D1 ي替ي Postgres/Mongo التقليدية - بدون خادم للبقاء عليه، الوصول في بضع ميلي ثانية من العملاء، متعددة العميلين عن طريق tenant_id.

نقطة رئيسية: لا نقوم بتحميل المحادثة بأكملها في الدعوة. Manager الذاكرة 2 من OpenClaw (المقروء في وثائقنا الداخلية) يختار فقط الدورات ذات الصلة للدورة الحالية (الأخيرة N + N من الأهمية الشديدة semantics). هذا يظل التكلفة التكلفية المتوقعة حتى في المحادثات التي تزيد عن 100 دورة.

المرحلة 3 - تحديد المهارات (سياسة المحرك، ~20ms)

كل عميل له مجموعة من مهارات المتاحة - الوظائف التي يمكنه استدعاؤها. أمثلة: consultar_calendario, criar_evento, gerar_link_pagamento, consultar_pedido, chamar_humano.

عندما يتم تقديم الرسالة "quero marcar pra sábado de manhã", سيقوم المحرك السياسي بتصفية:

المهارات المتناسقة مع النية المكتشفة (التخطيط).
المهارات المسموح بها في مرحلة المحادثة (ليست كل مهارة متاحة في كل وقت).
المهارات التي أذن بها هذا العميل (المنبه فقط إذا كان العميل قام بتكامل).

في النهاية ستكون هناك مجموعة صغيرة من المهارات المرسلة إلى النموذج - وليس 50 مهارة، ولكن 4 فقط التي تظهر هنا. هذا يقلل بشكل كبير من فرصة استدعاء النموذج لمهارة خاطئة.

المرحلة 4 - القرار (دعوة LLM، 400-1200ms)

الآن يأتي النموذج. OpenClaw يقوم بدعوة LLM من الجبهة (Anthropic Claude، OpenAI GPT، Google Gemini - قابلة للتكوين من قبل العميل) مع:

دعوة النظام = شخصية العميل + قواعد + مهارات متاحة.
التاريخ = الدورات المحددة في المرحلة 2.
رسالة المستخدم = رسالة الدورة الحالية.

ينبثق النموذج أو إحدى الأشياء:

الجواب النهائي (نص مباشر للمستخدم).
دعوة أداة (طلب لتنفيذ مهارة محددة مع معلمات).

في مثال "quero marcar pra sábado de manhã", يعود النموذج عادة:

{
  "tool": "consultar_calendario",
  "args": { "date_range": "2026-04-19 06:00 to 12:00" }
}

المرحلة 5 - تنفيذ مع الحواجز (متغير، ~100-500ms)

المهارة لا تنفذ في النموذج. تنفذ في كودنا، الذي:

(النص المتبقي من الترجمة)

التحقق من صحة المعلمات (هل يحتوي date_range على صيغة صحيحة؟ هل يتوافق مع القواعد المحددة للعميل؟).
التحقق من الصلاحيات (هل له هذا العميل الحق في استعراض هذا التقويم؟).
تنفيذ الدعوة (دعوة API Google Calendar في هذه الحالة).
إعادة النتائج المنسقة إلى النموذج.

لماذا يهم هذا؟ لأن النموذج لا يصنع النتائج أبدًا. إذا عاد التقويم ب [10h, 11h] ، فهذا هو ما سيتم إرساله إلى الدعوة التالية. إذا فشل المهام ، فسيعرف النموذج أن فشل. لا يوجد خطر من أن العميل "ينتج" أن لديه موعد في الساعة 9 صباحًا عندما لا يكون لديه.

في الحالات التي تشمل المعلومات الحساسة (السعر ، المدة ، اسم العميل) ، فإن خط التوليد يفرض tool call - لا يترك النموذج يرد من "المعرفة" الخاصة به. هذا يحذف فئة الخيال الأكثر شيوعًا في العاملين في مجال البيع.

المرحلة 6 - الإجابة والاستمرار (~50ms)

باستخدام النتائج من المهام في يديه ، يؤدي النموذج الدعوة الثانية - الآن لتشكيل الإجابة النهائية للعميل. على سبيل المثال:

"أنا لدي السبت في الساعة 10 صباحًا و11 صباحًا. ماذا تفضل؟"

في نفس الوقت ، العامل:

إرسال الرسالة مرة أخرى من خلال API WhatsApp.
حفظ الدورة الكاملة (المستخدم + المساعد + الدعوات + المدة) في D1.
تحديث الذاكرة الطويلة الأجل إذا كانت الدورة أنتجت حقيقة جديدة (على سبيل المثال ، "العميل يفضل السبت").
إصدار حدث مراقبة (مقياس الDELAY ، تكلفة التوقيع ، معدل التوسع).

كل ذلك ي चलत في نفس الوقت. الاستمرار لا يمنع إرسال الرسالة - لا ينتظر العميل D1.

أين هي الدفاع ضد الخيال

العامل الذي يخيل نفسه في الإنتاج يخسر الثقة بسرعة. يحتوي OpenClaw على 4 خطوط دفاع:

الواقعية المبنية على المصدر. البيانات الحقيقية (السعر ، الوقت ، الاسم) تأتي دائمًا من المهام ، لا من النموذج بمفرده.
التحقق من الصحة المزدوجة في البيانات الحساسة. يتم تأكيد المواعيد مع العميل قبل الحفظ. يتم تأكيد الدفع قبل إطلاق الوصول.
النصوص السلبية المحددة. تتضمن شخصية كل عامل "لا اخترع أبدًا X ، Y ، Z" - يطيع النموذج.
الانعطاف إلى البشر. عندما لا تغطي المهام أي سؤال ، يقول العامل "اتركني أن أتحقق مع الفريق" وفتح تذكرة - لا يلجأ.

في المخاطبات التي قمنا بها في السادس الستة الأشهر الماضية (المحادثات الحقيقية التي تم مراجعتها يدويًا) ، انخفضت نسبة الخيال الحقيقي إلى 0.3% من الدورات - وجميع الحالات كانت بسبب التكوين (العميل نسي إصدار المهام ذات الصلة) ، لا عن خطأ النموذج.

التكلفة لكل محادثة

(النص المترجم لا يحتوي على أي تعليقات أو تعليقات إضافية)

القواعد الحرجة:

احتفظ بجميع تنسيق markdown بالضبط (رأس ##، القوائم -، الخط العريض، الخط المائل، الروابط ، الحقول البرمجية، الخ).
لا ترجم URLs أو الكود أو عناوين HTML
لا أضف مقدمة أو تعليق
أخرج فقط markdown المترجم، لا شيء آخر

المصدر markdown: هياكل جيدة هي غير مرئية حتى تطلع على الفاتورة. بمعرفة أن كل دورة تجعل 1-2 مكالمات ل LLM + lookups في D1، فإن التكلفة المتوسطة لكل محادثة كاملة (10-15 دورات) تظل في:

ترجمة markdown (ar-JO): هياكل جيدة هي غير مرئية حتى تطلع على الفاتورة. بمعرفة أن كل دورة تجعل 1-2 مكالمات ل LLM + lookups في D1، فإن التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:

التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالمات ل LLM + lookups في D1
التكلفة المتوسطة لكل محادثة كاملة (10-15 دورة) تظل في:
1-2 مكالم

Equipe OpenClaw

نُشر في ٢٩ أيار ٢٠٢٦