المقال المنشور في مجلة The Economist يناقش تراجع الزخم حول النماذج اللغوية الضخمة (LLMs) بعد إطلاق GPT-5 الذي لم يُحدث طفرة نوعية، في مقابل صعود النماذج اللغوية الصغيرة (SLMs) الأرخص والأكثر مرونة، والتي تلاقي إقبالًا متزايدًا في بيئة الأعمال بفضل تخصصها وانخفاض تكلفتها التشغيلية. هذه النماذج الصغيرة، المدعومة بتقنيات تدريب متطورة وبإمكانها العمل على أجهزة أبسط وأرخص، بدأت تضاهي النماذج العملاقة في الأداء وتتفوق عليها أحيانًا، مما يجعلها أكثر ملاءمة للتطبيقات العملية مثل الهواتف، السيارات ذاتية القيادة، والروبوتات. وبينما ترى بعض الأوراق البحثية أن مستقبل الذكاء الاصطناعي القائم على الوكلاء قد يكون في النماذج الصغيرة، يظل الاتجاه نحو التنوع قائمًا، إذ تبقى النماذج الضخمة مهمة لبعض المهام المعقدة، فيما قد تثبت المقاربة البطيئة لشركة آبل أنها الخيار الأكثر حكمة على المدى الطويل.
Faith in God-like large language models is waning
عندما يتحدث العاملون في مجال التكنولوجيا عن التقدّم الباهت للنماذج اللغوية الضخمة (LLMs)، غالبًا ما يقارنونه بالهواتف الذكية. فقد كانت الأيام الأولى لـ ChatGPT من شركة OpenAI ثورية بقدر إطلاق هاتف iPhone من شركة آبل عام 2007. لكن التطوّرات على جبهة الذكاء الاصطناعي التوليدي بدأت تبدو أقرب إلى تحديثات روتينية للهواتف بدلاً من اختراقات حقيقية. ويُعد GPT-5، أحدث نماذج OpenAI، مثالًا على ذلك؛ إذ استُقبل بلا مبالاة مشابهة لتلك التي رافقت الكشف عن هاتف iPhone 17 في التاسع من سبتمبر.
إن وتيرة التقدّم البطيئة في حدود الذكاء الاصطناعي التوليدي علامة على أنّ النماذج اللغوية الضخمة لا ترقى إلى مستوى الضجيج الذي أُثير حولها. وربما الأهم من ذلك هو بروز بدائل أصغر وأكثر مرونة، بدأت تلقى قبولًا في عالم الشركات. إذ يفضّل كثير من الشركات نماذج مصممة خصيصًا لحاجاتها. هذه النماذج، التي تُعرف بالنماذج اللغوية الصغيرة (SLMs)، أقل تكلفة من النماذج العمومية الضخمة التي قد تبدو قدراتها “الإلهية” فائضة عن الحاجة. كما يوضح ديفيد كوكس، رئيس أبحاث نماذج الذكاء الاصطناعي في شركة IBM: «روبوت الدردشة الخاص بالموارد البشرية لا يحتاج إلى معرفة متقدمة في الفيزياء».
فضلًا عن سهولة تشغيلها على أنظمة تكنولوجيا المعلومات الداخلية للشركات كما على خدمات الحوسبة السحابية، قد تكون النماذج الصغيرة أكثر فائدة في مجال وكلاء الذكاء الاصطناعي الذين يؤدون مهامًا متعلقة بالعمل إلى جانب البشر أو بدلاً منهم. وصغر حجمها يجعلها مناسبة بشكل خاص للهواتف الذكية والسيارات ذاتية القيادة والروبوتات والأجهزة الأخرى التي تُعطى فيها أولوية للكفاءة في استهلاك الطاقة والسرعة. وإذا استمرت في أن تصبح أكثر موثوقية، فقد تثبت صحة قرار آبل وشركات الأجهزة الأخرى بعدم الانجرار وراء استثمارات ضخمة في النماذج السحابية العملاقة.
لا يوجد تعريف دقيق لما يميز النماذج الصغيرة عن الكبيرة؛ فالأمر يتوقف على عدد «المعلمات» أي الإعدادات العددية في “دماغ” النموذج التي تساعده على فهم البيانات. تمتد النماذج الضخمة إلى مئات المليارات من المعلمات، في حين قد تحتوي النماذج الصغيرة على 40 مليارًا أو أقل، وصولًا إلى أقل من مليار في حالة النماذج المتناهية الصغر.
وقد ساعدت تحسينات التدريب هذه النماذج الصغيرة على اللحاق بقدرات النماذج الضخمة. إذ تُعلَّم النماذج الصغيرة بشكل متزايد بواسطة النماذج الأكبر، بدلاً من الاضطرار إلى تصفح الإنترنت للتعلّم بنفسها. وتقول شركة Artificial Analysis المتخصصة في القياسات المرجعية، إن نموذجًا يحتوي على 9 مليارات معلمة يُدعى Nvidia Nemotron Nano، الذي أطلقته مؤخرًا شركة تصنيع الرقائق، يتفوق في مجموعة من الاختبارات على نموذج Llama الذي أصدرته شركة ميتا في أبريل، رغم أنه أكبر منه بأربعين مرة. وأصبح هذا “اللحاق” أمرًا روتينيًا. يقول موهيت أغراوال من شركة Counterpoint لأبحاث السوق التقنية: «النماذج الصغيرة اليوم أكثر قدرة من النماذج الضخمة للعام الماضي».
وقد جذب الأداء الأفضل زبائن الأعمال. وتقول شركة Gartner المتخصصة في توقعات تكنولوجيا المعلومات إن العيوب المعروفة في النماذج الضخمة، مثل «الهلوسة»، سببت حالة من «إرهاق المستخدمين». وبدلاً من ذلك، تريد الشركات نماذج أكثر تخصصًا، مُدرّبة على بيانات خاصة بقطاعات بعينها. ومن المتوقع أن ينمو الطلب المؤسسي عليها هذا العام بوتيرة ضعف ما هو عليه في حالة النماذج الضخمة، رغم أن حجم السوق أصغر بكثير. وعلى المدى البعيد، تتوقع Gartner أن تطور مزيد من هذه النماذج التخصصية داخل الشركات نفسها.
ومن بين أسباب تزايد شعبية النماذج الصغيرة أيضًا العوامل الاقتصادية. فقد انتقلت الشركات من سياسة “الإنفاق مهما كلّف الأمر” التي تبنّتها في بدايات الذكاء الاصطناعي التوليدي، إلى تركيز أكبر على العائد على الاستثمار. فبينما قد تستمر في استخدام النماذج الضخمة لعدد من المهام، يمكنها إنجاز الأعمال الأبسط بالنماذج الصغيرة. وكما شبّه أحد كبار المستثمرين في رأس المال المغامر: قد تحتاج إلى طائرة بوينغ 777 للسفر من سان فرانسيسكو إلى بكين، لكن ليس من سان فرانسيسكو إلى لوس أنجلوس. «استخدام أضخم النماذج في كل المشاكل لا معنى له».
ولتوضيح الجانب الاقتصادي، يشير كوكس من IBM إلى منتج طوّرته شركته يُسمى Docling يحوّل ملفات PDF، مثل الإيصالات، إلى بيانات قابلة للتخزين. ويعمل على نموذج «متناهي الصغر» بحوالي 250 مليون معلمة فقط. ويصفه بأنه أداة مفيدة، لكنها لن تكون فعّالة من حيث التكلفة لو جرى تشغيلها على نموذج ضخم. كما يمكن للنماذج الصغيرة أن تعمل على أنواع أرخص من الرقائق. إذ يمكن أصغرها أن يعمل على وحدات المعالجة المركزية (CPUs)، وهي عماد الحوسبة التقليدية، بدلاً من وحدات معالجة الرسوميات (GPUs) التي جعلت إنفيديا الشركة الأعلى قيمة في العالم. وهذا قد يمثل نقطة بيع مهمة؛ إذ يصف كوكس وحدات GPU بأنها «سيارات فيراري متطلبة دومًا في الورشات».
وقد تصبح النماذج الصغيرة أكثر جاذبية مع نشر الشركات مزيدًا من وكلاء الذكاء الاصطناعي. ففي ورقة بحثية لم يُلتفت إليها كثيرًا، نشرها قسم الأبحاث في إنفيديا في يونيو، ورد بجرأة أنّ «النماذج اللغوية الصغيرة، لا الكبيرة، هي مستقبل الذكاء الاصطناعي القائم على الوكلاء». وأشارت الورقة إلى أنّ معظم الوكلاء اليوم يعتمدون على نماذج ضخمة تستضيفها خدمات سحابية، لكن النماذج الصغيرة كافية لإنجاز المهام وبكلفة أقل (إذ يمكن لنموذج بحجم 7 مليارات معلمة أن يكون أرخص بعشر إلى ثلاثين مرة من نموذج يفوقه حتى 25 مرة). وتوقعت الورقة أن يقود ذلك إلى مقاربة «ليغو» في بناء الوكلاء، بحيث تستخدم الشركات خبراء صغارًا متخصصين بدلًا من ذكاء ضخم أحادي.
مع ذلك، تقول كاري بريسكي، وهي مديرة تنفيذية كبيرة في إنفيديا، إن الورقة لا تعبّر عن الاستراتيجية الرسمية للشركة، مؤكدة أن العملاء يحتاجون نماذج «بأشكال وأحجام مختلفة». فالنماذج الأكبر تبقى أقدر على التعامل مع أصعب المهام. كما أنّ مواصلة دفع حدود النماذج الضخمة يظل مهمًا لأنها تُحسّن من دورها كمعلمين للنماذج الصغيرة.
سواء أزاحت النماذج الصغيرة نظيراتها الضخمة أم لا، فإن التنوّع في تزايد. فالنماذج الضخمة “الكلية المعرفة” ستظل مهمة للتطبيقات الاستهلاكية مثل ChatGPT. لكن حتى OpenAI نفسها بدأت تركّز أكثر على المرونة؛ إذ يحتوي GPT-5 على نماذج داخلية بأحجام وقوى مختلفة يستخدمها تبعًا لتعقيد المهمة.
ومع تطوّر النماذج الصغيرة، قد تحسّن أيضًا من سمعة الذكاء الاصطناعي على الأجهزة. فقد خيّبت آبل آمال المستثمرين عندما أطلقت «Apple Intelligence»، عرضها الخاص بالذكاء الاصطناعي، العام الماضي لأنه لم يعمل بكفاءة. وهبطت أسهمها في التاسع من سبتمبر بعد إطلاق iPhone 17 جزئيًا لغياب أخبار عن تقدّم في هذا المجال. لكن مقاربتها باستخدام النماذج الصغيرة لإنجاز بعض المهام على الهاتف بينما تُترك المهام الأصعب للسحابة قد تكون هي مستقبل التقنية، كما يرى أغراوال من Counterpoint. ويضيف: رغم أنّ آبل ربما «فاتتها السفينة» في المراحل المبكرة من سباق الذكاء الاصطناعي، فإنها «ستتمكن دائمًا من ركوب السفينة التالية».
في الوقت الراهن، يبقى معظم الاهتمام منصبًا على النماذج الضخمة. فعمالقة السحابة مثل مايكروسوفت وغوغل طوّروا نماذج صغيرة للغاية، لكن الاعتقاد بأن الوضع الراهن سيستمر ساعد في تبرير المليارات التي ينفقونها على مراكز البيانات لتدريب واستضافة أضخم النماذج. وقد يكون هذا قصير النظر. فبالنظر إلى مزايا النماذج الصغيرة، قد تثبت استراتيجية آبل البطيئة أنها صائبة على المدى البعيد.
إن وتيرة التقدّم البطيئة في حدود الذكاء الاصطناعي التوليدي علامة على أنّ النماذج اللغوية الضخمة لا ترقى إلى مستوى الضجيج الذي أُثير حولها. وربما الأهم من ذلك هو بروز بدائل أصغر وأكثر مرونة، بدأت تلقى قبولًا في عالم الشركات. إذ يفضّل كثير من الشركات نماذج مصممة خصيصًا لحاجاتها. هذه النماذج، التي تُعرف بالنماذج اللغوية الصغيرة (SLMs)، أقل تكلفة من النماذج العمومية الضخمة التي قد تبدو قدراتها “الإلهية” فائضة عن الحاجة. كما يوضح ديفيد كوكس، رئيس أبحاث نماذج الذكاء الاصطناعي في شركة IBM: «روبوت الدردشة الخاص بالموارد البشرية لا يحتاج إلى معرفة متقدمة في الفيزياء».
فضلًا عن سهولة تشغيلها على أنظمة تكنولوجيا المعلومات الداخلية للشركات كما على خدمات الحوسبة السحابية، قد تكون النماذج الصغيرة أكثر فائدة في مجال وكلاء الذكاء الاصطناعي الذين يؤدون مهامًا متعلقة بالعمل إلى جانب البشر أو بدلاً منهم. وصغر حجمها يجعلها مناسبة بشكل خاص للهواتف الذكية والسيارات ذاتية القيادة والروبوتات والأجهزة الأخرى التي تُعطى فيها أولوية للكفاءة في استهلاك الطاقة والسرعة. وإذا استمرت في أن تصبح أكثر موثوقية، فقد تثبت صحة قرار آبل وشركات الأجهزة الأخرى بعدم الانجرار وراء استثمارات ضخمة في النماذج السحابية العملاقة.
لا يوجد تعريف دقيق لما يميز النماذج الصغيرة عن الكبيرة؛ فالأمر يتوقف على عدد «المعلمات» أي الإعدادات العددية في “دماغ” النموذج التي تساعده على فهم البيانات. تمتد النماذج الضخمة إلى مئات المليارات من المعلمات، في حين قد تحتوي النماذج الصغيرة على 40 مليارًا أو أقل، وصولًا إلى أقل من مليار في حالة النماذج المتناهية الصغر.
وقد ساعدت تحسينات التدريب هذه النماذج الصغيرة على اللحاق بقدرات النماذج الضخمة. إذ تُعلَّم النماذج الصغيرة بشكل متزايد بواسطة النماذج الأكبر، بدلاً من الاضطرار إلى تصفح الإنترنت للتعلّم بنفسها. وتقول شركة Artificial Analysis المتخصصة في القياسات المرجعية، إن نموذجًا يحتوي على 9 مليارات معلمة يُدعى Nvidia Nemotron Nano، الذي أطلقته مؤخرًا شركة تصنيع الرقائق، يتفوق في مجموعة من الاختبارات على نموذج Llama الذي أصدرته شركة ميتا في أبريل، رغم أنه أكبر منه بأربعين مرة. وأصبح هذا “اللحاق” أمرًا روتينيًا. يقول موهيت أغراوال من شركة Counterpoint لأبحاث السوق التقنية: «النماذج الصغيرة اليوم أكثر قدرة من النماذج الضخمة للعام الماضي».
وقد جذب الأداء الأفضل زبائن الأعمال. وتقول شركة Gartner المتخصصة في توقعات تكنولوجيا المعلومات إن العيوب المعروفة في النماذج الضخمة، مثل «الهلوسة»، سببت حالة من «إرهاق المستخدمين». وبدلاً من ذلك، تريد الشركات نماذج أكثر تخصصًا، مُدرّبة على بيانات خاصة بقطاعات بعينها. ومن المتوقع أن ينمو الطلب المؤسسي عليها هذا العام بوتيرة ضعف ما هو عليه في حالة النماذج الضخمة، رغم أن حجم السوق أصغر بكثير. وعلى المدى البعيد، تتوقع Gartner أن تطور مزيد من هذه النماذج التخصصية داخل الشركات نفسها.
ومن بين أسباب تزايد شعبية النماذج الصغيرة أيضًا العوامل الاقتصادية. فقد انتقلت الشركات من سياسة “الإنفاق مهما كلّف الأمر” التي تبنّتها في بدايات الذكاء الاصطناعي التوليدي، إلى تركيز أكبر على العائد على الاستثمار. فبينما قد تستمر في استخدام النماذج الضخمة لعدد من المهام، يمكنها إنجاز الأعمال الأبسط بالنماذج الصغيرة. وكما شبّه أحد كبار المستثمرين في رأس المال المغامر: قد تحتاج إلى طائرة بوينغ 777 للسفر من سان فرانسيسكو إلى بكين، لكن ليس من سان فرانسيسكو إلى لوس أنجلوس. «استخدام أضخم النماذج في كل المشاكل لا معنى له».
ولتوضيح الجانب الاقتصادي، يشير كوكس من IBM إلى منتج طوّرته شركته يُسمى Docling يحوّل ملفات PDF، مثل الإيصالات، إلى بيانات قابلة للتخزين. ويعمل على نموذج «متناهي الصغر» بحوالي 250 مليون معلمة فقط. ويصفه بأنه أداة مفيدة، لكنها لن تكون فعّالة من حيث التكلفة لو جرى تشغيلها على نموذج ضخم. كما يمكن للنماذج الصغيرة أن تعمل على أنواع أرخص من الرقائق. إذ يمكن أصغرها أن يعمل على وحدات المعالجة المركزية (CPUs)، وهي عماد الحوسبة التقليدية، بدلاً من وحدات معالجة الرسوميات (GPUs) التي جعلت إنفيديا الشركة الأعلى قيمة في العالم. وهذا قد يمثل نقطة بيع مهمة؛ إذ يصف كوكس وحدات GPU بأنها «سيارات فيراري متطلبة دومًا في الورشات».
وقد تصبح النماذج الصغيرة أكثر جاذبية مع نشر الشركات مزيدًا من وكلاء الذكاء الاصطناعي. ففي ورقة بحثية لم يُلتفت إليها كثيرًا، نشرها قسم الأبحاث في إنفيديا في يونيو، ورد بجرأة أنّ «النماذج اللغوية الصغيرة، لا الكبيرة، هي مستقبل الذكاء الاصطناعي القائم على الوكلاء». وأشارت الورقة إلى أنّ معظم الوكلاء اليوم يعتمدون على نماذج ضخمة تستضيفها خدمات سحابية، لكن النماذج الصغيرة كافية لإنجاز المهام وبكلفة أقل (إذ يمكن لنموذج بحجم 7 مليارات معلمة أن يكون أرخص بعشر إلى ثلاثين مرة من نموذج يفوقه حتى 25 مرة). وتوقعت الورقة أن يقود ذلك إلى مقاربة «ليغو» في بناء الوكلاء، بحيث تستخدم الشركات خبراء صغارًا متخصصين بدلًا من ذكاء ضخم أحادي.
مع ذلك، تقول كاري بريسكي، وهي مديرة تنفيذية كبيرة في إنفيديا، إن الورقة لا تعبّر عن الاستراتيجية الرسمية للشركة، مؤكدة أن العملاء يحتاجون نماذج «بأشكال وأحجام مختلفة». فالنماذج الأكبر تبقى أقدر على التعامل مع أصعب المهام. كما أنّ مواصلة دفع حدود النماذج الضخمة يظل مهمًا لأنها تُحسّن من دورها كمعلمين للنماذج الصغيرة.
سواء أزاحت النماذج الصغيرة نظيراتها الضخمة أم لا، فإن التنوّع في تزايد. فالنماذج الضخمة “الكلية المعرفة” ستظل مهمة للتطبيقات الاستهلاكية مثل ChatGPT. لكن حتى OpenAI نفسها بدأت تركّز أكثر على المرونة؛ إذ يحتوي GPT-5 على نماذج داخلية بأحجام وقوى مختلفة يستخدمها تبعًا لتعقيد المهمة.
ومع تطوّر النماذج الصغيرة، قد تحسّن أيضًا من سمعة الذكاء الاصطناعي على الأجهزة. فقد خيّبت آبل آمال المستثمرين عندما أطلقت «Apple Intelligence»، عرضها الخاص بالذكاء الاصطناعي، العام الماضي لأنه لم يعمل بكفاءة. وهبطت أسهمها في التاسع من سبتمبر بعد إطلاق iPhone 17 جزئيًا لغياب أخبار عن تقدّم في هذا المجال. لكن مقاربتها باستخدام النماذج الصغيرة لإنجاز بعض المهام على الهاتف بينما تُترك المهام الأصعب للسحابة قد تكون هي مستقبل التقنية، كما يرى أغراوال من Counterpoint. ويضيف: رغم أنّ آبل ربما «فاتتها السفينة» في المراحل المبكرة من سباق الذكاء الاصطناعي، فإنها «ستتمكن دائمًا من ركوب السفينة التالية».
في الوقت الراهن، يبقى معظم الاهتمام منصبًا على النماذج الضخمة. فعمالقة السحابة مثل مايكروسوفت وغوغل طوّروا نماذج صغيرة للغاية، لكن الاعتقاد بأن الوضع الراهن سيستمر ساعد في تبرير المليارات التي ينفقونها على مراكز البيانات لتدريب واستضافة أضخم النماذج. وقد يكون هذا قصير النظر. فبالنظر إلى مزايا النماذج الصغيرة، قد تثبت استراتيجية آبل البطيئة أنها صائبة على المدى البعيد.