في 24 مارس 2026، كشفت أبحاث جوجل رسميًا عن TurboQuant - تقنية ضغط ثورية للذكاء الاصطناعي تعمل على ضغط ذاكرة التخزين المؤقت للقيمة الرئيسية (KV Cache) المستخدمة أثناء الاستدلال على النماذج اللغوية الكبيرة إلى 3-بت الدقة. وهذا يحقق تقليل استخدام الذاكرة بمقدار 6 أضعاف وما يصل إلى زيادة سرعة الاستدلال 8 مرات, كل ذلك دون أي خسارة في دقة النموذج. تسبب الإعلان في حدوث تقلبات فورية في سوق رقائق الذاكرة العالمية، حيث انخفض سعر سهم شركة Micron Technology، كما عانى اللاعبون الرئيسيون مثل Samsung و SK Hynix، وخسروا مجتمعين أكثر من $90 مليار دولار من القيمة السوقية. ما الذي يجعل هذه التكنولوجيا قوية للغاية؟ هل ستعطل حقاً صناعة التخزين؟ كيف ستعمل منتجات التخزين مثل أقراص SSDs, وDDR، و HBM تتطور؟
ما هو TurboQuant؟
TurboQuant هو خوارزمية التكميم الكمي المتجه عبر الإنترنت الخالية من التدريب وغير المتحيزة للبيانات التي طورتها Google للأبحاث. وهي مصممة خصيصًا لضغط ذاكرة التخزين المؤقت للقيمة الرئيسية (KV Cache) أثناء الاستدلال على النموذج اللغوي الكبير.
ذاكرة التخزين المؤقت KV هي بنية بيانات مؤقتة تخزّن معلومات السياق أثناء استدلال النموذج. وهي تنمو بشكل مستمر مع المحادثات الأطول، وتصبح عنق زجاجة حرج يحد من قدرة النموذج على التعامل مع التسلسلات النصية الطويلة. غالبًا ما تتطلب طرق الضغط التقليدية إعادة تدريب النموذج، أو مجموعات بيانات معايرة كبيرة، أو تخزينًا إضافيًا لمعلمات التكميم. يكمن اختراق TurboQuant في قدرته على تحقيق ضغط بدون فقدان من 16/32 بت إلى 3 بتات بدون أي تعديلات على النموذج، أو بيانات التدريب، أو أي تكاليف إضافية على الذاكرة، وهو حل “توصيل وتشغيل” حقيقي.
بنية الضغط على مرحلتين
إن الابتكار الأساسي لشركة TurboQuant هو إطار عمل الضغط على مرحلتين, التي تستخدم التحويلات الرياضية بدلاً من التكميم بالقوة الغاشمة لتحقيق توازن مثالي بين الكفاءة والدقة:
PolarQuant: هذه هي مرحلة الضغط الرئيسية، والتي تقوم بتحويل المتجهات عالية الأبعاد من الإحداثيات الديكارتية إلى الإحداثيات القطبية. تقوم أولاً بتطبيق دوران عشوائي على متجهات الإدخال لجعل توزيع البيانات أكثر اتساقًا. ثم يقوم بعد ذلك بتحليل كل متجه إلى نصف القطر (تمثِّل المقدار) و الزاوية (التي تمثل الاتجاه الدلالي)، مع تحديد الزاوية فقط. هذه العملية تلغي تمامًا الحاجة إلى تخزين معلمات التطبيع التي تتطلبها الطرق التقليدية.
QJL (تحويل جونسون-ليندنستراوس الكمي): هذه هي مرحلة التصحيح المتبقي. وتستخدم 1-بت (بت الإشارة) لتطبيق تصحيح غير متحيز للأخطاء الصغيرة التي تم إدخالها أثناء مرحلة PolarQuant، مما يضمن عدم المساس بدقة حساب الانتباه. تعمل هذه الخطوة على حل مشكلة تراكم الأخطاء الموجودة في طرق الضغط التقليدية، مما يجعل فقدان الدقة صفر في الدقة ممكن نظرياً.
هذا المزيج من “الضغط الرئيسي القوي + التصحيح المتبقي غير المتحيز” يسمح ل TurboQuant بتحقيق أداء في دقة 3 بت التي تضاهي أو حتى تتجاوز خطوط الأساس كاملة الدقة، وهي حقيقة تؤكدها المعايير القياسية مثل LongBench.
الميزات والمزايا الرئيسية
يبرز TurboQuant بين تقنيات الضغط بسبب أربع مزايا أساسية:
لا حاجة إلى تدريب أو ضبط دقيق: يمكن تطبيقه مباشرةً على النماذج الحالية (لاما، ميسترال، جيما، جيمّا، جيميني، إلخ) دون أي تعديلات أو إعادة تدريب، مما يسمح بالنشر الفوري.
بيانات غير متحيزة: أداؤه مستقل عن توزيع بيانات الإدخال، حيث يعمل بفعالية على جميع أنواع البيانات النصية والرمزية وبيانات الصور دون الحاجة إلى تحسينات خاصة بالسيناريو.
عدم وجود نفقات عامة: لا يتطلب تخزينًا إضافيًا لمعلمات التكميم وعوامل التطبيع وما إلى ذلك، وهو ما يتناقض تمامًا مع الطرق التقليدية.
الأمثل نظرياً: يوفر ضمانات تشويه شبه مثالية من الناحية الرياضية، مما يوفر إمكانية التنبؤ بالأداء الموثوق به للنشر على نطاق واسع.
غيمة فوق الهالة: مذكرة موجزة حول الجدل الأكاديمي
إلى جانب موجات الصدمة التي أحدثتها شركة TurboQuant في السوق، ظهر نزاع أكاديمي. في 27 مارس، قام جيانيانغ غاو، زميل ما بعد الدكتوراه في المعهد التقني الفدرالي السويسري الفدرالي العالي بزيورخ, زعم علنًا أن منهجية TurboQuant الأساسية تشبه إلى حد كبير منهجية RaBitQ, وهي خوارزمية نشرها في عام 2024 في SIGMOD. أشار جاو إلى أن ورقة فريق جوجل البحثية تجنبت مناقشة أوجه التشابه المنهجية، واستخفّت بنتائج RaBitQ النظرية باعتبارها “دون المستوى الأمثل” دون تبرير، واستخدمت مقارنات تجريبية غير عادلة (اختبار RaBitQ على وحدة معالجة مركزية أحادية النواة أثناء اختبار TurboQuant على وحدة معالجة رسومات A100).
وفقًا لجاو، تم إبلاغ فريق جوجل بهذه المشكلات عبر البريد الإلكتروني قبل إصدار الورقة البحثية. وبينما أقرّ فريق جوجل ببعض المشاكل، إلا أنهم وعدوا بإجراء التصحيحات بعد المؤتمر، كما ورد أنهم وعدوا فقط بإجراء التصحيحات بعد المؤتمر ونفوا أوجه التشابه التقنية. اعتبارًا من 31 مارس الماضي، قام فريق RaBitQ بـ نشر تعليقًا عامًا على ICLR OpenReview وتقدمت بشكوى رسمية إلى لجنة أخلاقيات المؤتمر الدولي لأخلاقيات مهنة المحاماة. هذا الجدل بمثابة تذكير: لا تزال القيمة التقنية لبرنامج TurboQuant تتطلب وقتًا للتحقق من صحتها بالكامل، كما أن قضايا السلوك الأكاديمي المعنية جديرة بالملاحظة بنفس القدر.
التأثير المحتمل على صناعة التخزين
نظرة عقلانية على رد فعل السوق
كان الانخفاض الحاد في أسهم رقاقات التخزين بعد إعلان TurboQuant أكثر من رد فعل مبالغ فيه مدفوعًا بمشاعر السوق من التقييم المنطقي. لفهم التأثير الحقيقي، من المهم أولاً تعريف TurboQuant أولاً نطاق التأثير:
يؤثر فقط على الاستدلال: ليس له أي تأثير على عملية تدريب النموذج، وهو سيناريو الطلب الأساسي للذاكرة المتطورة مثل HBM.
ضغط ذاكرة التخزين المؤقت KV فقط: لا تتأثر أوزان النماذج والتفعيلات والبيانات الأساسية الأخرى. هذه تمثل المستهلكين الأساسيين لموارد التخزين.
مفارقة المكاسب الناتجة عن الكفاءة: تشير التجربة التاريخية إلى أن التحسينات في الكفاءة الحسابية غالبًا ما تؤدي إلى تطبيقات على نطاق أوسع، مما قد يؤدي إلى زيادة الطلب الكلي على التخزين بدلاً من خفضه (مفارقة جيفونز).
التأثيرات المحتملة على أقراص SSD وDDR وHBM
قد يكون لدى TurboQuant ذاكرة DDR مزدوجة التأثير. فمن ناحية، يقلل من الاعتماد على HBM من خلال تمكين تخزين ذاكرة التخزين المؤقت KV بشكل أكثر فعالية من حيث التكلفة في DDR5/DDR6 بدلاً من طلب HBM باهظ الثمن. وهذا يخلق فرصًا جديدة لعرض النطاق الترددي العالي DDR5-8800+ و DDR6 المستقبلي, مما يجعلها بديلاً فعّالاً من حيث التكلفة لذاكرة HBM في خوادم الذكاء الاصطناعي. من ناحية أخرى، تعمل TurboQuant على تسريع اعتماد تقنية توسيع الذاكرة CXL. من خلال تجميع ذاكرة DDR عبر CXL، يمكن لخوادم الذكاء الاصطناعي تخصيص موارد الذاكرة بشكل أكثر مرونة للتعامل مع مهام الاستدلال ذات الأحجام المختلفة، مما يعزز كفاءة استخدام DDR والطلب في السوق.
على عكس مخاوف السوق، من المحتمل أن يكون TurboQuant تطورًا إيجابيًا كبيرًا لمضغوطات الحالة الثابتة:
التخزين الفائض في السياق الطويل: عندما تتجاوز سعة ذاكرة التخزين المؤقت KV سعة الذاكرة، تصبح محركات أقراص الحالة الصلبة منخفضة الكمون وعالية التحمل (مثل وضع pSLC، NVMe 4.0/5.0) ذاكرة تخزين مؤقت ثانوية مثالية، مما يزيد الطلب بشكل كبير على أداء وسعة محركات أقراص الحالة الصلبة من فئة المؤسسات.
توسيع قاعدة بيانات المتجهات: سيؤدي الاعتماد المتزايد على أنظمة الجيل المعزز للاسترجاع (RAG)، مدفوعًا بـ TurboQuant، إلى زيادة نمو قواعد البيانات المتجهة، والتي تعتمد بشكل كبير على محركات أقراص الحالة الصلبة عالية الأداء للتخزين الأساسي.
نشر الذكاء الاصطناعي المتطور: يجعل TurboQuant من الممكن تشغيل نماذج الذكاء الاصطناعي على أجهزة من فئة المستهلك، مما يوسع سوق محركات أقراص الحالة الصلبة من جانب العميل، ولا سيما زيادة الطلب على الطاقة المنخفضة والأداء العالي أقراص الحالة الصلبة M.2 SSDs.
يبدو أن ذعر السوق بشأن HBM مبالغ فيه:
التمييز الواضح بين التدريب والاستدلال: يؤثر TurboQuant فقط على ذاكرة التخزين المؤقت KV Cache أثناء الاستدلال. لا تزال متطلبات عرض النطاق الترددي لتدريب النماذج على HBM غير منقوصة؛ وتظل HBM مطلبًا أساسيًا لتدريب النماذج فائقة الحجم.
تخزين وزن الطراز غير متأثر: لا يتم ضغط أوزان النماذج، التي تمثل أكثر من 90% من استهلاك ذاكرة الذكاء الاصطناعي، بواسطة TurboQuant. يظل دور HBM كوسيط أساسي لتخزين هذه الأوزان آمنًا.
تحسين البنية الهجينة: تسمح TurboQuant بتخصيص موارد HBM بشكل أكثر كفاءة لمهام الحوسبة الحرجة، مما يعزز تطوير بنيات التخزين الهجينة التي تجمع بين HBM وDDR وSD، بدلاً من الاستبدال البسيط.
نموذج جديد محتمل للبنية التحتية للذكاء الاصطناعي
لا تكمن القيمة الحقيقية ل TurboQuant في “القضاء” على نوع معين من التخزين، ولكن في إعادة تشكيل بنية طبقات التخزين للبنية التحتية للذكاء الاصطناعي، مما يؤدي إلى إنشاء تسلسل هرمي أكثر كفاءة واقتصادًا للذاكرة والتخزين.
نظام جديد للتدفق الذكي للبيانات
من المرجح أن تتميز بنيات تخزين خوادم الذكاء الاصطناعي المستقبلية بهرم واضح من ثلاث طبقات:
المستوى الأعلى - HBM: مسؤولة عن تخزين البيانات الحسابية الأساسية مثل أوزان النماذج والتنشيطات، وتلبية متطلبات النطاق الترددي المكثف لمهام التدريب والاستدلال.
المستوى الأوسط - نزع السلاح والتسريح وإعادة الإدماج: يعمل كحامل أساسي لذاكرة التخزين المؤقت KV Cache. بالاستفادة من كفاءة ضغط TurboQuant، سيصبح DDR5/DDR6 ذاكرة العمود الفقري لسيناريوهات الاستدلال.
المستوى السفلي - SSD: يتعامل مع تجاوز السياق الطويل، وقواعد البيانات المتجهة، ونقاط التحقق من النماذج. ستواجه محركات الأقراص ذات الحالة الثابتة للمؤسسات ذات الكمون المنخفض والتحمل العالي فرص نمو جديدة.
جوهر هذه البنية المتدرجة هو التنسيب الذكي للبيانات - نقل البيانات ديناميكيًا بين المستويات بناءً على تردد الوصول ومتطلبات زمن الوصول وتكلفة التخزين لتحقيق التوازن الأمثل بين الأداء والتكلفة.
ظهور التخزين المعرّف بالبرمجيات
قد يسرّع TurboQuant من اعتماد التخزين المعرّف بالبرمجيات (SDS) في الذكاء الاصطناعي، لا سيما في المجالات التالية:
أنظمة إدارة الذاكرة: سيصبح برنامج الإدارة الذي يمكنه مراقبة حجم ذاكرة التخزين المؤقت للذاكرة المؤقتة KV في الوقت الفعلي ويقرر بذكاء ما إذا كان سيتم الاحتفاظ بالبيانات في HBM أو DDR أو تجاوزها إلى محركات أقراص الحالة الصلبة SSD مكونًا قياسيًا للبنية التحتية للذكاء الاصطناعي.
تجميع الذاكرة CXL تجميع ذاكرة CXL: سيوفر تجميع موارد ذاكرة DDR من خوادم متعددة عبر بروتوكول CXL موارد ذاكرة قابلة للتطوير بشكل مرن لمجموعات الذكاء الاصطناعي، مما يقلل من متطلبات سعة HBM لكل خادم فردي.
التخزين المدرك للضغط: ستبدأ أجهزة التخزين في دعم خوارزميات الضغط مثل TurboQuant، مما يتيح ضغط البيانات وفك ضغطها بسرعة على مستوى الأجهزة لتحسين كفاءة النظام بشكل عام.
إن إطلاق TurboQuant ليس نذير شؤم على صناعة التخزين، بل هو نذير شؤم على صناعة التخزين، بل هو نقطة انطلاق جديدة لتحقيق تكامل أعمق بين التخزين والذكاء الاصطناعي. لن “يلغي” ببساطة نوعًا معينًا من منتجات التخزين. بدلاً من ذلك، من خلال طفرة ثورية في تكنولوجيا الضغط، ستدفع صناعة التخزين نحو مزيد من الكفاءة والذكاء. وهذا يعني أن خدمات الذكاء الاصطناعي المستقبلية ستكون قادرة على التعامل مع النصوص الأطول، وتقديم إجابات أكثر دقة، مع احتمال تقليل تكاليف الأجهزة. لا تتعلق الثورة التكنولوجية الحقيقية أبدًا بالاستبدال البسيط، ولكن بتحقيق قفزة في كفاءة استخدام الموارد من خلال الابتكار، وبالتالي فتح الأبواب أمام تطبيقات أوسع.





