انتقل إلى المحتوى

جي بي تي-جي

من ويكيبيديا، الموسوعة الحرة

جي بي تي-جي أو جي بي تي-جي-6 بي هو نموذج لغوي كبير مفتوح المصدر طوّرته شركة إليوثر آي كمحول مولد مسبق التدريب مُصمَّم لإنتاج نصٍّا يحاكي المحادثات البشرية، ويستمرُّ من مُوجِّه. ويشير الرمز "6بي" المُستخدم في الاسم إلى احتوائه على ٦ مليار مُعامِل. أطلقت شركة إليوثر آي النموذج لأول مرة في 9 يونيو (حزيران) 2021،[1] وأتاحته للاستخدام على غيت هاب، قبل أن يتوقف تطويره في عام ٢٠٢١،[2] وتتوقف واجهة الويب عن التواصل معه.[3]

البنية

[عدل]

يحتوي نموذج جي بي تي-جي على 6 مليار مُعاملًا، وهو محول قريب الشبه بنموذج المحول المولد مسبق التدريب 3،[4] إذ يُعتبر مُحوِّلًا انحداريًا ذاتيًا، يعتمد على مُفكِّك التشفير فقط كما هو الحال في المحول المولد مسبق التدريب 3، كما أنّه مُصمَّم لحل مهام معالجة اللغة الطبيعية من خلال التنبؤ بكيفية استرسال نص ما.[1] ومع هذا فإن نموذج جي بي تي-جي يختلف عن المحول المولد مسبق التدريب 3 في ثلاثة جوانب رئيسية، وهي:[1]

  • حُسبت الشبكة العصبية للانتباه والتغذية الأمامية بالتوازي أثناء التدريب، مما جعل محول جي بي تي-جي يتمتع بكفاءة أكبر.
  • استخدم نموذج جي بي تي-جي تضمينات موضعية دوارة، والتي وُجد أنها طريقة مُتفوقة لحقن معلومات الموضع في المُحوِّلات.[5][6]
  • استخدم جي بي تي-جي الانتباه الكثيف بدلاً من الانتباه المُتفرق الفعال المُستخدم في المحول المولد مسبق التدريب 3.

يحتوي نموذج جي بي تي-جي، بالإضافة غلى ذلك، على 28 طبقة مُحوِّل و16 رأس انتباه. يبلغ حجم مُفرداته 50257 رمزًا، وهو نفس حجم مُفردات المحول المولد مسبق التدريب 2،[2] كما يبلغ حجم نافذة السياق له 2048 رمزًا.[7] دُرب نموذج جي بي تي-جي على مجموعة كومة البيانات،[2][4] باستخدام مكتبة محول الشبكة في جوجل جاكس للتعامل مع مخطط التوازي.[2][8]

الأداء

[عدل]

صُمم جي بي تي-جي لتوليد النصوص باللغة الإنجليزية فقط من خلال موجه، ولم يُصمم لترجمة أو توليد نصوص بلغات أخرى، أو لتحسين الأداء دون ضبط دقيق للنموذج أولًا لآداء مهمة محددة.[2] وعلى الرغم من ذلك، فإن جي بي تي-جي يعمل بشكل جيد في مهام الترجمة حتى بدون ضبط دقيق.[9] يُقدم جي بي تي-جي في حال عدم الضبط أداءًا يُضاهي أداء نموذج كوري من المحول المولد مسبق التدريب 3، والذي يحتوي على 6.7 مليار معامل، في مجموعة متنوعة من المهام،[4] بل يتفوق أداء جي بي تي-جي على أداء نموذج دافنشي من المحول المولد مسبق التدريب 3 المحتوي على 175 مليار معامل في مهام توليد الرموز.[10] وبفضل الضبط الدقيق، يُمكن لنموذج جي بي تي-جي أن يتفوق على نموذج دافنشي غير المضبوط في عدد من المهام.[1] تكمن واحدة من أهم نقاط ضعف جي بي تي-جي في كونه، مثل جميع النماذج اللغوية الكبيرة، غير مصمّمًا لتقديم معلومات دقيقة، ولكنه مبرمج لتوليد النصوص استنادًا إلى الاحتمالات فقط.[2]

التطبيقات

[عدل]

يتوفر نموذج جي بي تي-جي غير المضبوط على الموقع الإلكتروني الرسمي لشركة إليوثر آي،[11] وهو متاح أيضًا من خلال خادم تريتون إنفرنس الخاص بشركة إنفيديا،[12] ومتوفر على موقع إن إل بي كلاود الإلكتروني.[13] تقدم شركة سيريبراس[1] وخدمات أمازون ويب[14][15] خدمات لضبط نموذج جي بي تي-جي بدقة لتمكينه من آداء مهام خاصة بالشركة، كما تقدم شركة غرافكور خدمات الضبط الدقيق والاستضافة أيضًا لنموذج جي بي تي-جي غير المضبوط، بالإضافة إلى استضافة النماذج المضبوطة بدقة بعد إنتاجها.[16] وتقدم شركة كورويف خدمات الاستضافة لنموذج جي بي تي-جي غير المضبوط وكذلك لنماذج جي بي تي-جي المضبوطة بدقة.[17][18]

أصدرت شركة داتابريكس في مارس (آذار) 2023 نموذج دوللي، وهو نموذج مرخص برخصة أباتشي، ويعتمد على اتباع التعليمات. أنشئ نموذج دوللي من خلال الضبط الدقيق لنموذج جي بي تي-جي باستخدام مجموعة بيانات لاما.[19] ويُعد نموذجا سيغورد[20] وغينجي-جي بي 6 بي[21] المملوكين لشركة نوفيل أيه آي نسختين مُعدّلتين من نموذج جي بي تي-جي. كما يوفران خدمات ضبط دقيقة إضافية لإنتاج واستضافة نماذج مخصصة.[22]

حظيت شركة إليوثر آي بإشادة من العديد من الشركات والمؤسسات والمواقع الإلترونية وخدمات وعلى رأسها سيريبراس،[1] وجي بي تي ديمو،[4] وإن إل بي كلاود،[13] وداتابريكس[19] لجعلها نموذج جي بي تي-جي نموذجا مفتوح المصدر، وعادةً ما يُشار إلى كونه مفتوح المصدر كميزة رئيسية عند اختيار النموذج المُراد استخدامه.[10][16][23]

مراجع

[عدل]
  1. ^ ا ب ج د ه و Vassilieva، Natalia (22 يونيو 2022). "Cerebras Makes It Easy to Harness the Predictive Power of GPT-J". Cerebras. مؤرشف من الأصل في 2024-07-17. اطلع عليه بتاريخ 2023-06-14.
  2. ^ ا ب ج د ه و "GPT-J 6B". هجينج فيس. 3 مايو 2023. مؤرشف من الأصل في 2025-05-12. اطلع عليه بتاريخ 2023-06-13.
  3. ^ Wang، Ben (25 يناير 2025)، kingoflolz/mesh-transformer-jax، مؤرشف من الأصل في 2025-05-13، اطلع عليه بتاريخ 2025-01-27
  4. ^ ا ب ج د "GPT-J". GPT-3 Demo. مؤرشف من الأصل في 2025-03-13. اطلع عليه بتاريخ 2023-06-13.
  5. ^ Biderman، Stella؛ Black، Sid؛ Foster، Charles؛ Gao، Leo؛ Hallahan، Eric؛ He، Horace؛ Wang، Ben؛ Wang، Phil (20 أبريل 2021). "Rotary Embeddings: A Relative Revolution". إليوثر آي. مؤرشف من الأصل في 2025-05-13. اطلع عليه بتاريخ 2023-06-14. In general we have found that across a large suite of setups including regular, linear, and local self-attention, it either matches or surpasses all other methods currently available for injecting positional information into transformers.
  6. ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2104.09864.
  7. ^ "GPT-J". غيت هاب. هجينج فيس. مؤرشف من الأصل في 2025-05-06. اطلع عليه بتاريخ 2023-06-23.
  8. ^ Wang، Ben؛ Komatsuzaki، Aran (مايو 2021). "Mesh Transformer JAX". غيت هاب. مؤرشف من الأصل في 2025-05-13. اطلع عليه بتاريخ 2023-06-13.
  9. ^ Forefront (14 أكتوبر 2021). "GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront". Medium. Forefront. مؤرشف من الأصل في 2023-06-14. اطلع عليه بتاريخ 2023-06-13.
  10. ^ ا ب "GPT-J Reviews". سلاش دوت. مؤرشف من الأصل في 2025-01-30. اطلع عليه بتاريخ 2023-06-23.
  11. ^ "Test the EAI models". إليوثر آي. 2021. مؤرشف من الأصل في 2025-05-13. اطلع عليه بتاريخ 2023-06-30.
  12. ^ Timonin، Denis؛ Hsueh، Bo Yang؛ Singal، Dhruv؛ Nguyen، Vinh (3 أغسطس 2022). "Deploying GPT-J and T5 with NVIDIA Triton Inference Server". NVIDIA. مؤرشف من الأصل في 2025-05-03. اطلع عليه بتاريخ 2023-06-30.
  13. ^ ا ب Vettier، Pauline (16 سبتمبر 2021). "NLP Cloud now supports GPT-J, the open-source GPT-3 alternative" (Press release). Grenoble, France: NLP Cloud. مؤرشف من الأصل في 2025-01-25. اطلع عليه بتاريخ 2023-06-30.
  14. ^ Awrahman، Zmnako؛ Tsitiridou، Anastasia Pachni؛ Patel، Dhawalkumar؛ Huilgol، Rahul؛ Bains، Roop؛ Stobieniecka، Wioletta (12 يونيو 2023). "Fine-tune GPT-J using an Amazon SageMaker Hugging Face estimator and the model parallel library". خدمات أمازون ويب. مؤرشف من الأصل في 2024-08-05. اطلع عليه بتاريخ 2023-06-30.
  15. ^ Schmid، Philipp (11 يناير 2022). "Deploy GPT-J 6B for inference using Hugging Face Transformers and Amazon SageMaker". هجينج فيس. مؤرشف من الأصل في 2024-05-30. اطلع عليه بتاريخ 2023-06-30.
  16. ^ ا ب Liguori، Sofia (9 يونيو 2023). "Fine-Tune GPT-J: A Cost-Effective GPT-4 Alternative for Many NLP Tasks". Graphcore. مؤرشف من الأصل في 2025-01-17. اطلع عليه بتاريخ 2023-06-23.
  17. ^ "GPT-J-6B". CoreWeave. 23 يونيو 2023. مؤرشف من الأصل في 2024-12-03. اطلع عليه بتاريخ 2023-06-30.
  18. ^ Hjelm، Max. "CoreWeave Powers a World of Possibility with GPT-J". CoreWeave. مؤرشف من الأصل في 2025-02-20. اطلع عليه بتاريخ 2023-06-30.
  19. ^ ا ب Conover، Mike؛ Hayes، Matt؛ Mathur، Ankit؛ Meng، Xiangrui؛ Xie، Jianwei؛ Wan، Jun؛ Ghodsi، Ali؛ Wendell، Patrick؛ Zaharia، Matei (24 مارس 2023). "Hello Dolly: Democratizing the magic of ChatGPT with open models". Databricks. مؤرشف من الأصل في 2025-05-02. اطلع عليه بتاريخ 2023-06-18.
  20. ^ NovelAI (9 مايو 2022). "The faces of NovelAI's AI Models: Part 1". Medium. مؤرشف من الأصل في 2023-07-01. اطلع عليه بتاريخ 2023-07-01.
  21. ^ NovelAI (3 نوفمبر 2021). "Data Efficient Language Transfer with GPT-J". Medium. مؤرشف من الأصل في 2022-10-05. اطلع عليه بتاريخ 2023-07-01.
  22. ^ NovelAI (29 يوليو 2021). "Introducing Custom AI Modules". Medium. اطلع عليه بتاريخ 2023-07-01.
  23. ^ Shiraly، Karthik (26 فبراير 2023). "See GPT-J vs. GPT-3 Go Head-to-Head on Popular Language Tasks". Width.ai. مؤرشف من الأصل في 2025-04-15. اطلع عليه بتاريخ 2023-06-23.