ماهو GPT-4 للوسائط المتعددة تعرف على الميزات الجديدة ، إدخال الصور ، كيفية الاستخدام والمزيد

أحدثت شركة OpenAI موجة هائلة عندما أطلقت GPT-4 الليلة الماضية. يُعد نموذج لغة الذكاء الاصطناعي من الجيل التالي تحسنًا ملحوظًا عن سابقه وهو قادر على أكثر من ذلك بكثير. إذا كنت تعرف شيئًا أو شيئين عن ChatGPT وبدائلها ، فأنت على دراية بالفعل بما يعنيه هذا بالنسبة لروبوتات الدردشة والذكاء الاصطناعي بشكل عام.

ومع ذلك ، بالنسبة لأولئك الذين ليسوا على دراية بنماذج اللغة أو GPT-4 على وجه الخصوص ، فإننا نساندك. لقد بحثنا عن مدونات OpenAI والإنترنت وقمنا برعاية دليل مخصص عن GPT-4.

لذلك إذا كنت شخصًا ليس لديه أدنى فكرة عن ذلك ، احصل على فنجان من القهوة واجلس بينما نخبرك بكل شيء عن نموذج الذكاء الاصطناعي هذا.

ما هو GPT-4 ؟

ببساطة ، GPT-4 هو أحدث نظام ذكاء اصطناعي لـ OpenAI في أنظمة نماذج اللغة الكبيرة للشركة (LLM). أنظمة نماذج اللغة ، بشكل عام ، هي أنظمة تحاول التنبؤ بالكلمة التالية في الجملة وإضافة مدخلاتها بذكاء إليها. يفعلون ذلك من خلال دراسة مجموعة بيانات كبيرة تمنحهم القدرة على تحديد الأنماط والتصرف بناءً عليها.

GPT-4 هو أحدث طراز في هذه السلسلة ومن المتوقع أن يكون تحسنًا كبيرًا مقارنة بطرازات الجيل السابق مثل GPT 3 و 3.5. هناك بعض الأشياء المحددة الأفضل في GPT-4 ، والتي سنناقشها بالتفصيل أدناه.

ومع ذلك ، هناك نقطة بسيطة يجب أن تفهمها وهي أن هذا النموذج الجديد سيعمل على تمكين برامج الدردشة مثل ChatGPT و MS Bing لتكون أكثر قدرة في استجاباتهم. لذلك يمكنك أن تتوقع منهم تقديم إجابات أفضل وتصميم أكثر إبداعًا وأداءً مختلفًا مع رسائل ChatGPT الأقدم والأحدث.

GPT-4 متعدد الوسائط

إذا كنت قد استخدمت نماذج GPT السابقة ، فقد تكون على دراية بقدرتها المحدودة على تفسير النص الذي تدخله فقط. ومع ذلك ، فإن أحد أحدث وأكبر التطبيقات في النموذج الجديد هو أنه متعدد الوسائط. هذا يعني أن GPT-4 قادر على قبول المطالبات لكل من النص والصور.

هذا لا يُترجم إلى تلقي الذكاء الاصطناعي للصورة فحسب ، بل يؤدي في الواقع إلى تفسيرها وفهمها. سيتم تطبيق هذا الفهم على المطالبات التي تتخللها مدخلات النص والرؤية. علاوة على ذلك ، ستنتشر القدرة متعددة الوسائط لـ GPT-4 عبر جميع أحجام وأنواع الصور والنصوص ، بما في ذلك المستندات التي تحتوي على نصوص وصور فوتوغرافية أو رسوم بيانية (مرسومة أو مرسومة يدويًا) أو لقطات شاشة. سيظل إخراج GPT-4 قادرًا كما هو الحال في المدخلات النصية فقط.

في بث مباشر للمطورين نظمته شركة OpenAI ، عرضت الشركة طبيعة GPT-4 متعددة الوسائط. تم تزويد GPT-4 بلقطة شاشة لنافذة Discord في الدفق وطُلب منها وصفها بتفاصيل مضنية.

استغرق النموذج ما يزيد قليلاً عن دقيقة وقدم استجابة وصفية ودقيقة للغاية. استحوذت الاستجابة على كل عنصر من عناصر شاشة الإدخال تقريبًا. من اسم الخادم في الزاوية العلوية اليسرى إلى القنوات الصوتية المختلفة وحتى تسمية جميع أعضاء Discord عبر الإنترنت في الجزء الأيمن ، استحوذ GPT-4 على كل شيء.

خضع GPT-4 لمزيد من الاختبارات حيث قدم الأشخاص العديد من الأعمال الفنية العشوائية ، بما في ذلك صور لسنجاب يحمل كاميرا. ثم طُلب من النموذج تحديد "ما هو المضحك في هذه الصورة". وأثار ذلك مرة أخرى ردًا يفيد بأن الصورة كانت مضحكة لأن السناجب عادة ما تأكل المكسرات ولا تتصرف مثل البشر. كما رأينا ، قدم مرة أخرى إجابة محددة للغاية مثل الإنسان.

ومع ذلك ، كما هو مذكور أعلاه ، فإن خصوصية النموذج تتجاوز لقطات الشاشة وإدخالات النص والصور من جميع الأنواع. عرض OpenAI نفس الشيء عندما التقط جريج صورة لنموذج بالحجم الطبيعي مرسوم باليد لموقع مزاح. ثم قام بتحميل نفس الملف إلى خادم Discord المتصل بواجهة برمجة التطبيقات لـ GPT-4. ثم طُلب من النموذج "كتابة شفرة HTML / JS مختصرة لتحويل الصفحة إلى موقع ويب واستبدال النكات بأخرى حقيقية".

بشكل مثير للدهشة ، قام GPT-4 بتجميع كود العمل لنفسه. عند اختباره ، أنتج موقعًا إلكترونيًا يعمل بكامل طاقته حيث يؤدي الضغط على الأزرار إلى كشف النكات. حقيقة أن نموذج ChatGPT يمكنه فك شفرة الكتابة اليدوية البشرية وإنشاء كود من مزيج من مدخلات النص والصورة أمر مذهل. تعد القدرة متعددة الوسائط لـ GPT-4 خطوة كبيرة في اتجاه الذكاء الاصطناعي لفهم المطالبات بشكل كامل وتقديم النتائج بدقة مثالية في الملعب.

على الرغم من عدم وجود أي عقبات كبيرة ، إلا أن شركة OpenAI ادعت أن السرعة شيء يمكن أن تستخدمه GPT-4 وقد يستغرق الأمر وقتًا. علاوة على ذلك ، لا تزال المدخلات المرئية لـ GPT-4 قيد معاينة البحث ولا تزال غير متاحة للجمهور.

كيف يكون GPT-4 أفضل من GPT 3.5 و GPT-3 ؟

إلى جانب نهجها متعدد الوسائط المذهل ، تأتي GPT-4 بها مجالات تحسين أخرى حيث لا يتفوق النموذج الجديد فقط على إخوته الأكبر سناً. بعض هذه المجالات هي:

1. فهم اسئلة دقيقة بشكل أفضل

تدعي شركة OpenAI أنه قد يكون من الصعب بالفعل رؤية الفرق بين GPT-4 و GPT-3.5 للوهلة الأولى. ومع ذلك ، تظهر قدرات الأول عندما تتعمق في التفاصيل. لإثبات الاختلاف ، تم وضع النموذج الجديد مقابل GPT-3.5 في مجموعة متنوعة من الاختبارات على المستوى البشري. استخدمت OpenAI أحدث الاختبارات المتاحة للجمهور ولم تقدم للنماذج أي تدريب محدد لذلك.

البيانات نفسها ترسم صورة أفضل مما يمكن أن نخبرك به. في جميع النتائج ، جاء GPT-4 في المقدمة وسجل أعلى من نسخته السابقة. بينما تم دفع الحد الأدنى بالكاد في بعض الاختبارات (مثل SAT EBRW) ، كانت هناك قفزة هائلة في الأداء في الاختبارات الأخرى (امتحان الشريط الموحد ، وكيمياء AP ، والمزيد).

صرحت شركة OpenAI بأن "GPT-4 هي أيضًا أكثر موثوقية وإبداعًا وقادرة بشكل عام على التعامل مع تعليمات أكثر دقة عند مقارنتها بـ GPT-3.5." هذا يترجم إلى أن يفهم الروبوت بشكل فعال المطالبات الأكثر تعقيدًا بسهولة.

2. تفسير مدخلات طويلة

بينما أحب الجميع GPT 3 و GPT 3.5 ، فقد تمنى الناس أن يتمكن من التعرف على مدخلات أطول. أدى إدخال GPT-4 إلى حل هذه المشكلة. يأتي نموذج اللغة GPT-4 AI الجديد بحد إدخال مذهل يبلغ 25000 كلمة ، وهو كبير بشكل كبير. بالنسبة للسياق ، اقتصر GPT 3.5 على 8000 كلمة.

هذا يعني أن المستخدمين سيكونون قادرين على إطعام الروبوت بمطالبات إدخال أطول بكثير ليقرأها ثم يعرض المخرجات منها. لذلك عندما يتم إطلاق GPT-4 أخيرًا ، يمكنك أن تتوقع تقديم استجابة أكثر تفصيلاً وأخذ مدخلات أطول دون مشاكل.

ما يعنيه هذا بالنسبة للمطورين هو أنك ستكون قادرًا على الشعور بواجهات برمجة تطبيقات جديدة ووثائق لروبوت الدردشة والحصول على مساعدة في كتابة التعليمات البرمجية أو إصلاح الأخطاء في الكود الموجود بسهولة أكبر.

3. يدعم العديد من اللغات

تم استخدام ChatGPT في الغالب من قبل المتحدثين باللغة الإنجليزية في جميع أنحاء العالم. ومع ذلك ، يأخذ GPT-4 اللغات الأخرى في الاعتبار. أظهر أحدث طراز دعمًا لأكثر من 26 لغة مختلفة. يتضمن ذلك أمثال اللغات الأوكرانية والكورية والجرمانية وغيرها الكثير.

اختبر OpenAI نفس الشيء من خلال ترجمة معايير MMLU إلى مجموعة متنوعة من اللغات. من بين 26 لغة ، يتفوق GPT-4 على أداء اللغة الإنجليزية لـ GPT-3.5 في 24 منها. ومع ذلك ، هناك المزيد من التدريب على البيانات الذي يتعين القيام به قبل أن تدعم GPT-4 جميع اللغات بشكل كامل.

4. شخصيات مختلفة

القابلية للتوجيه هي مفهوم يمكنك من خلاله توجيه الذكاء الاصطناعي للتصرف بطريقة معينة بنبرة خطاب ثابتة. وخير مثال على ذلك هو مطالبة ChatGPT بالتصرف مثل راعي البقر أو ضابط الشرطة (إسناد دور له كما فعلنا أثناء إنشاء برنامج chatbot الخاص بنا باستخدام واجهة برمجة تطبيقات ChatGPT).

تحصل GPT-4 على هذه القدرة على التوجيه ، لكن OpenAI الآن تجعل من الصعب على الذكاء الاصطناعي كسر الشخصية. يمكن للمطورين الآن إصلاح أسلوب الذكاء الاصطناعي الخاص بهم من البداية عن طريق وصف تلك الاتجاهات في رسالة "النظام". نظرًا لأنه من السهل كسر حماية هذه الرسائل ، تعمل OpenAI أيضًا على جعلها أكثر أمانًا.

من العروض التوضيحية التي عرضت OpenAI في منشور المدونة الخاص بها ، كان من المضحك جدًا رؤية المستخدم يحاول الحصول على GPT-4 للتوقف عن كونه مدرسًا سقراطيًا وإخبارهم فقط بالإجابة على استفسارهم. ومع ذلك ، نظرًا لأنه تمت برمجته ليكون مدرسًا ، رفض GPT-4 كسر الشخصية ، وهو نفس الشيء الذي يتوقعه العديد من المطورين عند تدريب الروبوتات الخاصة بهم في المستقبل.

التطبيقات الممكنة على GPT-4

في حين أن تطبيق GPT-4 متعدد الوسائط غير ممكن من قبل المستخدمين حتى الآن ، فقد تعاونت OpenAI بالفعل مع Be My Eyes ، وهو تطبيق مخصص لضعاف البصر. يمكّنك تضمين GPT-4 في التطبيق من التقاط صورة لما تراه وسيصف الذكاء الاصطناعي بالضبط ما يظهر على الشاشة ، بما في ذلك الفساتين والنباتات والآلات في صالة الألعاب الرياضية وقراءة الخرائط وغير ذلك الكثير.

دخلت GPT-4 أيضًا في شراكة مع تطبيقات أخرى مثل Duolingo و Khan Academy للتعلم الذكي وحتى حكومة أيسلندا للحفاظ على اللغة. بينما تتوفر واجهة برمجة تطبيقات GPT-4 حاليًا على أساس قائمة الانتظار ، يمكننا أن نتوقع من المطورين الخروج بتجارب مذهلة بمجرد إصدارها أخيرًا. حتى قبل حدوث ذلك ، فإن التطبيقات المذكورة أعلاه متاحة بالفعل ليستخدمها الأشخاص.

هل يوجد أي قيود على GPT-4 ؟

على الرغم من الإعلان عن GPT-4 كخطوة تالية في الذكاء الاصطناعي ، لا يزال لديها مطبات السرعة.

بالنسبة للمبتدئين ، تفتقر GPT-4 إلى المعرفة بأي معرفة عالمية بالأحداث التي وقعت بعد سبتمبر 2021. كما أن النموذج لا يتعلم من تجربته. يمكن أن يؤدي هذا إلى ارتكاب نموذج GPT-4 أخطاء منطقية ، بل إنه عرضة لقبول عبارات خاطئة واضحة من المستخدم.

يمكن أن يفشل GPT-4 أيضًا في المشكلات تمامًا مثل البشر. مثل GPT 3.5 ، يمكن للنموذج الجديد أيضًا أن يهلوس ويكون مخطئًا في تنبؤاته. قد يؤدي هذا إلى عدم مراجعة GPT-4 لعملها عند ارتكاب خطأ في بعض الأحيان.

على الرغم من ذلك ، تعد شركة OpenAI بأن GPT-4 قد تم تدريبه بشكل أفضل من النماذج السابقة لتجنب ذلك. في تقييمات الوقائع العدائية الداخلية للشركة ، سجل النموذج 35٪ أعلى مقارنة بـ GPT 3.5 في تقليل الهلوسة. بينما تحسنت تصورات النموذج وتوقعاته ، لا يزال يتعين أخذ نتائجه جنبًا إلى جنب مع النصائح البشرية.

OpenAI Evals - اجعل GPT-4 أفضل معًا

يستخدم OpenAI إطار عمل البرنامج الخاص به لإنشاء وتشغيل معايير لنماذج مثل GPT-4. ومع ذلك ، فهو مفتوح المصدر لذا فقد شاركت الشركة بعض النماذج الأكثر استخدامًا. بدأت OpenAI في أن عمليات التقييم ستكون جزءًا لا يتجزأ من معايير التعهيد الجماعي التي يمكن استخدامها لضمان تدريب GPT-4 بشكل أفضل وأداء أفضل.

على هذا النحو ، دعت الشركة الجميع (نعم ، كل مستخدم GPT-4) لاختبار نماذجها مقابل المعايير وتقديم الأمثلة الخاصة بهم. يمكنك العثور على مزيد من المعلومات بخصوص ذلك على صفحة بحث GPT-4 الخاصة بـ OpenAI.

كيفية الوصول إلى GPT-4 الآن

لسوء الحظ ، لم يتم طرح GPT-4 للجميع حتى الآن. أصدرت OpenAI حاليًا النموذج الجديد فقط لمشتركي ChatGPT Plus مع حد أقصى للاستخدام. يحصل مشتركو Plus أيضًا على وصول رمزي محدود إلى نسختين مختلفتين من GPT-4. بينما يمكن لبعض المستخدمين استخدام محرك GPT-4s 32K ، والذي يمنحهم حدًا أطول للكلمات ، فإن البعض الآخر مقيد بـ GPT-4 8K بسعة محدودة. صرحت شركة OpenAI أن هذا سيتم تعديله ديناميكيًا بناءً على الطلب. يجب على مشتركي ChatGPT Plus الذين يريدون الوصول الآن مراجعة دليلنا حول كيفية الوصول إلى GPT-4 هنا.

إذا لم تكن منزعجًا من الحصول على ChatGPT Plus ، فسيسعدك معرفة أن Microsoft Bing يستخدم بالفعل GPT-4. على الرغم من أنك لن تكون قادرًا على التلاعب بنموذج اللغة كما هو الحال في OpenAI ، إلا أنه لا يزال من الجيد تجربة أنواع مختلفة من الأشياء وتجربتها. تحقق من كيفية استخدام MS Bing على أي متصفح ويب للبدء.

الأسئلة المتداولة حول GPT-4

1. هل GPT-4 قادم إلى ChatGPT ؟

GPT-4 قادم بالفعل إلى ChatGPT. كما ذكر أعلاه ، فإن النموذج الجديد متاح بالفعل لمشتركي ChatGPT Plus. إذا قمت بتسجيل الدخول ، فكل ما عليك فعله هو تحديد الطراز الصحيح والبدء في الدردشة. يمكنك أيضًا اتباع الرابط أعلاه حول كيفية الحصول على ChatGPT Plus إذا لم تكن قد فعلت ذلك بالفعل.

2. هل سيكون GPT-4 مجاني للاستخدام ؟

اعتبارًا من الآن ، للأسف ، GPT-4 ليس مجانيًا للاستخدام. يتطلب اشتراك ChatGPT Plus ، والذي يكلف 20 دولارًا شهريًا. ولكن ، صرحت شركة OpenAI بأنها تأمل في تقديم استعلامات GPT-4 مجانية للجميع في مرحلة ما. يمكن للشركة أيضًا تقديم فئة اشتراك جديدة لتوفير وصول محسّن إلى نماذج لغة الذكاء الاصطناعي الجديدة مثل GPT-4.

3. هل يمكنني الاعتماد بالكامل على GPT-4 ؟

لا ، لا يمكنك الاعتماد على GPT-4 كمقياس كامل. لا يزال النموذج الجديد يعاني من بعض القيود ، بما في ذلك مجموعة البيانات القديمة والهلوسة العرضية. يمكن للنموذج أيضًا أن يعطي إجابات خاطئة بثقة ، والتي رغم أنها ليست سيئة النية ، إلا أنها قد تظل خبيثة. في حين أن GPT-4 قد تحسن بالفعل مقارنة بـ GPT 3.5 ، إلا أنه لا يزال لديه نصيبه من المشاكل. لذلك إذا انتهى بك الأمر باستخدام أحدث نموذج ، فاستخدم الحكم البشري المناسب بجانبه.

4. ما هو حجم مجموعة البيانات في GPT-4 ؟

بينما كانت هناك الكثير من الشائعات حول أن GPT-4 لديها 100 تريليون معلمة مقابل 175 مليار لـ GPT-3 ، فمن المرجح أن هذا خطأ. في مقابلة مع StriclyVC ، صرح سام ألتمان ، الرئيس التنفيذي لشركة OpenAI ، بشكل غير مباشر أن الأمر لن يكون كذلك وأن "مطحنة الشائعات GPT-4 شيء سخيف."

ربما لهذا السبب ، خففت OpenAI التوقعات عندما يتعلق الأمر بحجم مجموعة بيانات GPT-4 ولم تقدم رقمًا دقيقًا. سيحدد الوقت ما إذا كان قد تم الكشف عنه بالفعل. ومع ذلك ، نعتقد أنه يجب أن يؤدي أداءً جيدًا تمامًا معطى في العرض الأولي.

5. كيف تم تدريب GPT-4 ؟

مثل نماذج اللغة السابقة ، تم تدريب النموذج الأساسي لـ GPT-4 على التنبؤ بالكلمة التالية في المستند. على هذا النحو ، فإن البيانات المستخدمة هي مزيج من البيانات المتاحة للجمهور وبيانات OpenAI المرخصة.

تحتوي هذه البيانات على مزيج من المعلومات الصحيحة وغير الصحيحة ، والمنطق الضعيف والقوي ، والبيانات المتناقضة مع الذات ، والعديد من الأفكار الأخرى. يمنح هذا GPT-4 مستوى واسعًا من البيانات للتحليل والتعرف على ما يُطلب منه.

استعد لنموذج OpenAI الجديد متعدد الوسائط GPT-4 AI

نأمل أن تغادر هذا الشرح بمزيد من المعلومات حول GPT-4 أكثر من ذي قبل. GPT-4 هو نموذج مليء بالفرص ويثير الكثير من الإثارة للجميع. بمجرد التنفيذ الكامل في ChatGPT للجميع ، سيكون من المثير للاهتمام أن نرى كيف يستفيد الجميع بالكامل من النموذج الجديد لإنشاء تجارب.

ومع ذلك ، لا يتعين عليك الانتظار حتى تتمكن من تجربة ChatGPT. تحقق من كل الأشياء الرائعة التي يمكنك القيام بها في ChatGPT ثم قم بدمج ChatGPT مع Siri وحتى احصل على ChatGPT على Apple Watch! إذن ما رأيك في هذا النموذج الجديد المثير؟ اترك أفكارك في التعليقات أدناه!

علوم و تقنيات