در حال آمادهسازی صوت...
تحلیل بازگشت Claude Fable 5: بررسی واقعیتها و برداشتها
Claude Fable 5 پس از بازگشت به آنلاین شدن در تاریخ اول ژوئیه، با نقدهای شدیدی از سوی کاربران مواجه شد. بسیاری از آنها مدل را زیر سؤال بردند و ادعا کردند که این نسخه دچار افت کیفیت شده است.
نتایج متناقض benchmark ها
دو پلتفرم بنچمارک، BridgeBench AI و Arena AI، در همان روز به انتشار دادهها پرداختند و به نتایج متفاوتی رسیدند. یکی اعلام کرد که کیفیت خروجیها به شدت کاهش یافته، در حالی که دیگری اختلاف کیفیت را به حدی کوچک ارزیابی کرد که حتی ممکن است غیرقابل مشاهده باشد.
این تناقض نشان میدهد که مشکل در مدل نیست، بلکه در سامانهای که جلوی آن قرار دارد، ایجاد شده است. این نکته مهمی است که با توجه به نوع استفاده از Fable، تأثیر بسزایی خواهد داشت.
تستهای BridgeBench
BridgeMind پلتفرم ارزیابی AI، آزمونهای خود را بر روی نسخه اول ژوئیه Fable 5 انجام داد. نتایج بهدستآمده نشاندهنده افت شدید در عملکرد بودند: نمرهی دیباگکردن از 86.2 به 25.9، و نمره رفرکتورینگ از 73.6 به 38.4 کاهش یافت.
مشکل واقعی در روششناسی این آزمونها نهفته است. بسیاری از وظایف به خاطر طبقهبندیکننده جدید شرکت Anthropic، به Claude Opus 4.8 هدایت شدند و BridgeBench هر گونه پاسخ را که توسط مدل ارزیابی نشده ارائه میشود، به حساب صفر میآورد.
نتایج Arena.AI
Arena.AI با رویکرد متفاوتی نسبت به تستها، طیف وسیعی از رأیگیریهای انسانی را گردآوری کرد. این پلتفرم از سیستم امتیازدهی Elo استفاده میکند که در مسابقات شطرنج به کار میرود. این سیستم اجازه میدهد تا کیفیت مدلها بر اساس انتخابهای واقعی کاربران ارزیابی شود.
نتایج Arena نشان میدهد که Fable 5 بهطور کلی در برابر نسخههای قبلی خود پایدار است. در برخی از دستهها مانند نوشتن خلاق، عملکرد بهبود یافته است.
تأثیرات بر کاربران مختلف
کاربران عمومی که به نوشتن خلاقانه، تحلیل مستندات و پرسشهای سطح کارشناسی میپردازند، ممکن است تفاوت چندانی احساس نکنند. اما توسعهدهندگانی که در حوزه امنیت کار میکنند، احتمالاً با مشکل کاهش کیفیت مواجه خواهند بود.
برای کسانی که با واژههایی مانند “آسیبپذیری”، “نقص” و “اصلاح” سر و کار دارند، این طبقهبندی جدید میتواند باعث از دست رفتن پاسخها و کاهش کارایی شود.
جمعبندی و آینده
Anthropic اعلام کرده که طبقهبندیکنندهها در طول زمان بهتر خواهند شد. به طور کلی، کاربران Fable 5 بسته به نوع استفاده خود، تأثیرات متفاوتی خواهند داشت. در نهایت، این تغییرات به نوع کاربری و وظایف مرتبط با آن بستگی دارد.








