نکات کلیدی:
- بسیاری از مدلهای هوش مصنوعی امروز هنگام شناسایی و استناد به منابع خبری از یک متن، دچار مشکل شده و خطاهای زیادی تولید میکنند.
- بالاترین نرخ توهم هوش مصنوعی مربوط به Grok‑۳ با ۹۴ درصد بود، به این معنی که تقریباً تمام پاسخهای آن اشتباه بودند.
آیا هوش مصنوعی شما همیشه پاسخ درست میدهد؟ متأسفانه، «حقیقت» ارائه شده توسط آن ممکن است توهم باشد.
این اینفوگرافی، نرخ توهمات هوش مصنوعی را بر اساس مدلها نشان میدهد.

توهم هوش مصنوعی چیست؟
«توهم هوش مصنوعی» به مواردی گفته میشود که در آن مدل زبانی اطلاعات نادرست یا بدون منبع را به عنوان حقیقت به کاربر ارائه میدهد.
این توهمات به این دلیل اتفاق میافتند که سیستمهای آموزش استاندارد، حدس زدن را به جای نشان دادن عدم اطمینان، پاداش میدهند. تصور کنید که در یک تست چندگزینهای حدس بزنید؛ احتمال اینکه درست باشد بیشتر از زمانی است که هیچ پاسخی ندهید.
نرخ توهمات هوش مصنوعی: بهترین و بدترین مدلها
برای اندازهگیری نرخ توهمات، محققان مدلهای شرکتهای پیشرو در حوزه هوش مصنوعی را با متون خبری آزمایش کردند و از آنها خواستند مقاله، رسانه و URL اصلی را مشخص کنند.
نکته مهم اینکه محققان، متونی را انتخاب کردند که اگر در گوگل جستجو شوند، منبع اصلی در سه نتیجه اول ظاهر میشود.
سپس پاسخهای مدلهای هوش مصنوعی برای دقت بررسی شدند. جدول زیر نشان میدهد هر مدل چند درصد پاسخ نادرست یا ناقص داده است:
| مدل هوش مصنوعی | نرخ توهم |
|---|---|
| Perplexity | ۳۷ درصد |
| Copilot | ۴۰ درصد |
| Perplexity Pro | ۴۵ درصد |
| ChatGPT Search | ۶۷ درصد |
| Deepseek Search | ۶۸ درصد |
| Gemini | ۷۶ درصد |
| Grok-2 Search | ۷۷ درصد |
| Grok-3 Search | ۹۴ درصد |
Grok‑۳ بدترین عملکرد را داشت و ۹۴ درصد پاسخهایش توهم بود، در حالی که Perplexity دقیقترین پاسخها را ارائه کرد.
نکته جالب اینکه مدلهای پولی حتی در مواردی از نسخههای رایگان ضعیفتر عمل کردند. اکثر مدلها نیز، باوجود خطاهای زیاد، هیچ نشانهای از عدم اطمینان در پاسخهایشان نشان ندادند.





بدون نظر