کدام مدل هوش مصنوعی از بقیه باهوش‌تر است؟ مقایسه بر اساس تست IQ + جدول

نورا تاجدینی پنجشنبه، ۲۲ خرداد ۱۴۰۴

در دنیای امروز که هوش مصنوعی به سرعت در حال پیشرفت است، این سوال مطرح می‌شود که مدل‌های هوش مصنوعی چقدر باهوش هستند و در مقایسه با هوش انسانی چگونه عمل می‌کنند؟ داده‌های جدیدی که توسط Tracking AI جمع‌آوری شده‌اند، با استفاده از آزمون هوش منسا نروژ، رتبه‌بندی جالبی از باهوش‌ترین مدل‌های هوش مصنوعی ارائه می‌دهند. این آزمون که به سختی و دقتش در سنجش هوش انسانی مشهور است، اکنون معیاری برای ارزیابی توانایی‌های شناختی هوش مصنوعی شده است.

مقیاس هوش: انسان در برابر هوش مصنوعی

برای درک بهتر امتیازات کسب‌شده توسط هوش مصنوعی، یادآوری این نکته ضروری است که میانگین نمره هوش انسانی بین ۹۰ تا ۱۱۰ قرار دارد. کسب نمره‌ای بالاتر از ۱۳۰ در این آزمون، نشانه‌ای از سطح نبوغ و هوش فوق‌العاده محسوب می‌شود.

پیشتازان هوش مصنوعی در آستانه نبوغ

در این رتبه‌بندی، مدل OpenAI o3 با کسب نمره ۱۳۵ در آزمون هوش منسا، در صدر قرار گرفته و به وضوح در دسته «نابغه» جای می‌گیرد. این مدل که بخشی از ChatGPT، یکی از پرکاربردترین ابزارهای هوش مصنوعی در جهان است، توانایی‌های چشمگیری در پردازش و تولید متن از خود نشان داده است.

پس از OpenAI o3، مدل‌های دیگری نیز با امتیازات بالا خودنمایی می‌کنند. Claude-4 Sonnet از Anthropic با نمره ۱۲۷ و Gemini 2.0 Flash Thinking از گوگل با نمره ۱۲۶، فاصله چندانی با صدر جدول ندارند. همچنین، نسخه‌های جدیدتر مانند Gemini 2.5 Pro و OpenAI o4 mini هر دو امتیاز بالای ۱۲۰ را کسب کرده‌اند که نشان‌دهنده عملکردی بالاتر از میانگین هوش انسانی است.

جدول زیر، رتبه‌بندی کامل مدل‌های هوش مصنوعی بر اساس نمرات آزمون هوش منسا نروژ را نشان می‌دهد:

نام مدل	نمره آزمون هوش منسا نروژ
OpenAI o3	۱۳۵
Claude-4 Sonnet	۱۲۷
Gemini 2.0 Flash Thinking Exp.	۱۲۶
Gemini 2.5 Pro Exp.	۱۲۴
OpenAI o4 mini	۱۲۲
Claude-4 Opus	۱۲۰
Grok-3 Think	۱۱۲
DeepSeek R1	۱۰۶
Llama 4 Maverick	۱۰۵
OpenAI o1 Pro	۱۰۲
DeepSeek V3	۱۰۰
GPT4.5 Preview	۹۹
Grok-3	۹۷
Gemini 2.5 Pro Exp. (Vision)	۹۶
GPT-4o	۹۳
OpenAI o4 mini high	۹۲
Claude-3.7 (Vision)	۹۱
Bing Copilot	۸۶
Mistral	۸۵
OpenAI o1 Pro (Vision)	۸۳
OpenAI o3 (Vision)	۷۲
Llama-3.2 (Vision)	۷۰
GPT-4o (Vision)	۶۳
Grok-3 Think (Vision)	۶۰

تفاوت‌های چشمگیر: هوش متنی در برابر هوش بینایی

نکته قابل توجه در این بررسی، تسلط مدل‌های متن‌محور در ۱۰ رتبه برتر است. این مدل‌ها که قابلیت پردازش تصاویر را ندارند، نشان داده‌اند که در استدلال و تفکر مبتنی بر کلمات، بسیار قوی عمل می‌کنند. این موضوع نشان می‌دهد که استدلال از طریق زبان، هنوز یک نقطه قوت بزرگ برای هوش مصنوعی محسوب می‌شود.

در مقابل، مدل‌های هوش مصنوعی چندوجهی که قادر به پردازش تصاویر نیز هستند، عملکرد ضعیف‌تری را از خود نشان داده‌اند. پنج مدل آخر در این رتبه‌بندی، همگی مدل‌های بینایی هستند. به عنوان مثال، GPT-4o (Vision) از OpenAI با نمره ۶۳ و Grok-3 Think (Vision) از xAI با نمره ۶۰، به طور قابل توجهی پایین‌تر از میانگین هوش انسانی قرار گرفته‌اند. این امر به این معناست که تفسیر و حل مسائل بصری، همچنان یک چالش بزرگ برای هوش مصنوعی محسوب می‌شود.

نتیجه‌گیری

در مجموع، این نتایج نشان می‌دهند که مدل‌های پیشرو هوش مصنوعی به سطوح بالایی از هوش دست یافته‌اند، به طوری که برخی از آن‌ها حتی از باهوش‌ترین ذهن‌های انسانی نیز پیشی گرفته‌اند. با ادامه این روند، انتظار می‌رود که تفاوت‌های بین هوش مصنوعی و هوش انسانی در آینده بیش از پیش نمایان شود.

برچسب‌ها

عجایب