استانداردی وجود دارد که توانایی یک مدل هوش مصنوعی را برای استفاده از رایانه همانطور که انسان در یک سیستم عامل انسان محور انجام می دهد، ارزیابی می کند. مدل 3.5 Sonnet کلود که OSWorld نام دارد، تنها در دسته اسکرین شات موفق به کسب 14.9 درصد و در برخی کارهای دیگر که نیاز به مراحل بیشتری دارند، امتیاز 22.0 درصد را کسب کرده است. میانگین نمره افراد در این آزمون 72.36 درصد است که حتی برای هوش عادی نیز دشوار است. با این حال، این تنها شروع است زیرا این مدل ها به سرعت در حال پیشرفت هستند. این مدل ها معمولاً با انواع دیگر داده ها مانند متن و تصاویر ثابت کار می کنند، آنها را پردازش می کنند و بر اساس آنها محاسبات را انجام می دهند. کار بر روی کامپیوترهایی که ابتدا برای تعامل انسانی طراحی شده اند، جهشی بزرگ در قابلیت های مدل های هوش مصنوعی است.
سرانجام، آنتروپیک بهروزرسانی مدلهای کلود 3.5 Sonnet و Hauiku را ارائه کرد که اکنون بیش از هر زمان دیگری توانایی انجام وظایف مختلف را دارند. در اینجا بررسیهای این شرکت در مقایسه آن با مدلهای قدیمیتر و همچنین OpenAI و طراحیهای پیشرفته هوش مصنوعی گوگل وجود دارد.
این مقایسه فاقد مدلهای OpenAI o1 است، زیرا این مدلها در مقایسه با برنامههای LLM به فناوریهای متفاوتی متکی هستند.