Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng.
Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64".
Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Công ty OpenAI đã công khai chỉ trích kết quả kiểm tra Điểm chuẩn của mô hình trí tuệ nhân tạo mới nhất xAI Grok3 là có tính đa nghĩa
Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64". Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.