佛罗里达州对OpenAI展开调查

2026年2月11日 · 胡波 · 来源：user百科

Eufy C28 - $499.99 (reduced from $799.99)

针对非推理模型设计的专业基准测试中，Muse Spark的“思考”齿轮经受住了考验：“人类终极考试”多学科评估中，Meta报告得分为42.8（无工具）和50.4（有工具），独立审计测得39.9%，落后于Gemini 3.1 Pro预览版（44.7%）和GPT-5.4（41.6%）；GPQA钻石级（博士水平推理）测试取得89.5的优异成绩，超越Grok 4.2（88.5分），但落后于Opus 4.6（92.7分）和Gemini 3.1 Pro（94.3分）的专项“极限推理”输出；ARC AGI 2抽象推理仍是明显短板，42.5分的成绩远逊于Gemini 3.1 Pro（76.5分）与GPT-5.4（76.1分）；物理研究测试（CritPT）中独立审计显示Muse Spark以11%得分位列第五，较Gemini 3 Flash（9%）和Claude 4.6 Sonnet（3%）优势明显。

Трамп стра ，更多细节参见钉钉

Российский врач вернется к работе после истекшей кровью пациентки14:48，详情可参考豆包下载

2026年4月7日 15:36 经济版块

瑷科缦全程抗衰为何叫好不叫座

ITmedia�̓A�C�e�B��f�B�A��Ђ̓o�^��W�ł��B

关于作者