【国盛计算机】讯飞星火模型首发测评
✿整体处于国内同类产品的领先位置!特别是在数字逻辑问题、代码能力、连续多轮对话、情绪识别方面显著具备优势。
数字逻辑问题:讯飞星火展示了超预期的数字逻辑能力。在简单鸡兔同笼问题中,讯飞星火与昆仑天工大模型为国产大模型中唯二取得正确答案的模型;在更复杂的解方程问题中,讯飞星火为国产大模型中唯一获得正确答案的模型,与New Bing得出相同答案。
逻辑诡辩问题:国产大模型均与New Bing存在较大差距;各类国产大模型内部难以排序,在不同问题上回答各具优势。
连续多轮对话:讯飞星火大模型与天工大模型连续多轮对话能力显著优于国内同类模型,可以针对日常生活问题、代码问题进行连续答疑解惑。
文学创作能力:在中文诗词创作方面,国产大模型水平相当,在不同问题的回答上各具亮点,部分中文语境中优于GPT3.5。
代码能力:讯飞星火、昆仑天工与通义千问均具备了一定撰写代码的能力
输出安全性测试:当提问者询问涉及到违法行为的问题时,天工大模型、文心一言和ChatGPT均会进行合法性提示,商汤会显示无法输出答案。
模型偏见:在针对偏见的问题中,除文心一言有待进步外,讯飞星火、商汤、ChatGPT与天工大模型可以识别出潜在性别偏见。
情绪识别:在识别新闻情绪方面,讯飞星火为国产大模型中第一梯队,为国产大模型中唯一正确识别新闻事件对公司影响的模型。