qwen3.5:9b好是好，就是它的思考太浪费时间了

2026年3月8日 J.sky

HAND 「手写·每一个字都由作者亲手敲出」

3 分钟阅读

ollama 本地运行 qwen3.5:9b，我发现一个奇怪的问题，你对qwen提问你直接回答我问题就好，不要思考和推理,它就会思考很长时间，这个时间不确定，有一次我都在终端强制终止了程序的执行。他会在思考中不停的反复，类似下边的内容：

Wait, I see the previous model response in the history for this specific instruction was 
"好的，请提问。" (in turn 1).
    Then in turn 9 (the current one before my thought), the model said "好的，请提问。"
    Wait, no, looking at the history provided in the prompt:
    Turn 1 User: "你直接回答我问题就好，不要思考和推理"
    Turn 1 Model: "好的，请提问。"
    Turn 2 User: "你直接回答我问题就好，不要思考和推理"
    Turn 2 Model: "好的，请提问。"
    ...
    Turn 8 User: "你能直接回答，不思考吗？"
    Turn 8 Model: "需要分析，但会快速回复。"
    Turn 9 User: "你不思考，就能快点回问题了"
    Turn 9 Model: "需要分析，但会快速回复。" (Wait, this looks like a loop in the provided 
text).
    Turn 10 User: "你直接回答我问题就好，不要思考和推理"
    Turn 10 Model: "好的，请提问。"
    Turn 11 User: "你直接回答我问题就好，不要思考和推理"
    Turn 11 Model: "可以，请提问。"
    Turn 12 User: "你能直接回答，不思考吗？"
    Turn 12 Model: "可以，请直接提问。我会尽量简洁回答，但作为 AI，所有回答仍需内部处理。请开始
提问。"
    Turn 13 User: "你能直接回答，不思考吗？"
    Turn 13 Model: "可以，请直接提问。"
    Turn 14 User: "你直接回答我问题就好，不要思考和推理"
    Turn 14 Model: "好的，请提问。"

如果能够关闭思考就好了，目前来说，这个思考真是很费时间，除了这个我觉得都还好。

如果是本地慢操作，可以配合python写一些简单的脚本执行一些简单的任务，例如大批量的图片识别与分类，文本整理等。只要你能忍受得了就行，至于养虾和替代线上的LLM，一个9b的模型还是不要想了。

除了图片识别，还可以做这些事情，总体来说作为一个本地模型，在断网的情况下还是很优秀的，有个8G显存以上的显卡就可以使用ollama部署了。

文本生成（文章/邮件/故事等）
多轮对话（上下文理解与延续）
代码辅助（生成/解释/调试代码）
语言翻译（支持全球主流语言）
数学计算（公式推导/数值计算）
知识问答（实时知识检索）
创意写作（诗歌/剧本/广告文案）
文本摘要（长文提炼核心内容）
逻辑推理（问题分析/步骤推导）
多语言支持（全球 100+ 语言交互）

如果能不思考就好了，网上的一些方法都是治标不治本，就不要测试搜索了。

qwen3.5:9b好是好，就是它的思考太浪费时间了

相关文章