qwen3.5:9b好是好,就是它的思考太浪费时间了
·No AI「完全由人类大脑和双手完成,没有任何AI参与」
ollama 本地运行 qwen3.5:9b,我发现一个奇怪的问题,你对qwen提问你直接回答我问题就好,不要思考和推理,它就会思考很长时间,这个时间不确定,有一次我都在终端强制终止了程序的执行。他会在思考中不停的反复,类似下边的内容:
Wait, I see the previous model response in the history for this specific instruction was
"好的,请提问。" (in turn 1).
Then in turn 9 (the current one before my thought), the model said "好的,请提问。"
Wait, no, looking at the history provided in the prompt:
Turn 1 User: "你直接回答我问题就好,不要思考和推理"
Turn 1 Model: "好的,请提问。"
Turn 2 User: "你直接回答我问题就好,不要思考和推理"
Turn 2 Model: "好的,请提问。"
...
Turn 8 User: "你能直接回答,不思考吗?"
Turn 8 Model: "需要分析,但会快速回复。"
Turn 9 User: "你不思考,就能快点回问题了"
Turn 9 Model: "需要分析,但会快速回复。" (Wait, this looks like a loop in the provided
text).
Turn 10 User: "你直接回答我问题就好,不要思考和推理"
Turn 10 Model: "好的,请提问。"
Turn 11 User: "你直接回答我问题就好,不要思考和推理"
Turn 11 Model: "可以,请提问。"
Turn 12 User: "你能直接回答,不思考吗?"
Turn 12 Model: "可以,请直接提问。我会尽量简洁回答,但作为 AI,所有回答仍需内部处理。请开始
提问。"
Turn 13 User: "你能直接回答,不思考吗?"
Turn 13 Model: "可以,请直接提问。"
Turn 14 User: "你直接回答我问题就好,不要思考和推理"
Turn 14 Model: "好的,请提问。"
如果能够关闭思考就好了,目前来说,这个思考真是很费时间,除了这个我觉得都还好。
如果是本地慢操作,可以配合python写一些简单的脚本执行一些简单的任务,例如大批量的图片识别与分类,文本整理等。只要你能忍受得了就行,至于养虾和替代线上的LLM,一个9b的模型还是不要想了。
除了图片识别,还可以做这些事情,总体来说作为一个本地模型,在断网的情况下还是很优秀的,有个8G显存以上的显卡就可以使用ollama部署了。
- 文本生成(文章/邮件/故事等)
- 多轮对话(上下文理解与延续)
- 代码辅助(生成/解释/调试代码)
- 语言翻译(支持全球主流语言)
- 数学计算(公式推导/数值计算)
- 知识问答(实时知识检索)
- 创意写作(诗歌/剧本/广告文案)
- 文本摘要(长文提炼核心内容)
- 逻辑推理(问题分析/步骤推导)
- 多语言支持(全球 100+ 语言交互)
如果能不思考就好了,网上的一些方法都是治标不治本,就不要测试搜索了。