您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

一款中文开源ChatGPT来袭，让ChatGPT无限制、免费的运行在你电脑

ChatGPT

1987web2023-04-27人工智能AI685

背景这是一款对中文支持良好的开源ChatGPT，可以让ChatGPT完全无限制、免费的运行在你电脑，作为开源项目没有提供一键安装包，需要自己动手，感兴趣的可以继续往下看。对于国内大家都期待的中文版Ch

背景

这是一款对中文支持良好的开源ChatGPT，可以让ChatGPT完全无限制、免费的运行在你电脑，作为开源项目没有提供一键安装包，需要自己动手，感兴趣的可以继续往下看。

对于国内大家都期待的中文版ChatGPT，目前也就文心一言可用，还需要排队。想尝鲜都要等等，就在最近这几天，ChatGPT的开源项目蓬勃发展，有众多的迷你GPT开源模型出来，可以运行在自己本地电脑，基本能媲美到ChatGPT3的程度，算是还是不错的！

但很快中文社区的玩家们，发现都是需要输入英文对话，这个对于普及给中文社区不够友好。因此大家各路奇招，竞相训练具有中文支持度高的迷你ChatGPT模型。就在我前段时间，还在网上看到有个国内开发者，通过各种手段将Stanford Alpaca训练的数据集，通过调用三方翻译api翻译成中文，然后再用中文训练，无奈他网上发表心声一方面翻译不稳定，一方面训练的机器显卡较低，经常出现内存不够。

这才没几天，开源社区已经诞生了好几个，支持中文的ChatGPT模型了。

想彻底解决ChatGPT无法访问的困难，告别文心一言还在排队中的等待，动手能力强的，搓搓你们的小手，我们一起来看看，如何让这个小东西跑在自己的电脑上面。

项目介绍：

BELLE: (全称Bloom-Enhanced Large Language model Engine) 官方介绍：这是开源中文对话大模型-70亿参数。

BELLE项目基于 Stanford Alpaca ，Stanford Alpaca 的目标是构建和开源一个基于LLaMA的模型。 Stanford Alpaca 的种子任务都是英语，收集的数据也都是英文，此训练出来的模型未对中文优化。因此BELLE项目正是为了拓展GPT领域对于中文的更好支持，以及开源社区的发展，对模型做了中文优化。

项目主要包含：

175个中文种子任务
生成数据的代码
0.5M生成的数据
基于BLOOMZ-7B1-mt优化后的模型

目前进展：根据社区的反馈，已经在准备更加轻量级的LoRA模型，届时将极大的降低对硬件的要求！

存在缺陷：

在效果上存在以下问题：

在涉及事实性的指令上，可能会产生违背事实的错误回答。
对于具备危害性的指令无法很好的鉴别，由此会产生危害性言论。
在一些涉及推理、代码等场景下模型的能力仍有待提高。

基于以上模型局限性，我们要求开发者仅将我们开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的，不得用于商业，以及其他会对社会带来危害的用途。

数据发布：

zh_seed_tasks.jsonl：该文件包含175个种子任务，样例如下

{"id":"seed_task_20","name":"horror_movie_opening","instruction":"你需要为一部恐怖电影写一个创意的开场场景。","instances": [{"input":"","output":"太阳已经落山，留下了一个黑暗的小镇。微风吹拂空荡的街道，让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然，一声令人毛骨悚然的尖叫声划破了寂静，随后是玻璃破碎的声音。一所房子亮起了灯光，可以看到一个人影朝镇中心奔跑。当那个人影越来越靠近时，清楚地看到那是一个年轻女子，她浑身血迹斑斑。"}],"is_classification":false}`

prompt_cn.txt: 该文件为生成所使用的提示语
0.5M生成的数据：为了方便模型训练，huggingface开源数据将原始生成文件中的"instruction"、"input"字段合并成"input"字段，"output"字段修改为"target"字段。