发现了一个低调却强大的AI模型开源社区
今年AI领域最火的莫过于AI作画了,甚至一度引发了艺术圈的恐慌,担心被AI抢了饭碗。而除了标准的文生图(给定一段文本,AI生成图片)任务以外,还有如图像风格转换、文本生成视频、图片编辑等任务也同样取得了令人惊艳的效果。
本来笔者想体验体验这些炫酷的AI任务,但无奈发现中文社区的AI模型比较零散,一个个搜集非常耗时耗力,有的提供网页Demo或API,但却有免费次数,有的虽然不限次数但发现响应非常慢,想找个开源模型自己搭建却发现问题更多,还没开始认真玩耍,耐心就快磨没了。
幸运的是,昨天无意间听小伙伴提到了一个叫做ModelScope的中文网站,号称以模型为中心,笔者打开后发现——
我去,模型这么多,而且大部分是中文开源模型!!
直接上图:

瞬间感觉以后不用再为找模型、搭服务的事儿头疼了。。。
传送门在这,拿走不谢:
文生图
发现这个宝藏网站后,笔者迫不及待的就开始在里面找文生图模型了,并且很快发现了一个:

是通义-文本生成图像大模型。
尽管网站提供的示例是英文的,但笔者注意到该模型是同时支持中文和英文的,于是在网站右侧提供的模型在线测试接口尝试了一下:

好吧,我输了,AI比我脑补的画面更有想象力。
项目传送门:https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summary
除了模型的测试接口外,模型页面还给出了该模型的模型结构、训练数据、训练流程、超参数甚至测试集指标,可以说非常走心了。

人像卡通化
除了标准的文生图外,笔者还在ModelScope上发现了一个好玩的模型——人像卡通化模型,直接看效果:

顾名思义,只要给这个模型输入一张人物图像,它就能实现端到端全图卡通化转换,生成二次元虚拟形象,返回卡通化后的结果图像。
除了上图中的日漫风格外,模型还提供了3D、手绘、素描、艺术等多种风格模型,笔者试用后发现效果都还不错。这个是官方给出的不同风格的效果图:

与文生图模型一样,这个人像卡通化模型的详情页同样给出了模型的结构、训练方式等说明,对于想要复现效果、二次开发的小伙伴来说是挺不错的参考。

该模型为一种全新的域校准图像翻译模型DCT-Net(Domain-Calibrated Translation),利用小样本的风格数据,即可得到高保真、强鲁棒、易拓展的人像风格转换模型,并通过端到端推理快速得到风格转换结果
感兴趣的小伙伴可以在网页右侧测试,感受下自己的照片日漫化后的效果:)
项目传送门:https://modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/summary
中文GPT3
经过探索,笔者还在ModelScope上发现了中文版的GPT-3模型:

做NLP的小伙伴应该或多或少都领略过英文版GPT-3的惊艳,大多数人对文本生成大模型的印象应该停留在续写小说、人机对话方面,但笔者却发现ModelScope上的这个中文GPT-3模型可以写python代码,比如快速排序算法:

虽然有些语法错误跑不起来,但代码逻辑还真的有模有样的。语法错误问题也确实无可厚非,因为缺乏常识逻辑层面的约束是目前AI大模型的通病。
此外,经典的任务如小说生成、诗词撰写、写作文等都不在话下,感兴趣的小伙伴可以自行体验。
项目传送门:https://modelscope.cn/models/damo/nlp_gpt3_text-generation_13B/summary
中文版CLIP
除了一众AI生成类大模型外,笔者还在ModelScope上发现了不少理解类大模型,这些模型往往在实际的工业界场景(如搜索、推荐、广告等)中能产生巨大的商业收益。比如去年OpenAI与DALL·E一块放出来的跨模态模型CLIP,在跨模态检索、图像文本特征抽取等理解类场景表现惊艳,可惜笔者此前一直没有等到靠谱的中文版本出现。
直到笔者被安利了ModelScope,发现这个平台上竟然就有中文版的CLIP模型:

而且同时放出了base和large版本的模型。模型在2亿的图文对的中文语料上训练,复刻了原生CLIP模型的结构和训练方式。
从官方提供的测试结果来看,这个中文版的CLIP模型也超越了一众比较强的中文跨模态模型,刷新了不少榜单的SOTA记录。

不多说了,笔者准备拿去在实际场景中跑跑看了,这个模型的中文靠谱版终于蹲到了。
项目传送门:
https://modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_zh/summary
一些感慨和畅想
ModelScope网站让我这个AI从业者/爱好者有点玩到停不下来的感觉。。。不得不说,虽然模型的数量多是一方面,但笔者认为这个网站更加难能可贵的点在于——每个模型都提供了在线体验的接口和测试样例。这样不需要自己做复杂的模型开发、部署就已经能体会到模型的能力了,玩起来非常方便!
而且笔者注意到这个网站上几乎所有的模型都是开源的,可以拿来做微调(finetune),定制化模型的效果,官方也提供了对应的python接口,可以非常傻瓜式的操作!
而各个模型官方配套的训练数据、测试数据和测试指标则可以很好的帮助研究人员来复现和提升模型效果。甚至ModelScope还做了一个单独的数据集搜索页面:

可以说这个社区做的非常用心了。
最后扯一些题外话。
自从GPT-3闭源以来,越来越多的AI大模型开始放弃开源,巨头各自为战,这种趋势一旦稳定下来,AI就变成了少数巨头之间的游戏,普通研究机构和个体连微调的权利都失去了,这对于行业的发展是非常不利的。
ModelScope则以社区的形式来集结模型并号召开源,让散落在Github角落里的模型重新集结,这对于研究者减少模型调研成本,方便模型对比,加快模型迭代是非常有益的。而这对于普通的AI爱好者来说,更是一个宝藏屋般的存在。
期待ModelScope这个低调却又强大的社区能带来更多惊喜!