前两年帮公司报AI绘画生成系统的软著,我第一次写架构说明踩了大坑,洋洋洒洒写了三千多字,全是“前沿AI技术”“云边端协同”这种虚词,提交上去第二天就被打回,审核意见写的是“架构说明无实质内容,需补充各层级具体实现逻辑”。后来前前后后改了三版,又跟负责软著审核的朋友讨教了半天,才摸清楚AI生成系统的架构说明到底要怎么写,才符合申报要求。
很多人刚开始写的时候,都会混淆产品说明和架构说明的边界,把产品能实现什么功能写一大堆,技术实现的细节半字不提,这肯定过不了审。我第一次写的时候就是没搞懂AI生成系统架构说明的撰写边界,把产品需求文档里的运营逻辑抄了一半过去,自然通不过。其实架构说明本质是要让审核人员看懂,你这个系统从底层到上层是怎么跑起来的,每一层用了什么技术,有什么具体的指标,能证明这是你自己研发的,不是随便套个壳的东西。
我现在写AI生成系统的架构说明,一般会分四个层级来写,逻辑清晰还不容易漏内容。第一层是基础资源层,别写什么“海量存储”“分布式算力”这种套话,要写实的,比如你用的是公有云服务器还是本地自建的GPU集群,具体的配置大概是什么样的,训练和推理用的数据集有多大,是公开数据集还是自有标注的,存储用的是对象存储还是分布式文件系统,单文件的检索响应速度是多少,这些细节越具体越好。我上次报那个AI文案生成系统的时候,这部分就写了“接入2TB公开中文标注数据集+1.2TB自有营销场景标注数据集,按细分场景分类存储在对象存储服务中,单文件检索响应速度不超过200ms,配套3台16卡GPU服务器做模型训练和推理调度”,写得这么细,审核人员一眼就能看出来你真的做了这个系统。
第二层是模型层,这是AI生成系统最核心的部分,也是最容易写虚的地方。别上来就写“采用先进大语言模型”,你得写清楚这个模型是你自研微调的,还是对接的第三方接口。如果是自研的,就写清楚用的什么训练框架,参数量是多少,针对什么场景做了微调,微调之后的效果指标是什么,比如“基于PyTorch框架训练的7B参数多模态生成模型,针对中文生成场景做了3轮指令微调,生成内容幻觉率控制在3.2%以内”。如果是对接的第三方接口,也要写清楚对接的是哪个服务商的什么接口,你自己做了哪些二次封装的逻辑,比如内容过滤、参数调优之类的,别只写“调用第三方AI接口”,那样会被认为没有自主知识产权。
第三层是能力封装层,就是把模型能力封装之后的中间层,比如你做了哪些调度逻辑,有没有做负载均衡,有没有做内容审核的模块。比如我之前写的就是“所有生成请求会先经过调度模块分配空闲算力,生成的内容会先经过自研的敏感内容过滤模块筛查,筛查不通过的内容直接拦截并返回合规提示,过滤准确率达98.7%”,这部分是你在模型之上做的自主研发的内容,写得越清楚,越能证明你的系统有独创性。
第四层是应用层,就是面向用户的终端入口,比如是网页端、小程序、APP还是开放API接口,不同用户角色的权限是怎么分配的,比如普通用户可以用基础生成功能,付费用户可以用高清生成、批量导出的功能,企业用户可以对接私有部署接口之类的。这部分不用写太多运营相关的内容,点清楚不同终端的功能差异就行。
我之前帮朋友改他的AI短视频脚本生成系统的架构说明,他原来整篇都在写他们的系统能生成多少种脚本,多少用户在用,技术部分只写了两句话,我帮他按这四个层级重新梳理了一遍,补了各层的具体参数和实现逻辑,第二次提交三天就过审了。后来我对照软著申报材料规范看,其实官方要的就是这些实质内容,不需要你写得有多高深,只要能清楚展示你的系统架构逻辑就行。
写架构说明还有两个很容易踩的坑要注意,第一个是不要随便用自己造的术语,也不要堆听不懂的黑话,审核的人都是做技术的,你写的东西是不是真的有东西一眼就能看出来,堆黑话只会显得你心虚。第二个是不要抄网上的通用模板,AI生成系统和普通的管理系统架构不一样,你套普通系统的模板,肯定会漏了模型层、算力调度这些核心内容,被打回的概率极高。我后来嫌每次核对规范麻烦,就一直用软著Pro查对应类别的材料模板,很多需要注意的细节都给标好了,不用自己反复踩坑试错。
其实只要你真的参与过AI生成系统的研发,写这个架构说明一点都不难,把你平时做的东西按逻辑捋出来,不要凑字数不要写虚词,通过率基本都很高。我最近这半年帮朋友和公司报了6个AI相关的软著,架构说明都是按这个逻辑写的,全部一次过审,连补正的情况都没有。