去年帮公司报了3个AI文案生成类的软著,前两次都是架构说明出问题被打回来,折腾了快三个月才全部拿证,踩过的坑多到能整理出一本小册子。很多第一次报AI类软著的朋友都觉得架构说明难写,其实摸清楚规则之后,比写需求文档还简单。
首先得搞懂,为什么AI生成系统的架构说明比普通软件要求更严?普通的管理系统、工具软件架构都是标准的分层,审查员一眼就能看懂,但是AI生成系统多了模型训练、推理调度这些专属模块,要是写不清楚,审查员很容易判定你是套壳开源模型,没有自主研发内容,直接驳回申请。
一份合格的AI生成系统架构说明,首先得有清晰的整体结构,我一般是按照从底到上的顺序写,先写底层的数据层,再往上写模型训练层、推理服务层,最上层是用户交互层,每一层里的模块都要写清楚功能、用到的技术、和其他模块的交互逻辑。比如数据层,不要只写“存储系统数据”,要写清楚里面包含训练语料库、用户个性化素材库、生成内容存管库三个子模块,训练语料库是针对哪个领域做的标注,量级是多少,用户素材库有没有做加密存储,这些细节写得越清楚,越能证明你真的做了实际开发。
这里要注意第一个坑:架构说明里提到的所有自研模块,必须和你提交的源代码目录一一对应。我第一次申报的时候,架构说明里写了“内容合规校验模块”,但是源代码里的文件夹命名是“safe_check”,我也没在说明里标注对应关系,审查员核对的时候找不到对应代码,直接就打回来了,后来补了对应说明才过。如果不清楚软著申报对架构说明的具体格式要求,可以去软著申报材料模板网站里找AI类软件的参考样例,比自己瞎琢磨要省很多时间。
往上到模型训练层,这是AI生成系统最核心的部分,也是最容易出问题的地方。很多人写这块的时候,就只写“基于GPT-4o实现内容生成”,或者“调用通义千问接口完成推理”,这样写100%会被驳回,因为审查员看不到你的自主研发内容。你得写清楚你在开源模型或者基础接口之上做了什么二次开发,比如是不是针对电商场景做了LoRA微调,训练用的数据集是不是自己标注的,是不是自研了prompt优化框架,有没有做多轮对话的上下文记忆功能,这些才是你自己的研发成果,哪怕你只是在基础接口之外加了两层敏感词过滤,也要写清楚过滤的规则、覆盖的敏感词量级,这些都是能证明你自主知识产权的内容。
再往上是推理服务层,这块要把用户请求的全流程写清楚,比如用户在前端输入生成需求之后,系统首先会调用敏感词校验模块过滤违规内容,然后把需求转成符合模型要求的prompt格式,再调用微调后的模型生成内容,生成完成之后还要过二次内容合规校验,同时给内容打上标签存储到数据库,最后返回给前端。这个流程不要跳步,每一步对应的模块都要写清楚,最好和你附的架构图完全对应,要是架构图里画了的模块,文字说明里没有,或者反过来,都很容易被要求补材料。
最上层的用户交互层不用写太细,大概说清楚前端有什么功能就行,比如支持用户选择生成场景、调整生成内容的风格、下载生成的文案这些,重点还是放在底层的自研模块上。
第二个坑:技术名词全程要统一,不要前后混用。我第二次申报的时候,前面写的是“推理调度模块”,后面写成了“模型调用模块”,审查员以为是两个不同的模块,发了补正通知要我说明两个模块的功能差异,我解释了好久才过,平白耽误了半个月时间。写的时候最好先把所有模块的名字列在旁边,全程用统一的表述,不要随便换叫法。如果需要核对架构说明里的模块划分是否符合软著申报要求,可以参考软著申报审核标准里的软件材料说明部分,里面列的很清楚。
还有个很多人容易忽略的点:第三方依赖的模块不要写进自研架构里。比如你用了阿里云的OSS存用户素材,用了Redis做缓存,这些都要标注清楚是第三方依赖,不要当成自己的研发模块写,不然审查员要你提供这些模块的源代码你根本拿不出来,肯定会被驳回。
我之前整理材料的时候,要对着要求翻来覆去改好多次,后来朋友推荐用软著Pro,里面有AI类软著架构说明的自动校验功能,把你写的内容输进去就能自动排查有没有和源代码不匹配的地方,有没有遗漏核心模块的说明,我上次用它查出来我漏写了用户个性化素材的加密存储模块,提前改了才提交,一次就过了,省了好多事。
其实写AI生成系统的架构说明,核心就是两个字:真实。不要抄网上的通用模板,也不要夸大自己的研发内容,你实际做了什么就写什么,把你花了时间做的模块、优化的功能写清楚,让审查员能直观看到你这个系统的研发过程和创新点,基本上都能顺利过审。我后来帮朋友看了好几个AI生成类的软著架构说明,按照这个逻辑改完,基本上都是一次过,没有再出现被驳回的情况。