Sanvi

3 分钟

独立开发周记25: 我们上线了国际版

最近打磨UI有点疲了,不知道有啥方式能很好的解决这一问题,都要一点点跟Claude Code说调整,然后验证,不然实现出来的和你的理解还是有很大的出入,刚好今天就写写内容。

AI漫剧

没想到上一篇AI漫剧的文章引发了那么多的讨论,其实现在卡住最大的问题在于TTS的语音和视频的合成的问题,目前新的版本尝试用kling的lipsync进行合成,但出来的视频比之前好一些,但是不确定是因为veo3和kling两种不同的视频的问题,有时视频有一些那种乱码帧,而且最近也没太多时间研究,就先放一放了。

然后就是分镜的调整,之前就是纯分镜,现在调整成电影和说话,专门的对话镜头来丰富整体的剧情。

另外就是最近seedance2.0出来了,整体惊讶到我,但是就不知道什么时候出api和价格是咋样。他跟之前的AI模型最大的特别是你能感受生成的视频有运镜的内容,不同我们之前的设计,分镜之前是要自己拆分进行运镜,通过首尾帧进行连接。但是具体API是咋样等出来才知道如何去结合我目前做的AI漫剧系统。

上次出面试题的老哥也没回任何消息了,所以也没啥动力,主要上线要打磨UI,接入用户系统等等,等我把另外一个项目的APP做完再说。

StudyThai

为啥我一直坚持做这个项目,一方面是我自己有在学习,二是我觉得传统像多邻国这种学习方式一定会被淘汰,很明显他们没用AI创造一种新的交互,不过我也不能这么说,目前这个项目的交互还是跟原来没太大区别。

另外一个最大的是,你如果做AI Native的产品,很容易被借鉴,因为很多KOL独立开发今天热点在哪就开发一个产品,然后借鉴一下市面上的产品卖一波粉丝。前段时间cowork、最近openclaw,所以你的创新往往并没啥用。

但是小语种赛道需要你真的投入进去学习才能做,很多东西模仿不来,而且受众小够垂直,不是一个快产品,简单说就是鸡肋,如果做的好养活一个开发者倒是没啥问题。

之前一直有在考虑做国际版,但是涉及到改动偏大,所以一直没做。不过最近看了一些反馈感觉国内的还是偏向免费模式会更加适合,就目前阶段并没有能力维护那么多用户,所以就把国际版提前了,毕竟维护好1000个付费用户比1万个免费用户简单。

所以这次就把国际版整体调整完发布了,国际版唯一麻烦的地方还是人工的校验查漏,看哪些没做到国际化,还是就是课程数据结构重构等等,其他没啥技术含量。

APP版本之前选型flutter想简单做个套壳,后面发现整体体验不佳,而且不太好处理用户登录信息和一些本地化的功能,比如说播放音频在网页,但是APP用的本地音频,要建立桥等,有AI开发不难,但是调试很麻烦。

后来折腾不动了索性直接切到RN来做原生,把一些涉及原生或者体验的页面都做原生化,桥的代码也好处理,直接AI迁移过来,只是对接的库换一个,基本上没碰到太大的难度。

但是AI对于RN的界面生成实在不如网页,估计是训练素材的问题。网页的界面我给到html,基本上一次能完成到90%,剩下就是一些简单的调整。但是RN的界面只能到60%,后面至少要经过4轮的对话才能调整到比较能用的角度

openclaw

最近尝试用opencode的kimi-free,估计用的人太多,现在已经不可用了。整体用下来比接入codex像个AI,codex基本上是极度谨慎,所以要反复问你,然后你让他别管他也不能,就一直让你按他的来。换成kimi后,基本上想做的事情都完成的不错,有点想额外单独配置一个,但是目前openclaw烧token太厉害了,不太敢上付费的方案,现在依赖度也不高。

最近开了个数据库的只读账户和把posthog的埋点数据给了他,让他给我一些运营数据,这样避免我花那么多精力在上面,另外给他建立了一个推特的看板(内部自己做的一个页面),因为害怕他把机器内的东西发到真正的推特上(虽然我测试接通了,也发了一条),让他每天写一写。

其他没啥好更新的,主要openclaw最近歇菜了,因为背后没模型了。当然有人说可以去找一些中转羊毛,我个人不太推荐,中转也就是你的信息是透明的,中转服务作恶很简单。一样用别人的APIKEY也是有类似的担忧。