今天早上在上班的时候想听有声书,遂在网上搜索,发现了这个【「疯癫与文明」米歇尔·福柯【有声书 | 同步原文】】

我觉得他做的非常恰当,这种社会学、哲学相关的书,仅仅看书往往容易觉得枯燥而放弃阅读,仅仅听书则常忘记上下文而走神并不知所云,这种书最适合用来做同步原文的有声书。于是我开始思考,他是怎么做出来这样的有声书的,用的什么AI工具,怎么把文章和音频正好对上,在r/localllama翻找了半天。开源的解决方案通常都非常复杂,要先把电子书转成音频和带时间戳的字幕,再将字幕和音频同步播放制作成视频。

我盯着这个up做的有声书视频看了半天,觉得不对啊,这个看着完全不像是按上面的这套方案做出来的,这个字幕滚动和高亮的功能明明非常困难,如果他是自己做的,应该不会选择这么高难度的制作方式,而会是直接播放ass或是srt字幕烧录进去的那种视频。

再去问ai,如何实现在制作有声书时文章和音频同时播放的效果,track到了Speechify,试了一下,Speechify和这个up视频中的效果一模一样,恍然大悟。事实上,我早就知道Speechify了,只是从未想过用它来制作这样的视频。

Speechify年费要大约1000人民币,这个up靠做哲学类的有声书视频有大约2万粉丝,我估算来自b站的月收入超过100元的概率是很高的,完全可以cover Speechify的支出。而实际上,我认为他几乎不需要做任何事情(除了在电脑上开一个小窗口录屏)便赚到了钱。而我一开始居然在想着怎么完整搭一套复杂的工具链才能赚到这笔钱。

我觉得这个故事很真实,关于如何赚钱。

他是怎么发现这个商机的呢?我的推测是,很可能比如说他自己需要借助有声书来更好地理解这些困难的哲学书,在使用Speechify阅读后,发现这是一个很多人都需要的需求,所以顺水推舟制作成了视频发布到网站上。

我目前的副业其实也是从这个角度来做的,给我的启发则是要估计时间成本,看看有没有更直接的实现方式。