武汉实习周记(五六)

工作之后,感觉时间过得很快,总是错把周四当成周三。想要时间过的慢一点,还是需要多记录、多感知,给自己一个坐标系,不然连实习到第几周都是模糊的。

写道这里想到汤质老师曾经分享过:“创作者的本质都是极其自私的,他首先解决的是自己的问题,比如经济来源、复盘自己的经验与方法、影响力的获取等等”

这篇文章的目的很明确,记录一下,加深自己对时间的感知度。

步入正题,还是分为三个部分,技术篇、认知篇、游玩篇。

技术篇

1. ShardingSphere-Proxy的任务交付了,项目本身存在问题,分表方案没有被采用,目前公司仅使用proxy进行数据迁移和对分表进行管理。

2. 学习Python,目前已分配到的任务是编写一个和gpt-4o的实时对话demo。通过这个任务,让我对大模型有了一些接触。

拿最近一个惊叹到我的例子来说吧!

——openai的whisper语音识别模型

该模型的主要作用是将语音转录成文字和将识别到的任何语言翻译成英文。

先放一张具体处理流程图:

wisper

过程比较复杂,我也不是很明白。让我震惊的不是模型构建的多么地复杂,而是训练时间。

680000小时

68万小时,这是一个什么概念呢?打个比方,一个人每天训练14个小时,一年按照365天计算,大概需要133年。

识别效果怎么样呢?

下图是两次调用的结果,第一次调用没有用prompt,导致有一些错字和缺失标点符号。

openapi-whisper-1调用

这个模式主要训练材料是英语,英文识别会更好一点。

语音识别只是第一步,识别到之后,就可以在上层构架各种各样的应用了。比如:给音视频添加字幕、从音视频中提出文本、会议或者B站视频实时字幕、AI换音等等。

认知篇

佛陀存在的本身,比它的任何理论都更值得令人敬畏。一切认知都要回归现实、回归生产,不然的话,就是消遣,就是欺骗自己。

游玩篇

武汉比较著名的几个地方基本上都去过了,躺在家里呆了四天。以刷手机为主,辅以各种杂事。

这四天呆下来的感受是周末两天还是需要抽出来一天出去走走,哪怕是全当散步,也比呆在屋子里面要好很多。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容