您当前的位置:首页 >> 行业交流 >> 教育培训

记一次基于AI的口语训练功能研发经历:如何实现边观看视频边练习口语

作者:韩林涛   发布时间:2024-08-19 06:15:17

 

文章转载自简言公众号,作者韩林涛

 

  在正文讲述之前,我先铺垫一下:

 

  长长的背景

 

  自从十年前开始推动翻译专业(本地化方向)以来,我心里一直有一个坎:每当我跟学生聊大学四年的学习经历时,他们很多人都会说,觉得自己的英语水平还不够。

 

  如果去看这个专业的培养方案,会明显的发现,虽然是“翻译专业”,但其中的语言类课程和翻译类的课程与其他翻译专业、英语专业相比,总量上还是差了很多。

 

 

  我自己本身是英语专业出身,了解整个大学四年英语专业所学课程的设置方式,所以我对于如何把自己的英语水平训练到“到位”还有一点自己的想法。

 

  去年去英国访学三个月对我的影响也非常大,回国后便一直推动将AI与英语学习结合在一起,我把理念部分写到了一篇文章中:

 

  大语言模型如何助力学生进行英语听说读写译自学

 

  在这篇文章的基础上我不断开发新的功能,尽量让学生可以在听说读写译等方面都可以得到训练。我的理念其实非常简单:英语学习一定要多听多读多看多写,借助AI可以实现有意义的输入和输出。

 

 

  新学期马上开始了,我希望让新生们尽早用上一个完善的AI辅助下的英语自学平台,所以假期里不断在开发新的功能。

 

  但有一个功能始终不知道怎么开发:学生边看视频边练习口语

 

  正是因为这个功能开发出来了,所以大家才能看到今天这篇帖子。

 

  首先,先给大家简单看一下这个功能:

 

 

  正文

 

  一、看什么样的视频学英语

 

  我们大部分中国人都没有沉浸式的说英语的环境,要想听到所谓的“地道的英语”,常用的办法就是使用专业的教材、看原版电影、听英文歌曲。

 

  但这些方式有个很明显的弊端:以单方面的接受为主。即便我们可以边学边说,但是如果身边没有老师、外教,我们也很难形成互动。

 

  AI恰恰可以解决这个问题。

 

  慕课(MOOC)时代强调短视频在教学环节中的使用,我记得当时非常推崇10-15分钟的短视频,认为超过这个长度的教学视频会让学生失焦。

 

  但当真正的短视频时代到来时,大家发现学生连30s的视频都要按着屏幕加速看。

 

  但是从英语学习的角度而言,有趣的10分钟以内的英文短视频是非常重要的学习材料。

 

  我自己非常喜欢看一些各个领域的科普短视频,英文流畅、结构清晰、制作精良、引人入胜。所以我希望学生能够多看一些这样的短视频。

 

  二、怎样读出正确的英语

 

  看归看,看完如何确保学生看懂了?

 

  这就需要学生在看视频的同时能够跟着视频内容练习,做“影子跟读”。

 

  但即便学生能跟读,又如何保证读得准读得对?

 

  我的大学时期非常流行李阳疯狂英语,有一天早上我看到一个同学清晨六七点在湖边大声朗读错误的英语,越读声音越大,我跑过去告诉TA,你最好先学音标,学会怎么正确读单词后再大声朗读,否则就是错上加错,越读越错。

 

  所以学生的练习需要及时的反馈,尤其是来自高质量AI的精准反馈。

 

  反馈越精准,我们读出的英语越正确。

 

  嘴巴会读了,耳朵能听了,量再积累上,英语自学就能步上正轨了。

 

  三、如何实现边观看视频边练习口语

 

  1)如何用AI辅助口语评测

 

  我在前年便通过有道智云的口语评测API实现了针对学生口语的AI评测,那个时候还没有大语言模型,通过有道的技术已经能够非常准确的给出英语口语的分数,包括:流利度、准确度、完整度。

 

  大家在市面上看到的绝大多数包含这三个分数的工具,基本上都是调用的有道的API,而且这个API非常便宜。

 

  (其实也正是这次经历,让我深深知道:大模型技术不是AI技术的全部,AI技术其实有很多)

 

 

  去年我爱人开始给女儿做英语启蒙的时候,我就开发了一个针对0-6岁亲子英语启蒙的口语练习工具Learnwithbella,最核心的原理就是让家长跟读适合0-6岁不同年龄段孩子的英语:

 

 

  但正如大家在上面截图中看到的,学习者只能看着文字学习,没有图像,也没有视频,这种方式的学习时间久了,人很容易失去兴趣。

 

  2)如何在练习口语的时候看到视频

 

  如何能让学生边练习口语边看到视频,而且是流畅的视频呢?

 

  其实写一个网页上传视频并播放视频并不是什么很难的技术,HTML网页本身就支持这样的功能。

 

  但是当我们上传了一个500M的视频到服务器,每位学习者观看这个视频时就意味着要把500M的视频先下载到他们的手机或电脑上。学习者等视频加载完要耗费很长时间和流量,学习体验非常差。

 

  这个时候我就去了解了常见的视频网站的解决方案,然后发现,其实包括腾讯云、阿里云、华为云在内的主流的云服务平台都提供流媒体视频上传、下载和播放服务。

 

  经过多次比较,我最终选择了腾讯云。

 

  这里并不是什么腾讯云的广告,之所以选择腾讯云,主要是因为我的域名在腾讯云上,我不想把网站的域名和存储视频的服务器放到两台服务器上。还有一个原因是腾讯云提供了不错的技术文档。

 

  对于我这种半路出家的伪程序员而言,看技术文档不是一件容易的事儿。

 

  但大模型比我厉害。

 

 

  我把腾讯云关于上传视频到云服务器的整个文档全部粘贴复制,然后分别发送给了Claude和GPT4o,问:

 

  我现在准备写一段代码,包含几个基本功能:上传视频、上传封面、上传视频基本信息,请你基于这个文档帮我撰写一个基本的网页来实现这样的功能,并且告诉我需要提前做哪些配置。

 

  就是这样一个非常随意的问题,让我看到了曙光。

 

  Claude非常快的基于这个文档帮我撰写了一个简单的网页,并且告诉我需要去腾讯云的后台做哪些配置。

 

  我是非常震惊的。它竟然知道一些我发送的文档中不涉及的内容。

 

  为什么我坚信未来的学生要学习编程?

 

  因为当这些年轻的学生发现大模型能实现“神笔马良”的效果时,他们会爱上创作、创造、创新。

 

  大模型虽然帮我提了一些建议,但它并不能帮我执行所有的动作。所以在反复阅读腾讯云的各种文档、示例代码后,我又在Claude、GPT之间来回问了很多同样的问题,对比他们的答案,并实际去操作,最后开发出了一个能够上传视频到腾讯云服务的页面:

 

 

  这个页面其实并不是核心,真正的核心是腾讯云提供了一个非常方便的断点续传大视频的接口,并且在后台自动对视频进行封面截图、转码等操作,并且会把视频在云上存储的位置返回给我。

 

 

  凡是任何我看不懂的信息,我都会发给大模型,让大模型帮我解释。

 

  3)如何生成基于视频内容的练习素材

 

  当视频可以成功上传,而且能够在网页中正常播放的时候,另一个问题浮现到眼前:

 

  如何基于视频内容快速生成练习素材?

 

  如果按照传统的模式:先听录视频的内容、基于视频内容自拟练习的句子和对应的中文翻译、上传句子和译文到服务器上

 

  这个过程是非常消耗人力的,没有多少英语老师愿意干这样的事情。

 

  所以我使用了以下工作流:

 

 

  第一步:将视频导入到Whisper Transcription获取转录文本

 

  这个软件是基于OpenAI开源的基于大模型的音频转录工具Whisper,苹果电脑和Windows电脑都有对应的免费实现。

 

  我本来也准备将这个功能嵌入到我的网页端,但是非常消耗服务器的算力,所以我选择了使用本地电脑软件的方案。

 

  对于那些能够直接下载到字幕文件的视频,就不需要做这一步。

 

  第二步:让大模型基于转录文本自动生成格式化的双语语料

 

  我之所以鼓励大家学习编程,是因为只有学习了编程才知道绝大多数的大模型都能提供“JSON”格式的数据输出,这就意味着,我们可以要求大模型生成怎样格式的数据:

 

 

  如果大家只是在网页端提问,那么生成的结果是不可控的,还得自己粘贴复制到Excel表格中。

 

  如果会写代码来操控大模型的输出,就能将一个SRT格式的字幕文件快速转换成一个在线的表格,并对其进行实时编辑。

 

  第三步:插入格式化数据到数据表并与视频绑定

 

  最后一步就是把在线播放的视频与基于视频字幕生成的双语语料放到一个页面中:

 

 

  结语

 

  我不断通过我自己研发产品的经历告诉自己和学生:如果连我这种非科班出身的伪程序员都能在大模型的辅助下开发出这样的功能来,那些拥有几十人上百人的专业研发团队如果借助大模型就能开发更专业的更高效的技术工具。

 

  所以我对未来的外语教育技术、翻译技术、人工智能技术发展充满着信心,我相信真正掌握技术的未来一代能够开发出数不尽的好工具。

 

  我相信,在AI的辅助下,越来越多的中国人能够用自然的方式(而非应试的方式)学好外语。

 

  我也相信,在AI的辅助下,未来一代能够开发出更好的语言技术产品。

 

  也许再过二十年、三十年,我女儿那一代会在更强大AI技术的辅助下研发探索月球、火星的工具,或者在更强大AI技术的辅助下进一步探索生命的奥秘,或者......