他尽量通俗易懂。
“我们要进行语音交互,首先让小溪听懂,听懂之后还能回应,回应之后还能执行。
第一道难关就是叫醒它。
当用户呼叫‘小溪’时,系统能准确地识别出来,哪些是在叫它,哪些不是。
成功率非常重要,用户叫十次,有一次没成功,大家还能接受。但叫十次,有五次没成功,那产品就别卖了。
我们做了一个庞大的数据库,包含了不同音色、不同口音、不同环境音等各种素材。
开始是男性人员在测输入足够的语料,小溪都能够被唤醒。但同事拿回家后,发现老婆没法唤醒,于是又征集女性进行测试。
再后来,又发现小孩子没法唤醒,又开始征集小孩子。不过进展不太顺利,我们找不到足够的儿童录语料。”
“我跟昌平教育局说一下,让他们帮忙,200个孩子够么?”姚远道。
“够了够了!”
“嗯,继续!”
姚远示意,王斌以前做科研工作,可能从来没接触过这样的,愣了两秒钟才道:“通过深度学习,不断训练优化,让小溪达到我们想要的效果。
小溪有了耳朵,还要有嘴巴。
所以还有一套语音生成技术,将文本转化成语音,你们刚才听到的,是我们用拟人语音合成技术做出来的。
现在还有些僵硬,理想效果是与真人无异,连人类说话时的犹豫、停顿、变速、叹息等都能模拟,但这可能是很久以后的成果了。”
“……”
大家听得非常认真,在后世习以为常的东西,放到现在跟黑科技差不多——虽然隔了才不到10年。
其实想一想,苹果手机诞生也没多久,却好像是上个世纪的事情了。
人工智能、量子力学、基因编辑、ar/vr、核聚变、太空