第158章 我们究竟在谈些什么(2/2)

庞大、完其他搜索服务提供商之外,他们还有一个独门之秘,在2oo9年只有他们两家形成了规模。

那就是“百度知道”,以及比百度知道逊色一些的“谷歌问答”。

“知道”,是一个比搜索更加贴近类语言习惯的问答产品。在搜索的时候,只会打几个关键词,很少会直接长篇大论写一句话,写一个用类正常语法表述的问题。

而用百度知道的时候,因为背后是类在回答,所以大家都遵循了类语言的语法。

一个新买手机的用户,和初秘或者sIRI聊天的时候,问到的问题,真的是绝无仅有、从来没有前问过的么?

恐怕不尽然。

十几亿心中的困惑,有相当大一部分是重合的。同一个问题,可能全国有几百万想问。

有了百度知道的云端大数据之后,初秘或者sIRI再听到时,就可以先搜一搜这个云端数据,看看有没有近似的或者重复的前提问。

如果有,直接把前提问中的“被采纳答案”推送过来、语音阅读一遍就行了。

在“知道”这个产品上,谷歌其实走得比百度慢。谷歌的强项,是“谷歌学术”那种专业标准化的问答,而缺少家长里短的工智能锻炼。

工智能领域,如果非要对比谷歌和百度的优劣势,只能说:谷歌可以训练出更密的机器,但是不如百度那样容易给机器学会‘七六欲’。

因为早年的谷歌,压根就没想到去锻炼其工智能的这个方面。

当然,说句良心话,百度也没想到。

“百度知道”后教会了“度秘”比sIRI更能科打诨,也只是百度发展时一招无心柳的歪打正着。

……

正因为顾莫杰懂行,因为他自己就懂度学习算法,所以,他比别更能领会严磊开出的条件诱惑力。

初音集团,在搜索上是弱项。

但是初音集团,在工智能的算法领域,是强项。

一个企业工智能产品的强弱,受制于两个因素。

一个是算法的好坏,一个是大数据的规模。

比如,谷歌的算法效率假设是1o%,而谷歌的搜索处理量是1o亿条,所以谷歌的工智能每天理论消化的问答是1亿条。

如果初音的算法效率更好,有2o%,但初音每天的搜索处理量只有1亿条,那么初音工智能每天理论消化的问答只有2ooo万,比谷歌弱了五倍。

有好算法,有好的“数据消化效率”,却没有足够的“数据饲料”去喂养这副“消化功能”极强的“胃”。

这一直是初音工智能研究院的缺憾,短板。

但是,如果按照严磊的说法,把谷歌中国过去五年,在中国市场上搜集到的服务器端历史记录数据统统copy过来,“填鸭式”地塞给“初秘”去学习,那么初秘在“真正听懂中国讲话”这个问题上,起码可以赢得相当于额外获得两三年时间锻炼的效果。

历史上sIRI公司成立于2oo7年,1o年被苹果收购后,在4s上放出了这个工智能产品。

但是用过Iphone4s的用户,恐怕都有一种记忆:

刚开始,4s上的sIRI智能程度真的很低,几乎听不懂什么话。还是只能和旧时代的“语音拨号助手”那样,帮主翻翻通讯录、拨打一下电话为主。

至于让sIRI真的近似于一样和主聊天,似乎是2o12~2o13年的事了,那时候的sIRI才渐渐说话像话。

那就是因为,sIRI花了两三年时间来“学习”、来积累和消化云端大数据,渐渐统计出类语言习惯。

如果谷歌中国不倒下,谷歌在华的那多年数据记录,肯定是作为商业秘密不会公开的。因为那涉及到其对中国上网习惯的统计。如果公开了,很有可能被对手拿去,作为优化对手引擎算法的参照物。

但是,如果谷歌中国倒下了,这些数据再遮遮掩掩藏着,似乎就没什么意义了。

只要顾莫杰出一笔看上去挺诚意的价码,谷歌总部相信就会把这笔数据财富卖给初音。

顾莫杰意着美好前景,简直要兽血沸腾。

恨不得现在就在老朋友拉利佩脊梁骨上捅一刀,然后把谷歌中国的数据资源巧取豪夺走。

“磊哥,来,好好说说你数据到手之后的详细使用计划。我都有点迫不及待了……”

“当然没问题,就是如此如此,这般这般……”

严磊一副指点江山状,对顾莫杰讲解了一个钟的技术路线梗概。

“只要做到了这些,然后,我们的初秘肯定可以在‘话识别率’上领先sIRI至少两年。”(未完待续。)