[kde-china] 讨论一下能否把搜狗云输入法作为kimpanel的后端

Peter Zhou peterzhoulei在gmail.com
星期六 十一月 7 05:31:05 CET 2009


我并不信任这些测试数据。

首先,现在很多输入法用的都是N元语言模型了,而不是二,三元。我也不很理解200W的词库为何会训练出来4G的模型,或许是我不懂什么叫trigger模型。

不知道google输入法是什么语言模型的,但是曾经我测试过,猜测好像是N-gram的。长句正确率远大于搜狗输入法。对于那些测试数据不是很认同。要说明这些数据是怎么出来的。

这里只是讨论技术的可行性,并没有一味针对的意思。但我个人认为目前的单机CPU足够一个输入法的计算量。

估计搜狗只是把现有的很多词库合并,然后放到服务器上做噱头。优化过的模型怎么会有4G?那服务器的内存需要多大?20G?



2009/11/7 linoox lee <linoox.lee at gmail.com>

> 接口简单,不加密,那就好办了。
>
> 输入法在服务端处理是有优势的。由于服务端计算速度快和内存大可以使用复杂的语言模型和超大的词库。因此它的准确性比本地输入法好是不容置疑的。
>
>
> 现在的问题是网络响应速度的问题,输入法的数据量虽然很小但对实时性要求很高。我试用了搜狗云输入法觉得还行,当然云输入法在一些响应慢的网络中是不适用的。网络发展的非常快,对照一下十年前1999年的网络和现在的网络就知道了。随着云的兴起,实时性的问题会得到重视和解决的,巨大的需求会推动技术的迅速发展。我觉得应该有一定的技术前瞻性,我想三五年后可能是输入法、游戏、office等应用的重心都会移向云端。
>
> 由于实现技术简单,kimpanel可以把搜狗云输入法(以后可能还有Google云输入法等)作为自带的输入法。
>
>
> =====================
>
>
> 1.搜狗云输入法在硬件和软件上都突破了桌面输入法方面的限制。
>
> 云输入法计算存储平台都是内存巨大计算能力强大的服务器,因此其存储的词库和语言模型库从理论上可以无限大(搜狗云输入法和桌面输入法的语言模型和词库数量对比见下图);同时由于计算能力强大,为了让计算结果更准确,我们在云输入法中采用了三元语言模型和带有语义特点的trigger模型。
>     语言模型 语言模型大小 词库规模 搜狗云输入法 三元模型、trigger模型 4G 200W 搜狗拼音输入法4.3版 二元模型 12M
> 40W
>
> 2.五种输入法的整句输入法评测数据对比;
>     搜狗云输入法 搜狗拼音4.3 微软拼音3.0 QQ 拼音2.3 谷歌拼音2.1 短句输入正确率 94% 89% 46% 81% 82%
> 长句输入正确率 84% 61% 53% 56% 60%
>
>
>
>
> 2009/11/6 Peter Zhou <peterzhoulei at gmail.com>
>
>> 说错了,这和webkit没有关系,就是用QHTTP抓个结果下来。用什么输入法平台应该都没什么问题吧。
>>
>>
>> 2009/11/6 Peter Zhou <peterzhoulei at gmail.com>
>>
>> 这东西没法加密通信协议啊。
>>> API:
>>> http://web.pinyin.sogou.com/web_ime/get_ajax/{pinyin}.key<http://web.pinyin.sogou.com/web_ime/get_ajax/%7Bpinyin%7D.key>
>>> 比方说
>>> http://web.pinyin.sogou.com/web_ime/get_ajax/ceshi.key
>>> 返回
>>> ime_query_res="%E6%B5%8B%E8%AF%95%EF%BC%9A5%09+%E4%BE%A7%E5%AE%A4%EF%BC%9A5%09+%E4%BE%A7%E8%A7%86%EF%BC%9A5%09+%E7%AD%96%E5%A3%AB%EF%BC%9A5%09+%E6%B5%8B%E6%97%B6%EF%BC%9A5%09+%E4%BE%A7%E8%9A%80%EF%BC%9A5%09+%E5%86%8C%E8%B0%A5%EF%BC%9A5%09+%E7%AD%96%E7%AD%AE%EF%BC%9A5%09+%E7%AD%96%E4%B8%96%EF%BC%9A5%09+%E6%B5%8B%EF%BC%9A2%09+%E5%86%8C%EF%BC%9A2%09+%E4%BE%A7%EF%BC%9A2%09+%E7%AD%96%EF%BC%9A2%09+%E5%8E%95%EF%BC%9A2%09+%E6%81%BB%EF%BC%9A2%09+%E5%A4%A8%EF%BC%9A2%09+%E6%86%A1%EF%BC%9A2%09+%E5%8E%A0%EF%BC%9A2%09+%E8%8D%9D%EF%BC%9A2%09+%E7%AE%A3%EF%BC%9A2";ime_query_key="ceshi";
>>>
>>>
>>> URL解码后就是关于拼音"ceshi"的20个候选字符。
>>>
>>> 可以用webkit做个小程序,可以用在非网页程序上。
>>>
>>> 但关键问题是,这云输入法,只是在没装输入法的机器上,暂时使用下。但你都已经可以装输入法了,你还会去装一个响应速度很慢,需要联网,精确度也高不到哪儿去的输入法么?
>>>
>>> “传统输入法受限于内存和CPU能力,使用规模较小的词库和语言模型,输入准确率有限;
>>> 搜狗云输入法利用服务器的无限量的存储和计算能力,大幅提升输入准确率”
>>> 这话骗谁呀!写这广告的人也不知羞耻。
>>>
>>> --
>>> Regards,
>>> Peter Zhou
>>> -------------------------------
>>> http://www.peterzl.net/
>>>
>>
>>
>>
>> --
>> Regards,
>> Peter Zhou
>> -------------------------------
>> http://www.peterzl.net/
>>
>> _______________________________________________
>> kde-china mailing list
>> kde-china at kde.org
>> https://mail.kde.org/mailman/listinfo/kde-china
>>
>>
>
> _______________________________________________
> kde-china mailing list
> kde-china at kde.org
> https://mail.kde.org/mailman/listinfo/kde-china
>
>


-- 
Regards,
Peter Zhou
-------------------------------
http://www.peterzl.net/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.kde.org/pipermail/kde-china/attachments/20091107/2fd0f39b/attachment.htm 


关于邮件列表 kde-china 的更多信息