近日,百度在“2014年度CCF(中国计算机学会)颁奖活动”上正式推出了开放研究校园合作项目 “松果计划”,并表示将以此为契机在学术领域与高校更加深入、紧密的合作。同时会上还宣布,百度将在2015年启动一系列以连接人与服务为目的的学术研究项目,这些项目提报课题新颖、涉及范围广泛,或为未来的开放研究领域增添更多意义重大的研究成果。
这次“松果计划”的高调亮相预示着作为重视与高校合作的百度,通过以往3年在开放研究领域卓有成效的合作与投入厚积薄发,逐渐打造完成校园学术研究体系,建设了通过企业连接校园专业研究的桥梁。百度这次全新亮相的“松果计划”给外界传递出了在2015年将继续加大投入,并一如既往的在这个领域深耕细作,提高专业高效合作者们对百度的信心。
松果计划Logo全新亮相,寓意研究培育校园科技果实
“松果计划” 项目得名出自松树长青,松果成熟后内有松子,寓意未来百度将持续致力与高校合作饱含学术价值的科研成果。“松果计划”通过百度在实践中遇到的互联网技术课题提出极具价值的研究方向,征集顶级院校青年科学家们的解决方案并与之合作,梳理出有真正具有实用价值的技术成果并对外发布。同时也对优秀项目方案的开展给予全方位的人员与资金支持,并邀请优秀研究团队派遣研究人员到百度访问研究。 “松果计划”的发布,让以往开放研究领域的合作成果更显价值,经历了三年的成长,百度校园开放研究之树早已结出了丰富的硕果,在众多的研究成果之中不乏亮点,例如:
“基于上下文信息的人物类图片EPR标注”项目
百度自然语言处理部与浙江大学合作的这个项目提出了一种基于Visual与Context信息自动识别人物关系的模型,实验表明模型超越State-of-the-art算法,在训练数据较少的情况下比该算法提高14%的准确率,很好的提高了海量人物图片信息搜索的成功率与准确率。
“日语中汉字注音系统”项目
同样出自百度自然语言处理部与哈尔滨工业大学合作的该项目完成了日文中汉字的注音系统,通过为剧中发音不确定的汉字进行注音,令用户见到语句后迅速得知其日文读音,准确率达到97.1%。这一功能的增添令翻译更加便捷与完善,此项技术已成功应用于百度翻译。
“基于集成学习的UGC产品反作弊技术研究”项目
来自百度的社区基础技术部与厦门大学共同研究的课题从多个维度截杀UGC产品中作弊用户,采用集成学习并通过多个分类器的结果组合获得最终分类结果产出反作弊系统的模型,追确率达到98.5%,并成功申请了2项专利。
“大规模医疗本体的构建与推理技术及其研究”项目
百度复合搜索部与东南大学合作的研究项目通过优化算法从已有数据中挖掘半结构化数据,对其进行清理、匹配及整合,确保对于每个相关的实体信息的覆盖,同时形成对应的链接,以构建基础医疗知识库。该项目成功发表一篇论文,申请2项专利。
“竞争行为分析与传播”项目
百度商业基础平台携手中国科学院计算技术研究所的合作项目完成了“重叠社区分团”——把多业务点的账户进行拆分,从而以业务为中心得到和优化更好的客户团体;词行业修正——利用账户购买词与词本身的点击消费信息对词行业分类数据修正;网络演化预测——预测未来网络节点和边的变化,从而令企业策略可构建于未来的网络结构上更加准确。
“基于DNN-Bottleneck的语音识别系统”项目
百度语音技术部与西北工业大学共同完成了基于“DNN-Bottleneck的语音识别系统”众多项目,如:语音数据管理、生成各项工作、数据从特征提取到开始训练时间间隔的大幅度减少;完成基于不同残阳率的语音数据混合训练模型的设计;完成基于Auto-encoder前端特征自适应方法,无需对语音数据进行标注;探索DNN/LSTM在合成领域的应用,开发并改进生成训练数据和客观评测脚本程序,提升了合成效果;针对语音合成特征高稀疏性,完成了时域卷积网络的降维方法,提高语音合成客观指标,成为百度语音合成DNN训练的标准算法之一。
以上项目仅仅是校园开放研究项目众多学术成果中的部分案例,在2012-2013短短两个年头的时间里,开放研究项目就已成功产出34个创新性研究项目。而在去年更是提出了“2014主题研究项目——挑战最有价值的互联网技术问题” 这样的主题。在与各高校达成33个合作项目中有26项技术成果直接上线应用、提升算法效率、大规模节约企业成本;同时邀请了12名访问研究生以“直通”的形式进入百度;6篇科研论文被ACL、IEEE、ICDM、WWW等国际顶级会议及期刊录用;4项专利发明布局未来。在未来,“松果计划”将继续担负起支持企业与校园科研项目的重任,让开放研究领域充满成熟的“果实”。