科大訊飛:發布AI云,五大版塊構建AI科技樹
發布AI云,五大版塊構建AI科技樹
“企業數字化升級的終局是智能化,AI+大數據已經成為拓寬新局面的決定性因素。”科大訊飛集團副總裁于繼棟在現場表示。
而為了更好地賦能企業數字化轉型,科大訊飛在現場帶來了全新生態新品——訊飛AI云。
根據現場介紹,訊飛AI云由磐石平臺和擎天平臺構成,前者針對AI服務對云主機集群進行了103項專業優化,降本提效的同時進行多種認證和加密,從而保證臟專屬云用戶接入安全;后者定位“授人以漁”,從數據標注、模型訓練、引擎托管、服務編排等維度,滿足更多用戶不同業務場景組合下的AI需求。
隨著訊飛AI云的發布,我們可以預想到,在未來,訊飛開放平臺除了提供諸多AI基礎服務之外,還將能夠針對用戶更多個性化的需求提供高效服務。
與此同時,科大訊飛AI研究院常務副院長劉聰也在大會現場提出“AI科技樹”構造理念,并從5大板塊掀開了科大訊飛技術全景的一角。
具體來看,此次介紹的5大板塊分別是:
· 語音識別
科大訊飛的語音識別技術通過結合自學習更新的能力,可以對領域關鍵詞、應用場景、口音、領域風格等個性化需求進行建模,真實、復雜場景下的語音交互也更自然。
這一技術上,科大訊飛還針對說話背景復雜多樣、多人說話語音混疊、文字內容外的特殊聲音現象等問題,給出了全場景音頻解析的整體方案。
此外,針對包含語音的有效內容,使用基于富信息的語音降噪和分離方案,綜合利用聲音、文本、說話人等信息。在有條件的情況下,還可以使用多模態的唇形、視線以及麥克風陣列的空間位置等信息來進行聯合建模,多次在國際語音識別與分離大賽中奪冠。
· 語音合成
過去,語音合成的效果主要用合成自然度MOS分來評估,但是未來的AI應用,不光追求技術可實現,還要更加人性化、更具有表現力、展示維度多模態。
科大訊飛的語音合成目前已經能夠做到從語音到聲音的全場景音頻合成。基于自然語言理解技術,科大訊飛能夠從文本當中分析到合適的情感焦點,以及與角色相關的信息。與此同時,他們也將單一的情感合成升級為微情緒合成,這意味著機器人能夠對一些局部的情感做到精準預測和控制,從而讓整個人機交互過程顯得更加具備趣味性和人情味。
· OCR識別
科大訊飛在OCR識別領域,做的可謂是細致入微。目前訊飛的OCR框架已經進化到了第四代篇章級的Encoder+Decoder,可以完成高精度二維復雜版面的端到端識別,相關能力調用量已經超過10億次。
· 多語種
目前,科大訊飛現在已經將語音合成、圖文識別等AI能力成功遷移到了多個語種,文檔拍照識別已經支持56種語言,并且平均正確率超過了85%,機器翻譯更是擴展到了168種語言。
· 行業認知
當前,科大訊飛基于在各個行業積累的豐富經驗,構建了一個行業認知中臺,來降低問題定義的難度。
有了這個認知中臺,就可以基本達到一個資深行業人士80%左右的認知能力,讓場景定義的效率提升50%以上,而且認知中臺可以完全私有化部署,數據安全無需擔憂。目前,基于認知中臺的訊飛智醫機器人已經拿到了執業醫師資格證,這也是全球第一個拿到醫師執照的機器人。
在演講的最后,劉聰表示:“除了上述的幾個方向,伴隨著科技樹枝葉的持續點亮,訊飛科技樹的全景已經展現在大家的眼前。我想從原始的一顆種子發展到參天大樹,科技樹的每一片枝葉、每一個技術背后都蘊含了大量的付出和努力。”他也說到,未來科大訊飛會用科學的方法,合理有序的侯建科技樹,從而保證科技樹的根基穩固,以及多個技術職業之間的高效協同。
最后
時至今日,科大訊飛1024開發者大會已經辦過四屆,而距離訊飛開放平臺推出也已經走過10年光陰。
前面也說到,這10年間,“(訊飛開放平臺)從早期的只有語音合成和識別兩個能力,到現在300多個AI能力。從最早的十幾個團隊,到現在超過150萬團隊。”與此同時,平臺也已對外開放了334項AI能力及方案,鏈接超200萬生態合作伙伴,累計支持超過29.9億+終端。
在會后對開發者的采訪中,我們知悉了科大訊飛開發者競賽等項目對于他們的幫助,而反過來,開發者們的聚攏,也為科大訊飛的生態建設提供了極大的助力。正如劉慶峰所說,唯有生態,才能生生不息!
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













