回復(fù) 白石晃士 : 北京時(shí)間 1 月 16 日晚間消息,據(jù)報(bào)道,特斯拉藟山前遭到德國工會 IG Metall 和政界人士的抨擊,原因是工人怨特斯拉德國工廠的作條件太差,而工作間又太長。IG Metall 在其年度新聞發(fā)布會上稱,麈來多的工人抱怨,他們工作時(shí)間太長,空閑間很少。IG Metall 在特斯拉德國工廠附近設(shè)有辦公室與特斯拉工人保持定聯(lián)系。IG Metall 表示,工人們也越來越害怕公開討論己的工作條件,因?yàn)?們在簽署工作合同的時(shí),還要簽署一份保協(xié)議。另外,特斯拉招聘網(wǎng)站上招聘的一新職位,也引發(fā)了人的擔(dān)憂。這個(gè)職位是安全情報(bào)調(diào)查員”,職責(zé)是與法務(wù)和人力源部門合作,收集特拉工廠內(nèi)部和外部的些信息,以保護(hù)公司受威脅。這進(jìn)一步加了人們的擔(dān)憂。IG Metall 在一份聲明中稱:“特斯拉工人們一開始對這個(gè)目充滿熱情。但隨著間的推移,我們發(fā)現(xiàn)種熱情正在消退。特拉在改善工作條件方做得還不夠,留給工們休息、休閑和陪伴人的時(shí)間太少。”對,特斯拉尚未發(fā)表評。除了 IG Metall,德國當(dāng)?shù)氐恼缛耸?,也對特斯?人們的這些指控表示憂,并呼吁特斯拉和地政府進(jìn)行調(diào)查。有地政界人士表示:“蘭登堡州政府必須通嚴(yán)密控制特斯拉,來強(qiáng)職業(yè)安全?!痹缭?2019 年 11 月,特斯拉就宣布計(jì)在德國格林海德市(Gruenheide)建造一座新工廠,以合歐洲對電動(dòng)汽車迅增長的需求。直至去,該工廠才正式投產(chǎn)
回復(fù) 埃里克·阿佩爾 : IT之家 1 月 15 日消息,作為凱華的親兒子,黑峽最近又推出了一款新淫梁 —— 黑峽谷 X4,首發(fā) 309 元,將于 19 日晚 8 點(diǎn)開售。這款類 98% 布局的鍵盤配置方案跟 X 系列基本一致,無非就是配列鴣別,同的白燈 + 多種特效、布丁式 PTB 雙色鍵帽(非透光)、凱華 BOX 軸(天空藍(lán)、流沙金、玫瑰紅)、無填?鳥、持雙模無線(2.4G + 有線),鍵線分離,提供兩九歌配,采用人體工學(xué)設(shè)計(jì),還有磁式手托。據(jù)介紹,這節(jié)并鍵盤在 2.4G 模式無背光模式下續(xù)航祝融達(dá) 115 小時(shí),而背光模式下續(xù)航也有 12.7 小時(shí)。IT之家發(fā)現(xiàn),這款鍵盤羽山用了 CNC 工藝,配備二段式腳架 + 可隨意插拔線材 + 防滑腳墊,鍵盤腳撐女尸高后擁有 6° 黃金夾角,還支持多媒體巫抵鍵。京東黑峽谷(Hyeku)X4 309 元直達(dá)鏈?
回復(fù) 李翰韜 : 01 背景傳統(tǒng)基于神經(jīng)網(wǎng)絡(luò)的語音合成方法 TTS 已成為主流,技術(shù)相對也比較成熟,但是需大量發(fā)音人的原始錄音數(shù)據(jù),制成本相對較高。因此,少量語音本的自定義 TTS 技術(shù)是語音合成領(lǐng)域的一大熱點(diǎn)子方向。由極少數(shù)據(jù)量的限制,工業(yè)學(xué)業(yè)界出多種方法來提高 TTS 合成效果。域自適應(yīng)的遷移學(xué)習(xí)是一較為主流的方法,第一階段預(yù)訓(xùn)產(chǎn)出語音合成的基礎(chǔ)大模型,第階段基于少量數(shù)據(jù)在大模型參數(shù)進(jìn)行自適應(yīng),這種方法能最大限的還原發(fā)音風(fēng)格。在產(chǎn)品層面,著 TTS 技術(shù)的快速發(fā)展,自定義 TTS 逐漸成為智能助手越來越關(guān)注的方向。它可以滿足戶個(gè)性化的需求,使用自己喜歡音色進(jìn)行播報(bào)。但目前業(yè)界通常成自定義 TTS 的方式 (簡稱自定義 TTS1.0) 是需要用戶錄制多句指定文案的音頻 (通常 20 句左右), 生成相關(guān)音色,這種方式需要檢測周環(huán)境,指定錄制文案,導(dǎo)致效率和音色選擇上的局限性。本文主介紹的是基于多算法融合的自定 TTS2.0 方案 (簡稱自定義 TTS2.0), 可以有效的提高用戶聲音合成效率,滿用戶個(gè)性化的音色需求,同時(shí)也以給用戶帶來一定的驚喜感。下展示 OPPO 小布助手的產(chǎn)品交互示例圖 (左圖為基于用戶數(shù)據(jù)的主動(dòng)推薦,右圖為基于對話據(jù)的自定義 TTS 生成)。圖 1 自定義 TTS2.0 交互圖1.1 技術(shù)關(guān)鍵詞以下介紹一下自定義 TTS2.0 方案中用到的一些關(guān)鍵技術(shù)?!裥?合成: 基于少量訓(xùn)練樣本就能建模的語音合成技術(shù)京山可以方便、捷地為每個(gè)用戶定制語音播報(bào)效?!裾Z音合成訓(xùn)推一體: 合成系統(tǒng)的訓(xùn)練和推理環(huán)節(jié)緊密耦合在起,可以快速為海量用戶定制模和服務(wù)?!衤暭y比對: 通過發(fā)音人的語音與已存儲主發(fā)音人模型行置信度計(jì)算,最終給出判決,決策當(dāng)前發(fā)音人身份是否于為主音人?!衤暭y聚類: 通過對同一設(shè)備的多次交互數(shù)據(jù)進(jìn)行身份歸,找出交互次數(shù)最多的主發(fā)音人●音質(zhì)檢測: 通過對交互語音的分析,可以衡量出語音信號的質(zhì),比如: 噪聲干擾程度、發(fā)音的完整性、有效音長吳權(quán)、內(nèi)容豐富等。1.2 技術(shù)領(lǐng)先性作為業(yè)界首個(gè)基于對話音頻的小樣將苑語音成技術(shù)在語音助手的實(shí)踐,具備下 5 點(diǎn)技術(shù)領(lǐng)先性:1.語音合成訓(xùn)練數(shù)據(jù)的自動(dòng)化篩選,無人工標(biāo)注,效果好且成本低。2.訓(xùn)練音頻樣本少,且音頻質(zhì)量相一般的情況下,確保合成質(zhì)量不低。3.降低用戶主動(dòng)配合錄音采集的樣本數(shù)量,提升用戶壽麻驗(yàn)。4.采用端云協(xié)同的訓(xùn)推一體化框架,可以大幅提升生成音色申鑒效率5.采用大規(guī)模訓(xùn)練數(shù)據(jù)的端到端模型,只針對用戶音色相關(guān)模塊行自適應(yīng)訓(xùn)練,可以確保小樣本的音色相似度,同時(shí)確保合成效的魯棒性。02 技術(shù)和落地實(shí)踐方案2.1 總體架構(gòu)圖 2 整體架構(gòu)圖從數(shù)據(jù)流處理的及時(shí)性度劃分,整體架構(gòu)可以分為兩層: 在線計(jì)算和離線計(jì)算。●在線計(jì)算: 包括語音對話交互和語音播報(bào)領(lǐng)域,主要是幫助用戶精精成語對話,錄音訓(xùn)練和 TTS 播報(bào)功能;用戶在使用小布助手進(jìn)行話時(shí),首先通過 ASR 服務(wù),把用戶語音轉(zhuǎn)換為文本,后端的話管理和 NLU 服務(wù) (自然語音理解) 完成對輸入文本的技能和意圖識長蛇,最終對應(yīng)技能服給到 NLP 結(jié)果返回給用戶側(cè),完成一次對話交燭陰行為;用戶可以主動(dòng)在小布助手個(gè)性化聲音塊錄入自己的聲音,并提交合成音任務(wù)。模型訓(xùn)練成功后,TTS 播報(bào)服務(wù)則將需要播報(bào)的文本給到 TTS 引擎,生成音頻持續(xù)流式給到客戶端進(jìn)行播報(bào)?!耠x計(jì)算: 包括數(shù)據(jù)清洗和模型訓(xùn)練。首先基于鰼鰼戶大量的對話音頻采用大數(shù)據(jù)分析能力,清洗和過出滿足條件的音頻 (如音頻時(shí)長,文本長度,信噪比), 并獲取每條音頻的聲紋信息。然歷山經(jīng)過紋聚類模型,判別出該設(shè)備的主話人,最后綜合決策將主說話滿條件的多條對話音頻和用戶合成音時(shí)主動(dòng)錄入的多條音頻一起提給模型訓(xùn)練。模型訓(xùn)練成功后,送給在線 TTS 引擎服務(wù)使用。2.2 遇到的困難和挑戰(zhàn)在整個(gè)創(chuàng)意形成到方案設(shè)計(jì)以及落地程中,遇到不少問題和挑戰(zhàn)。其比較關(guān)鍵的問題有如下幾個(gè):1.海量對話數(shù)據(jù)如何挑選出高質(zhì)量足條件的音頻?小布助手的用戶群體大,涉及不同年畢山階層,不同區(qū)方言,不同說話習(xí)慣及使用場。比如孩童說話語速慢,聲音小因此,在復(fù)雜的環(huán)境和海量數(shù)據(jù)況下,如何挑選滿足條件的音頻為訓(xùn)練數(shù)據(jù),是面臨的第一個(gè)大戰(zhàn)。2.單設(shè)備存在多說話人情況下,如何保證挑選的訓(xùn)練泰逢頻都主說話人?通常單個(gè)手機(jī)設(shè)備是固定一個(gè)用戶在使用,比較容易獲主說話人。不過我們分析發(fā)現(xiàn),在大概 30% 以上手機(jī)有 2 個(gè)及以上的使用者。極端情況下,某些設(shè)備倍伐個(gè)用戶說話的占比相對均勻。同時(shí)在產(chǎn)品交互上,們?yōu)榱私档蛯τ脩趔w驗(yàn)的影響,有增加用戶繁瑣的聲紋注冊流程3.在云端資源有限下,如何滿足海量灌山戶的聲音合成體驗(yàn)?小布助手作為首個(gè)月活破 1.3 億的語音助手,用戶活躍高,對新特參與度也比較高,這必將帶來大的請求。在云端服務(wù)器資源有限況下,既需要保證用戶的聲音合需求,又要保障訓(xùn)練效率,降低戶的等待時(shí)長。2.3 解決的方案針對前文介紹題和挑戰(zhàn),我們過分析交互習(xí)慣趨勢,兼顧運(yùn)營本,進(jìn)行全鏈路架構(gòu)方案的設(shè)計(jì)優(yōu)化。算法同學(xué)優(yōu)化性能和效果工程同學(xué)保障系統(tǒng)的高可用和低本,進(jìn)而保障用戶體驗(yàn)。1.海量對話數(shù)據(jù)如何挑選高質(zhì)量音頻?用戶歷史語音交互數(shù)據(jù)因?yàn)榘?量無效數(shù)據(jù),整體語音質(zhì)量遠(yuǎn)低用戶為聲音合成專門錄制的語音量。為了提高用戶音色的合成效,必須實(shí)現(xiàn)快速和準(zhǔn)確地識別出效部分,并且,整個(gè)數(shù)據(jù)挑選流需要全自動(dòng)化,無需人工干預(yù)和注。為此,我們制定了數(shù)據(jù)篩選則,在以下 6 個(gè)方面設(shè)定了閾值,從而保障挑選出來的蚩尤練音質(zhì)量?!褚纛l時(shí)長: 每條音頻時(shí)長大于一定時(shí)長。通過設(shè)定合適閾值,穩(wěn)定時(shí)長的音頻,也會降對后續(xù)聲紋模型效果的挑戰(zhàn)。●本長度: 每條音頻語音識別出來的文本長度,剔除玄鳥本較短的語。單條語音文本越長,最終模型練效果越好;通過限制文本長度帶來的另外一個(gè)好處,就是降低音數(shù)據(jù)?!裾Z速: 挑選語速適中的語音數(shù)據(jù),正常人說話是 2-3 字 / 秒。超過或者低于這個(gè)語速的數(shù)黑虎也進(jìn)行剔除?!褚?: 每條音頻計(jì)算的 RMS 值在 [-35dB,-10dB], 去掉低音量或者聲音較小的數(shù)據(jù)。●置信度: 借鑒語音識別過程對無效數(shù)據(jù)檢測欽原法,保留識置信度大于一定值的語音。置信越高,語音清晰和質(zhì)量越高?!?輯距離: 經(jīng)過上述條件篩選的大批量數(shù)據(jù)中,需要再次去除掉重度高的相似語音,保留語義和文內(nèi)容有明顯差異的一批數(shù)據(jù)。訓(xùn)集差異性越好,語音元素越豐富訓(xùn)練效果也優(yōu)秀。圖 3 聲音篩選漏斗圖2.單設(shè)備存在多說話人情況下,如何保證挑選的訓(xùn)練音是主說話人?我們設(shè)計(jì)了通用的篩選和判定主說話人的流程: 一、獲取每條音頻的聲紋特征值,二基于特征值進(jìn)行聲音歸類,三、定主說話人并生成語音庫?!袷?,我們通過聲紋算法能力,對用的每條音頻提取聲紋表征。聲紋塊采用當(dāng)前主流的 ECAPA-TDNN 聲紋模型,并使用 Speechbrain 搭建訓(xùn)練系統(tǒng)。圖 4 說話人聚類流程●然后,通過聚類算法計(jì)算出單設(shè)的說話人群。聚類算法種類繁多比如適合較短序列的聚合式分層類 (AHC), 需要設(shè)置類別數(shù)的 K-means、K-means++ 等;本方案采用谷歌 Turn-to-Diarize 系統(tǒng)適合中等長度序列的譜聚類算法,并且利用特征值尸山最大隔法來獲取準(zhǔn)確估算說話人的數(shù)。圖 5 聚類結(jié)果示意圖●其次,采用譜聚類加中心得分的方式取設(shè)備用戶語音交互最頻繁的人最優(yōu)的多條音頻,該音頻最終提給語音合成模型訓(xùn)練;如果聚類果發(fā)現(xiàn)多個(gè)用戶使用頻率差不多我們就將最近 2 個(gè)月使用次數(shù)最多的用戶作為主說話人,然后選齊滿足條件的多條音頻作為訓(xùn)集。通過聚類算法,我們可以確主說話人判定準(zhǔn)確率達(dá)到 95%。●最后,為了提升計(jì)算速度和率,實(shí)踐過程中采用相關(guān)矩陣權(quán)本身替換拉普拉斯矩陣,并且去掉高斯模糊等優(yōu)化計(jì)算量。最終果每次聚類 200 條聲紋特征大約耗時(shí) 700ms 左右。3.在云端資源有限下,如何滿足海量用戶的聲音合成倫山驗(yàn)?圖 6 音色合成全流程●首先,我們建了統(tǒng)一的灰度服務(wù),該服務(wù)可以態(tài)控制所有與音色合成特性有關(guān)入口和曝光量,也可以做到一鍵量和關(guān)閉。●其次,我們建立排機(jī)制和批處理的方式,對突發(fā)流進(jìn)行削峰填谷,避免對后端服務(wù)資源擠兌。參考后端集群容量計(jì)初始放量的用戶規(guī)模,同時(shí)也構(gòu)動(dòng)態(tài)反饋機(jī)制: 根據(jù)后端任務(wù)排隊(duì)、資源剩余等情況,及時(shí)反饋流量控制服務(wù)進(jìn)行綜合決策,減對用戶曝光和引流,避免引發(fā)系的“雪崩效應(yīng)”。對某批用戶放前,會通過離線分析任務(wù)提前對批用戶的歷史語音進(jìn)行數(shù)據(jù)清洗篩選出符合條件的音頻數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備。當(dāng)該用戶通過指令提訓(xùn)練任務(wù)后,就會觸發(fā)聲音合成程。用戶聲音合成 (自定義 TTS2.0) 包括三個(gè)階段: 預(yù)訓(xùn)練、在線訓(xùn)練、在線推理。1.預(yù)訓(xùn)練階段: 主要用于產(chǎn)出基礎(chǔ)模型,參數(shù)分布作為語音合成先驗(yàn)分布態(tài),降低模型朝少量樣數(shù)據(jù)域?qū)W習(xí)的難度。該階段基于人級、萬小時(shí)級的語音數(shù)據(jù)訓(xùn)練魯棒性高的基礎(chǔ)模型。該基礎(chǔ)模屬于完全端到端模型,共有 6 個(gè)模塊組成: 說話人編碼器、文本編碼器、聲學(xué)編碼器、時(shí)長預(yù)器、雙向編碼器、聲碼器。2.在線訓(xùn)練階段: 固定文本編碼器參數(shù),訓(xùn)練其他模塊,調(diào)整學(xué)習(xí)率止過擬合及無法收斂現(xiàn)象。其中音頻對應(yīng)的文本通過語音識別引識別獲得,并通過語音合成前端得對應(yīng)的音素序列。圖 7 自定義 TTS2.0 預(yù)訓(xùn)練和在線訓(xùn)練階段3.在線推理階段: 該階段加載固定的文本編碼器,以在線訓(xùn)練階段完成的其他模塊,進(jìn)用戶輸入的播報(bào)文本和特定說人 ID, 輸出預(yù)測音頻,完成自定義 TTS 音頻的合成。圖 8 自定義 TTS2.0 在線推理階段●同時(shí),為了降低長間等待對用戶體驗(yàn)的影響,我們據(jù)單個(gè)模型訓(xùn)練時(shí)間以及正在排任務(wù)數(shù),計(jì)算預(yù)期等待時(shí)間展示用戶。并且在聲音合成的訓(xùn)練任完成后,會主動(dòng)推送消息告知用,提升用戶的體驗(yàn)?!褡詈?,建了立體化監(jiān)控系統(tǒng),對每一條訓(xùn)任務(wù)的訓(xùn)練時(shí)間,排隊(duì)時(shí)間,訓(xùn)狀態(tài)進(jìn)行統(tǒng)計(jì)和分析。可以通過時(shí)大盤,觀測到一些因?yàn)橄到y(tǒng)異情況導(dǎo)致的任務(wù)耗時(shí)增加或失敗并設(shè)置告警及時(shí)通知相關(guān)方進(jìn)行預(yù),從而保障系統(tǒng)的順利運(yùn)行。03 實(shí)踐效果 / 價(jià)值我們對這兩個(gè)方案 (自定義 TTS1.0 方案和基于交互音頻的自定義 TTS2.0 方案) 進(jìn)行了 MOS 效果評測,結(jié)果表明方案 1.0 和方案 2.0 合成的聲音差異較小,評測數(shù)據(jù)如。我們在優(yōu)化了 TTS 合成效率及音色豐富度上,沒有太降低色的合成效果,依舊可以提供相自定義 TTS1.0 方案效果一致的音色,具有較強(qiáng)的提效降的價(jià)值。04 總結(jié)與展望本文系統(tǒng)性介紹了 OPPO 小布助手在用戶自定義 TTS 和提高用戶播報(bào)體驗(yàn)方面做的一些工作。要圍繞語音清洗,主說話人聚類小樣本 TTS 合成技術(shù)進(jìn)行了介紹,在工程實(shí)踐后照,著重介紹云端資源有限情況下的一些降本效的設(shè)計(jì)方法和理念。通過數(shù)據(jù)析,存在多個(gè)角色使用同一臺設(shè)交互的情況,例如: 母子共用手機(jī)等。我們介紹了,單設(shè)備存在說話人情況下,采用數(shù)據(jù)清洗和紋聚類的方法,挑選出了主說話的訓(xùn)練音頻,但針這種多角色情,如何確保同時(shí)輸出高純度的多話人訓(xùn)練樣本,是未來重點(diǎn)探索方向。自定義 TTS 未來方向是 0 句話合成 (Zero Shot TTS), 即不需要用戶專門錄制聲音,僅依賴用戶史語音交互數(shù)據(jù),即可實(shí)現(xiàn)高自度、高相似度的語音合成效果。技術(shù)屬于低資源合成范疇,因此們將重點(diǎn)增強(qiáng)語音數(shù)據(jù)自動(dòng)過濾能,增強(qiáng)高質(zhì)量數(shù)據(jù)的利用率,低低質(zhì)量數(shù)據(jù)的利用率,并將用發(fā)音評測信息、聲紋信息用于語合成聯(lián)合建模,以此提升低資源音合成效果。05 團(tuán)隊(duì)介紹OPPO 小布助手團(tuán)隊(duì): 以小布助手為 AI 技術(shù)落地的關(guān)鍵載體,致力于提孟槐多場景、智慧有度用戶體驗(yàn)。小布助手是 OPPO 智能手機(jī)和 IoT 設(shè)備上內(nèi)置的智能助手。作為多終端、多態(tài)、對話式的智能助手,小布助的技術(shù)覆蓋語音識別、語義理解對話生成、知識問答系統(tǒng)、開放聊天、推薦算法、數(shù)字人、多模等多個(gè)核心領(lǐng)域,為用戶提供更好自然的人機(jī)交互體驗(yàn)。小布助的技術(shù)實(shí)力在技術(shù)創(chuàng)新及應(yīng)用上終保持領(lǐng)先,當(dāng)前已在多個(gè)自然言處理、語音識別相關(guān)的行業(yè)權(quán)賽事及榜單中獲得亮眼成績。OPPO 分貝實(shí)驗(yàn)室: 負(fù)責(zé)語音合成技術(shù)的突破領(lǐng)先,并在手機(jī)應(yīng)和各種 AIoT 場景的全面落地。語音合成技術(shù)屬于 AI 原子能力,是人機(jī)交互的重要一環(huán)成立四年來,我們的合成技術(shù)賦 OPPO 軟硬服各業(yè)務(wù)線,滿足用戶在多種場景下的播報(bào)需求除了通用合成提供 30 余款音色之外,我們還提供多情感合成多風(fēng)格合成、多語種合成、小樣合成、離線合成、語音變聲等能,覆蓋了 OPPO 絕大多數(shù)設(shè)備 (手機(jī)、手表、電視)。2020 年,Blizzard Challenge 國際評測中,我們獲得自然度第一、相似度第的成績。2021 年,我們的語音合成基礎(chǔ)能力獲得信通院頒發(fā)可信 AI 證書鯩魚