大模型的未來,快手在自己身上找答案

摘要

「AI 關小芳」受熱捧、「可靈」再躍遷。

2024 年上海舉辦的 WAIC(世界人工智能大會),帶來了出租司機口中「上海整個上半年最堵的兩天」,檢票口久違的出現了許多黃牛,這一切都意味著國內對大模型的關注從 2023 年小圈子里的迅速升溫,到現在的白熱。

所有人都在想盡辦法靠近大模型,所有公司都在尋找一種對大模型來說合適的描述方式,但從目前來看,大多都悻悻而歸。大模型的潛力無可置疑,所以總會有帶著好創意的亮眼產品和工具不斷冒出來,但這些產品和工具往往沒有長久生命,更像一種無法以點帶面的零敲碎打。而對于怎么用大模型也在浪潮涌起之后開始失焦。

這中間,大模型與大模型初創公司之間的獨特關系也開始怯魅。大模型競爭的入場券并不只握在大模型公司手里,反之,更多帶著場景和需求入場的科技公司開始展現出后勁。以大模型為「錘」去找「釘子」的興奮勁過去之后,大模型能力與我們當下所處的以互聯網為底色的信息時代之間,最平順的關系到底是什么,成了新的真問題。

01「一家以 AI 為核心的要素公司」

WAIC 上,快手展位中一個叫「AI 關小芳」的數字人被媒體和觀眾圍的水泄不通,她正在像人類一樣,能夠察言觀色并與觀眾實時對話,且帶有 GPT-4o 不具備的表情和肢體動作,是一個真正意義的多模態輸入輸出的實時互動智能體。

快手展位「AI 關小芳」數字人 | 圖片來源:視覺中國

而另一片場地上,快手視頻生成大模型明星「可靈」發布了一系列重磅升級和 AIGC 短劇,臺下歡呼聲此起彼伏。

對外界來說,AI 能力是抽象的,帶貨主播和短劇顯得更有體感;一家 AI 驅動的科技公司是抽象的,而從內容生產、內容匹配和內容分發所定義的一家內容平臺公司則是具體的。

從內容生產到內容匹配和內容分發,快手從來都是一家以 AI 為核心的要素公司。WAIC 的快手分論壇上,快手高級副總裁、快手主站業務與社區科學線負責人蓋坤重新強調了這一點,這是這家公司一切大模型戰略的起點。

核心業務的性質決定了一家公司與 AI 能力的交集在哪里。

快手高級副總裁、快手主站業務與社區科學線負責人蓋坤 | 圖片來源:快手

即便具備 AI 的基因,一家業務成熟的公司向一種新技術的轉身也往往并不會最快。2023 年,快手上的月活躍用戶突破 7 億,電商的全年 GMV 首次突破萬億規模,直播、短劇業務開始起勢,新的技術對自身業務的重塑是風險與機遇并存。而當大模型作為一種新事物度過了最初的燥熱,對這樣一種技術的熱捧也會回落到地面——我們到底該怎么用上大模型的能力?

重新強調了一家以 AI 為核心要素公司屬性的快手,給出的回答是所有內容層面在 AI 能力上的升級。

「快手的短視頻推薦是用戶最容易看到的核心技術,做好推薦的背后還有兩塊重要的內容相關技術。首先是內容理解,做好推薦,我們需要對背后的內容進行深入的理解,所以這涉及到內容理解的技術;我們還需要激發大量的用戶生產和創作視頻,所以我們還要有非常深厚的內容生產技術?!?/span>

「所以整個快手的 AI 技術會圍繞三大塊:內容推薦、內容生產、內容理解?!股w坤表示。

快手的大模型戰略非常具體——這場大模型的競爭,本質上比以往任何時候都更是一場內容之爭。而這些已經在生態里顯露頭角的產品背后,是快手在 AI 層面的長期積累,以及迅速建立起的一個清晰的大模型家族。

02 大模型驅動的「AI 關小芳」

今年快手在大模型方面動作頻頻,其中很多人關注到了「AI 關小芳」。

目前快手是全球 Top2 的短視頻直播平臺,財報顯示今年 Q1 快手日均 DAU 達到 3.94 億,每個用戶的日均使用時長達到了 129 分鐘——也就是說有 4 億用戶每天大概花將近 2 小時在快手平臺上,這占了中國互聯網總時長將近 10%。

人的聚集之外,快手正在形成一個巨大的消費場景。無數的買家和賣家在快手平臺進行電商交易,2023 年快手電商的月均動銷商家數同比增長超 50%,全年營銷客戶數同比增長超 100%,電商和線上營銷業務的增長均快于整體市場平均增速,其中去年四季度快手短視頻電商商品交易總額的同比增速超 100%。除了 1.18 億的全年 GMV,去年快手整年的總收入也已經突破了千億,有 1135 億的收入規模。

此時一個可以進一步拓寬直播電商想象力的數字人,理所當然的站在快手的舞臺中央。

「AI 關小芳」是由 AI 驅動,使用快手全自研的快意大語言模型、ASR、TTS 大模型以及數字人驅動生成模型的多模態數字人智能體??勺R別用戶體征、語音、形態等信息,具有多模態感知能力與智能化決策及執行能力,并以完全擬真的語氣、話術、表情、動作等進行回復。具備低延遲、高擬人表現力的特點,給用戶與真人相似的沉浸式交互體驗。

多模態互動能力讓「AI 關小芳」的能夠處理和理解多種類型的信息。

像人類感受世界的邏輯一樣,「AI 關小芳」在感知能力方面使用自研的感知大模型和高性能感知專家模型,能夠精確感知情緒、手勢、人臉屬性、頭發、衣服和場景等信息。

在核心的語音識別能力上,「AI 關小芳」使用自研的新一代 ASR 大模型,融合了當前最先進的語音預訓練方法,并依托海量優選音頻數據打造而成。該模型不僅支持普通話、英語及多種方言,還以其卓越的性能表現和極低的推理時延脫穎而出,廣泛應用于快手的多種場景。

理解了外部世界之后,受到考驗的就是「AI 關小芳」的表達能力。

「AI 關小芳」已經不是木訥的問答機器。它在對話能力方面使用了自研的情感陪伴快意大模型,該模型使用海量人物卡和角色對話數據進行情感陪伴能力的微調,顯著強化了模型在類人對話上的表現,該模型目前在類人對話評測榜單 CharacterEval 取得總分第一的結果。實際應用中,僅需要少量 system prompt 提示即可精準復刻人物的說話風格和內在性格,做到情商和智商兼備。結合自研的 embedding 模型和 RAG 系統,實現智能對話。

表達能力最終要落到語言的輸出上。而在文本到語音轉換(TTS)方面,「AI 關小芳」使用了自研的 TTS 大模型,支持中英文合成和任意音色克隆,只需 5 秒音頻就能克隆一個人的音色以及發音習慣和語氣,具有高度擬人逼真的效果,同時支持任意音色的歌唱。

在語言以外,面部和肢體渲染生成技術則夠能支持多語言和多種情緒的表現。面部表情模型通過自研的基于 DIT 的表情生成模型,進行多層級多模態控制信號引導,能夠準確表現多種語言的口型和豐富的情緒變化,如中性、高興、憤怒、悲傷和驚訝等。此外,肢體動作不僅能夠匹配語音節奏,還能表現復雜的語義動作,如「比心」和「生氣叉腰」,甚至可以展示跳舞和唱歌等才藝。

在回答問答時,「AI 關小芳」的端到端響應延遲達到 1 秒級,這意味著你可以像和真實的人交流那樣即時打斷它,然后離開轉換下一個話題。從溝通體驗上來說已經遠優于同類數字人產品效果。這是因為在工程架構方面,「AI 關小芳」實現了端云結合的技術架構設計,通過搭建分布式流媒體計算調度框架、自研大模型能力算子化適配和專有網絡協議加速,支持用戶雙工和 AI 智能體多模態半雙工交互。

「AI 關小芳」的背后是由快手全自研大模型支撐,這其中快意大語言模型作為數字人的大腦,發揮了重要的決策作用。

去年 3 月底至 4 月初,快手內部成立了一個聯合項目組,致力于大模型技術的研發。到了 8 月份,快手發布了第一個大模型,命名為快意大模型。

「所有公司在去年年初對于大模型技術還是感到非常的陌生,甚至有非常強的神秘感」,快手副總裁大模型團隊負責人張迪在談到快意大模型最初的立項時說。從最早開始到現在,快意大模型已經研發出了四個版本,從早期的 13B 版本到 66B 版本,到現在主力應用的 175B 版本和多模態版本,經過了多個版本的研發快意大模型已經在快手內部應用在包括素材創作、AI 互動和內容生產等多個場景中,數字人「AI 關小芳」就是其能力具象化的應用之一。

快手副總裁、大模型團隊負責人張迪 | 圖片來源:快手

在核心的基礎模型之下,底層的 IDC 算力中心到網絡架構 AI 平臺也都是快手自研。為了支持大模型的訓練和推理,快手建立了一個萬億參數規模的大模型訓練及推理基礎設施。這個基礎設施為大模型提供了必要的計算能力和存儲資源,確保了模型的高效運行和持續優化。

而上層如何將 AI 能力連接到具體的應用場景則有快手自身的業務需求引路??焓謽嫿艘粋€大模型服務系統和平臺,這使得不同的業務部門能夠方便地接入和利用大模型的能力。通過這個服務系統,快手能夠快速響應市場變化,推出新功能,滿足用戶需求,并推動業務的持續增長和創新。

——某種程度上,這也是為業務反過來倒推基礎模型如何收斂能力建立了一個通道。

「我非常有信心的說快手可能是國內在大模型應用上探索最深入的公司?!箯埖显?WAIC 上表示。而提供底層能力的快意大模型,也與推薦大模型、視覺生成大模型一起形成了快手核心的大模型矩陣。

03 大模型矩陣

快手的 AI 基因與其內容分發機制背后不斷打磨的推薦算法關系緊密,隨著大模型能力灌入,以 transformer 架構重塑的推薦大模型成型。

快手在推薦大模型中構建了一個名為 Action Transformer(ACT)的神經網絡。從名字入手非常好理解——在用戶行為序列上用 Transformer 架構進行建模?!高@里面遇到的挑戰還是非常大的」,蓋坤表示。

大家都知道大模型的響應是非常慢的,如果我們在用戶數十萬上百萬行為序列上進行建模,如何能夠在有效的計算資源下,能夠在用戶請求幾百毫秒的響應要求下,能夠把這個計算處理完,并且返回精確的結果?針對這個難點,我們原來基于 SIM 檢索模塊的架構會有一定程度上損失部分的信息。我們 ACT 創新的網絡架構設計能夠實現用戶全生命周期近似百萬行為序列的建模,能夠讓 Transformer 充分發揮用戶行為序列上面的信息潛力?!?/span>

蓋坤透露,目前快手的推薦大模型單次上線已經可以為快手 APP 每天帶來 4 億分鐘以上的時長增長,也就是說用戶在推薦大模型下會更喜愛快手推薦的內容。

而在視覺生成大模型方面,「可靈」的風頭正勁。6 月 6 日「可靈」發布后,憑借出色的生成效果以及對物理規律的理解和表現能力迅速在國內和海外出圈。包括 Stability AI 前 CEO 和 YC 現 CEO 在內,很多 AI 領域的重磅人士開始關注到這款產品,搶先測試的機會一號難求?!缚伸`」的第一個版本發布兩周后,6 月 21 日快手在 CVPR 現場發布了「可靈」新的圖生視頻和視頻續寫的能力,視頻續寫的長度可以達到 3 分鐘,生成視頻的尺寸選擇也擴展到了 6:19、9:16 和 1:1 三種尺寸。

在 WAIC 現場,「可靈」迎來了一個月內的第三次重大升級??焓中?,可靈的 AI 基礎模型再度升級,推出更加清晰的高畫質版,以及首尾幀控制、鏡頭控制等全新編輯能力,同時創作者單次生成的文生視頻時長增加至 10s,這是業內對用戶開放使用可實現的最長時長。

「可靈 AI」的 Web 端也已經正式上線?!缚伸` AI」的 Web 端集成了文生圖、文生視頻和圖生視頻三種不同的生成方式,集成為一站式的視頻和圖像編輯服務。蓋坤表示 Web 端的迅速推出,呼聲來自大量「可靈」的使用者們。數據顯示,已有約 70 萬人申請邀測,30 萬人拿到了使用權限,這些用戶在過去一個月的時間里通過「可靈 AI」生成了超 700 萬個視頻。

快手視覺生成與互動中心負責人萬鵬飛在介紹「可靈」背后技術方案時認為,AI 的視頻生成效果會持續快速提升,逐步接近圖形渲染和相機拍攝,將會對泛視頻行業帶來新的機遇。

快手視覺生成與互動中心負責人萬鵬飛 | 圖片來源:快手

一邊是「可靈」的飛速進化,另一邊是快手這次直接開源了圖像生成大模型「可圖」。

Sora 讓外界對大模型多模態能力的關注點都聚焦在了視頻生成上,但大模型的文生圖能力或許在目前更具備使用價值?!缚蓤D」集成了快手在大語言模型領域的深厚積累,通過數十億中文語料的訓練,成為最懂中文的文生圖模型,綜合性能超越了 SDXL/SD3 等開源模型以及 Midjourney 等閉源模型。在今年 5 月末發布后,「可圖」很快在智源研究院的能力測評中以 75.23 分位居文生圖大模型領域的全球第二水平。

此次性能強勁的「可圖」開源,本已逐漸顯出規模的文生圖大模型社區生態會添更多活力。

而與快手大模型矩陣逐漸形成并行的一條暗線是,快手對于大模型如何商業化的思考已經開始顯現。

04 開始顯現的良性循環

快手沒有在「百模大戰」中顯得太過興奮,但卻是在推進大模型商業化上最有效率的大公司之一。這一點領導快手內部整個大模型團隊的張迪想的非常清楚。

「我們花了非常多的錢做大模型的研發,我們不可能等到這個模型真正達到了所謂 AGI 的高度才能商業化應用,而是要階段性投入到應用中,我非常期望形成基礎模型研發和商業應用的良性循環?!?/span>

而這也是快手在這場大模型浪潮中清醒的地方?;A模型研發最終決定了大模型應用能力的上限,這是快手堅持基礎模型自研并且對模型進展保持足夠耐心的原因。但現實是基座模型不可能每天有質變發生,在這場仍舊漫長的從量變到質變的過程中,一家公司要在大模型研發中保持后勁,首先要從把模型研究拽離無止境的燒錢黑洞。

在「AI 關小芳」和快手展示的短劇里,很多人為其中的技術興奮,也有一些人看到了快手大模型商業化的潛力。

這個良性循環在今年上半年已經開始顯露出跡象。視頻廣告素材的應用、數字人直播類型應用、營銷對話的應用這三個方向成為這場計劃中的良性循環首先顯現出來的三條脈絡。

在廣告領域,視頻腳本生成,直播實時腳本生成,廣告線索的克服技術與快手原有的數字技術結合,現在已經能夠幫助商業化廣告主低成本的生成高品質短視頻和直播。蓋坤透露,快手 AIGC 的廣告消耗從 1 月份幾乎可以忽略不計的程度,到 6 月份快速增長,現在月度日均值消耗將近 2000 萬每天。

快手高級副總裁、快手主站業務與社區科學線負責人蓋坤 | 圖片來源:快手

包括女媧數字人、π數字員工在內的快手生態內的 AI 產品,在最近半年內已經幫助近 2 萬商家在快手平臺借助大模型能力實現智能化經營,獲得不菲回報??焓稚虡I化外循環和 AI 商業產品負責人劉逍透露,相比今年 1 月,今年 6 月的 AIGC 月活躍客戶數增長了 8 倍,月 GMV 規模提升了 64 倍,平臺 AIGC 廣告收入規模提升了 12 倍。

「視頻廣告素材的應用、數字人直播類型應用、營銷對話的應用,這三方面收入在公司廣告收入大概是平穩在 2000 萬每天,而到了 618,或者是游戲行業沖量的那幾天,收入會達到峰值 3000 萬每天的水平。日均廣告消耗規模的 GMV 的規模也漲的非???,大概是 84 倍的增長,這其中主要漲在數字人直播的帶貨規模?!箘㈠斜硎?。

05 尾聲

大模型能力與我們當下所處的以互聯網為底色的信息時代之間,最平順的關系到底是什么?這個問題在大模型作為一種劃時代的技術出現初期,或許就是無解的。只有等到對大模型充滿誘惑的「黑箱」逐漸怯魅,當它的能力邊界逐漸在與現實世界的碰撞中顯露出來后告別了對它的盲目狂熱之后,我們能夠帶著從前所有為人類帶來普惠的技術一樣平視它,最終把目光再次聚焦到自己身上,這個答案才會變的清晰起來。

在這一點上,快手給出了一個好答案。

 

*頭圖來源:視覺中國

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈.

極客之選

新鮮、有趣的硬件產品,第一時間為你呈現。

張鵬科技商業觀察

聊科技,談商業。

国产精品揄拍一区二区,欧美aⅴ精品一区二区三区,久久九九99这里有精品10,999精品在线