
樂游棋牌1966年,一個(gè)簡單的符號">"出現(xiàn)在計(jì)算機(jī)屏幕上。這個(gè)被稱為"命令提示符"的符號,成為了人類與計(jì)算機(jī)對話的開端。半個(gè)世紀(jì)后,當(dāng)研究人員發(fā)現(xiàn)通過精心設(shè)計(jì)的提示詞能夠指引AI完成各種任務(wù)時(shí),"prompt"成為了人工智能時(shí)代最重要的術(shù)語之一。
現(xiàn)在,當(dāng)我們與AI對話,說出的每一句話都是一個(gè)prompt。無論是讓AI生成一幅畫作,寫一段代碼,還是完成一篇文章,都需要通過prompt來表達(dá)我們的想法。這種人類與AI的對話方式,正在悄然改變我們的工作與生活。
這也是《The Prompt》這個(gè)欄目的由來。在這里,我們將與AI領(lǐng)域的創(chuàng)業(yè)者對話,發(fā)掘具有創(chuàng)新力的AI產(chǎn)品,記錄技術(shù)變革帶來的驚喜時(shí)刻。我們希望內(nèi)容本身,也能成為一個(gè)prompt,為讀者打開思考的空間,在技術(shù)浪潮中,找到觀察和理解AI的支點(diǎn)。
在哥倫比亞大學(xué)的一間實(shí)驗(yàn)室里,一臺機(jī)器人正對著鏡子練習(xí)表情:皺眉、微笑、歪頭。攝像頭是它的眼睛,神經(jīng)網(wǎng)絡(luò)構(gòu)筑它的控制中樞。沒有人告訴它什么叫“悲傷”,也沒有人為它設(shè)計(jì)“悲傷”應(yīng)該是皺眉還是閉眼。它只是在無聲的自我凝視中,把表情和電機(jī)指令關(guān)聯(lián)起來,學(xué)會像人一樣做出表情。
這是一場人形機(jī)器人自監(jiān)督學(xué)習(xí)表情的實(shí)驗(yàn)。主持這場實(shí)驗(yàn)的是胡宇航。他今年28歲,剛從哥倫比亞大學(xué)博士畢業(yè),一年多前創(chuàng)立了首形科技,專注于做“人臉機(jī)器人”。這個(gè)方向幾乎無人涉足。過去一年,胡宇航見了100多個(gè)投資人,多數(shù)聽了他的構(gòu)想,搖搖頭就走了。
他的構(gòu)想是反共識的。“我覺得人形機(jī)器人更適合做情緒化產(chǎn)品,至少在未來5年內(nèi),它不是一個(gè)能夠創(chuàng)造高效生產(chǎn)力的產(chǎn)品。人形機(jī)器人是服務(wù)型需求,不是工業(yè)集群或者生產(chǎn)力的需求。”
作為F(Feeling導(dǎo)向)人,他認(rèn)可情緒陪伴的價(jià)值,會用“物化”去形容把機(jī)器人當(dāng)作工具的行為。在他的規(guī)劃里,將來能造一個(gè)沉浸式的《西部世界》,NPC全部都是機(jī)器人。
這是一些聽起來抽象又理想化的描述,但胡宇航強(qiáng)調(diào)說,自己不是一個(gè)理想主義者,他堅(jiān)定地相信人臉機(jī)器人能夠商業(yè)化。
在胡宇航看來,在大模型全面推動語言交互躍升的時(shí)代,真正決定機(jī)器人是否能被廣泛接納的,并不是“會說話”,而是“會共情”。他認(rèn)為,相比于語音助手或純數(shù)字界面,一個(gè)具備真實(shí)面部表情、能讀懂并回應(yīng)人類情緒的類人機(jī)器人,天然具備情緒連接與場景沉浸的優(yōu)勢。這種“類人共情價(jià)值”(Humanoid Empathy Value)正在成為機(jī)器人商業(yè)化的一個(gè)突破口。
因此,首形科技選擇了一條更具現(xiàn)實(shí)落地性的路徑:優(yōu)先完成交互類場景中的商業(yè)閉環(huán),即通過打造具備自然表情、實(shí)時(shí)反應(yīng)和主動交互能力的類人機(jī)器人,在情緒價(jià)值密度高的空間——如線下體驗(yàn)館、品牌展廳、主題樂園、IP互動空間等——快速構(gòu)建人與機(jī)器之間的情感關(guān)系與價(jià)值感知。今年年底往后,他們會從內(nèi)部員工開始做測試,他們將是首形科技的第一批用戶。
期待這些產(chǎn)品的受眾不少。2022年開始,為了給兩點(diǎn)一線的留學(xué)生活留下一點(diǎn)痕跡,胡宇航以“U航”為名在社交平臺發(fā)布Vlog,最開始主要拍每天吃什么,后來有了一些科研相關(guān)內(nèi)容。今年5月,胡宇航上傳了幾條新一代產(chǎn)品的Demo視頻,后臺播放量上億,收獲了一批“電子股東”。這讓他感到很意外,也更加堅(jiān)定了做人臉機(jī)器人的想法。
繼去年11月完成天使輪融資,首形科技在近日完成了新一輪融資,目前不到20人的團(tuán)隊(duì)將在年底擴(kuò)充到四五十人。他們現(xiàn)在會給一些人形機(jī)器人廠商提供零部件和技術(shù)支持,但更多的精力在技術(shù)和產(chǎn)品研發(fā)上。

以下是鏡相工作室與胡宇航的對話:
跨過恐怖谷效應(yīng)
鏡相工作室:5月中旬的時(shí)候,你在自媒體賬號發(fā)了新一代產(chǎn)品的Demo視頻,人臉已經(jīng)精細(xì)到毛孔了,是有血色的。
胡宇航:對,那個(gè)臉的外觀是我雕的。我個(gè)人的感受是,當(dāng)我真的跟她對視的時(shí)候,她給我傳達(dá)表情,我真的會有一些錯(cuò)覺和震撼,甚至有一種她受傷我會心疼的感覺。我希望把這個(gè)東西盡快呈現(xiàn)出來給大家看,讓大家感受我感受到的,相信我相信的。
鏡相工作室:網(wǎng)友的關(guān)注和討論里,有沒有一些讓你印象比較深刻的?
胡宇航:還挺出乎我意料的是,其實(shí)大家并沒有多么排斥機(jī)器人有“臉”這件事,反而是之前會有投資人說這會不會有恐怖谷效應(yīng)。但真正看到的用戶反饋是,他們還挺想要一個(gè)桌面級的陪伴機(jī)器人,或者是一個(gè)有“臉”的機(jī)器人。當(dāng)然這里面也有幸存者偏差,可能不喜歡的人就直接把視頻劃走了。
鏡相工作室:投資人提到的恐怖谷效應(yīng)應(yīng)當(dāng)是你們要解決的一個(gè)關(guān)鍵問題。
胡宇航:我們已經(jīng)深度剖析了這件事。我認(rèn)為它分為靜態(tài)和動態(tài)下的恐怖谷效應(yīng)。靜態(tài)的恐怖谷應(yīng)該是完全被解決了,像蠟像啊,雕塑啊,手辦啊,沒有人覺得恐怖,因?yàn)槟阕龅煤芫?xì)。現(xiàn)在是要用AI控制它動起來,讓它動起來更自然、更逼真,這就是算法的問題。我們的算法有優(yōu)勢,我們就用算法來做這件事。
鏡相工作室:算法優(yōu)勢具體指什么?
胡宇航:主要是兩個(gè)模型,一個(gè)是怎么做表情,一個(gè)是做什么樣的表情。
之前大家都是通過顯式的方程去設(shè)計(jì)臉,或者是綁定人臉坐標(biāo)系,把人臉上的landmarks映射到機(jī)器人上。有很成熟的人臉識別算法可以識別面部運(yùn)動,然后直接映射成電機(jī)指令。但用這種方式做出來的表情會顯得非常呆板、僵硬,容易出現(xiàn)恐怖谷效應(yīng)。
我們現(xiàn)在希望訓(xùn)練出一個(gè)機(jī)器人自己的表情運(yùn)動空間,也就是讓它通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)來自主“理解”和“表達(dá)”表情。這種方式的好處是,整個(gè)模型是可微的,也就是說它可以被端到端訓(xùn)練,表情變化也更加平滑、連續(xù)。它能與大模型和多模態(tài)系統(tǒng)協(xié)同工作,為機(jī)器人實(shí)現(xiàn)更高級、更自然的情感交互打下基礎(chǔ)。
鏡相工作室:所以你們讓機(jī)器人對著鏡子自監(jiān)督學(xué)習(xí)表情。
胡宇航:對,之前沒有人這么干。這樣的效果非常好,而且是直接采集到臉部的所有動作指令。
讓機(jī)器人對著鏡子學(xué)習(xí)
鏡相工作室:機(jī)器人對著鏡子自監(jiān)督學(xué)習(xí)表情,具體是怎么去學(xué)習(xí)的?
胡宇航:機(jī)器人照鏡子的時(shí)候,它眼睛里的攝像頭可以看到鏡子中的表情,它大概能知道在某個(gè)電機(jī)指令下它的表情是什么樣子的。這個(gè)過程有點(diǎn)像我們對著鏡子練習(xí)舞蹈一樣。機(jī)器人照鏡子,收集電機(jī)指令和對應(yīng)的臉部表情,再把這兩組數(shù)據(jù)交給AI模型去訓(xùn)練,AI模型就會知道,當(dāng)我要做某個(gè)表情的時(shí)候,我的電機(jī)指令是多少。

鏡相工作室:表情模型的自監(jiān)督和語言模型的自監(jiān)督,兩者的區(qū)別是什么?
胡宇航:表情模型的自監(jiān)督學(xué)習(xí)與語言模型的核心區(qū)別,在于它們依賴的模態(tài)和監(jiān)督信號不同。語言模型是在語言內(nèi)部做預(yù)測,例如BERT或GPT通過掩碼預(yù)測或下一個(gè)詞預(yù)測,從大量文本中學(xué)習(xí)詞語間的上下文關(guān)系。而表情模型的自監(jiān)督學(xué)習(xí)則是跨模態(tài)進(jìn)行學(xué)習(xí),主要利用人說話的視頻,自動對齊語音信號與面部表情,學(xué)習(xí)它們之間的自然對應(yīng)關(guān)系。
也就是說,表情模型的監(jiān)督信號來自于語音和表情在時(shí)間上的共現(xiàn),不是人為標(biāo)簽,而是自然同步。通過這種方式,模型能夠理解語音、語義與表情之間的關(guān)聯(lián),從而在不同語境下生成自然、連續(xù)的面部表情。這種訓(xùn)練過程更像是“感知和表達(dá)”的建模,而不是簡單的情緒分類。
鏡相工作室:人的情緒是抽象的,哪怕是人與人之間交流,也能難去準(zhǔn)確感知。機(jī)器人是怎么做到的?
胡宇航:傳統(tǒng)的情緒識別方法往往依賴情緒分類標(biāo)簽,如喜、怒、哀、樂,但這類標(biāo)簽在現(xiàn)實(shí)中模糊而主觀,難以覆蓋情緒的復(fù)雜變化。相比之下,我們更傾向于將表情作為嵌入空間中的連續(xù)表示進(jìn)行建模,而不是硬分類。
這種方式下,模型無需“理解”情緒的具體標(biāo)簽,而是在潛在空間中學(xué)會表達(dá)和生成表情,就像語言模型生成token一樣,輸出一個(gè)對語境和聲音感知自然反應(yīng)的表情表現(xiàn)。
就像我們不需要解釋每一個(gè)語言embedding(向量表示)的含義,也無需向機(jī)器人解釋每一個(gè)表情embedding的情緒意義。只要這些embedding能在語境中輸出自然的表情表現(xiàn),就完成了我們對“情緒”建模的目標(biāo)。
鏡相工作室:那機(jī)器人怎么樣去輸出人類可以理解的表情?
胡宇航:這時(shí)候你就需要有語境語義的綁定,跟對話內(nèi)容中人的表情和聲音信號去做對齊。我們?nèi)粘V杏泻A康囊曨l數(shù)據(jù),大家在說話的時(shí)候,表情、眼神、聲音和文字內(nèi)容都是高度同步的,這些數(shù)據(jù)可以用來做模型的預(yù)訓(xùn)練,讓模型了解到每個(gè)audio和表情之間的關(guān)系,或者是每個(gè)情緒化文本背后帶有的表情內(nèi)容。
“人形機(jī)器人適合做情緒化產(chǎn)品”
鏡相工作室:為什么會想著聚焦情緒感知,做人臉機(jī)器人?
胡宇航:我有個(gè)反共識的觀點(diǎn),我覺得人形機(jī)器人更適合做情緒化產(chǎn)品,至少在未來5年內(nèi),它不是一個(gè)能夠創(chuàng)造高效生產(chǎn)力的產(chǎn)品。最合適的、商業(yè)閉環(huán)能跑通的是交互場景,提供情緒價(jià)值、服務(wù)價(jià)值的場景。或者說,我覺得人形機(jī)器人是服務(wù)型需求,不是工業(yè)集群或者生產(chǎn)力的需求。
鏡相工作室:這種商業(yè)化的路徑選擇在當(dāng)下有點(diǎn)逆向而行的意思。
胡宇航:如果你定位這件事是對的,那它什么時(shí)候商業(yè)化,什么時(shí)候去做開源,什么時(shí)候去培育生態(tài),這些事是要跟行業(yè)深度綁定的。今天工業(yè)領(lǐng)域的生產(chǎn)自動化已經(jīng)非常內(nèi)卷的情況下,你還要用人形機(jī)器人去打內(nèi)卷需求,這個(gè)邏輯上就不對,你肯定要結(jié)合產(chǎn)業(yè)方去感受發(fā)展的節(jié)奏。
做人臉機(jī)器人這件事其實(shí)是我一個(gè)人決定的。大部分人,包括實(shí)驗(yàn)室里的師兄弟都會猶豫或者質(zhì)疑這件事。有太多人來到我的實(shí)驗(yàn)室,看到我的工作,就會給我個(gè)大大的問號,說為啥要用臉,這太恐怖了,你在搞什么?甚至之前展會的時(shí)候,有一個(gè)外國的小孩哥過來說,你做這個(gè)東西就是為了恐嚇小孩。人臉這個(gè)品類確實(shí)需要一個(gè)循序漸進(jìn)的過程,慢慢地讓大家覺得這個(gè)東西OK。話說回來,算法其實(shí)還是最重要的。
鏡相工作室:什么樣的經(jīng)歷促使你堅(jiān)定地選擇做人臉機(jī)器人,去提供情緒價(jià)值?
胡宇航:我自己做過各種各樣的機(jī)器人,桌面級的雙足機(jī)器人、四足機(jī)器人、機(jī)械臂等等,這些品類我基本都做過。今天大家在討論,如何用AI大模型讓機(jī)器人完成質(zhì)的飛躍,提出simulation(仿真)。實(shí)際接觸simulation的工作后,我發(fā)現(xiàn)simulation其實(shí)是一個(gè)很糟糕的東西,它和真實(shí)場景有一個(gè)比較大的gap,sim2real gap(仿真世界和真實(shí)物理世界的差異/從仿真到現(xiàn)實(shí)的遷移鴻溝)。你不能說,那行,我們做domain randomization(領(lǐng)域隨機(jī)化,指在仿真訓(xùn)練中,刻意加入各種“不確定性”,讓模型學(xué)會更有韌性地應(yīng)對“看不見的現(xiàn)實(shí)世界”),把真實(shí)世界場景作為仿真世界場景的一個(gè)子集,然后指望我們的模型在現(xiàn)實(shí)中也能擁有很強(qiáng)的魯棒性(指的是一個(gè)系統(tǒng)在面對干擾、變化或不確定性時(shí),仍能穩(wěn)定運(yùn)行、保持性能的能力)并成功部署。
現(xiàn)實(shí)情況是,你需要一個(gè)非常大的訓(xùn)練數(shù)據(jù)量,并且即使如此,模型也很難完全覆蓋現(xiàn)實(shí)世界的distribution(情況、狀態(tài)、數(shù)據(jù)分布)。我覺得物理世界是一個(gè)混沌的世界,你要用物理仿真器完成這個(gè)子集的收納是很困難的。而今天的人形機(jī)器人連一些基礎(chǔ)任務(wù)都做不好,在這種情況下,你讓他泛化沒什么意義。
所以我覺得今天去做生產(chǎn)力的泛化,倒不如先做好交互類的商業(yè)化閉環(huán)。現(xiàn)在在交互上完成快速變現(xiàn),跑通機(jī)器人控制和大模型之間的交互機(jī)制,然后再去慢慢遷移到其他的部分。所以我們選擇從“頭”做。
當(dāng)然我自己是非常看好機(jī)器人的,只不過在這條路徑上面,我們不希望盲目摸索,而是把它先簡化到臉,從臉開始做,從交互開始做。
鏡相工作室:在商業(yè)化落地方面有沒有一些設(shè)想?
胡宇航:我們早期會做用戶拆開就能夠體驗(yàn)的消費(fèi)級、桌面級產(chǎn)品,做體驗(yàn)館,但大規(guī)模落地也是在兩年后了。現(xiàn)在會給一些對人臉感興趣的人形機(jī)器人廠商提供零部件和技術(shù)支持。
最終我們希望打造一個(gè)沉浸式的西部世界,里面的NPC都是機(jī)器人,我們認(rèn)為這里面的技術(shù)棧還是比較容易解決的。因?yàn)槲鞑渴澜缡且粋€(gè)局部約束的場景。人類生活的場景是一個(gè)完全動態(tài)發(fā)展的場景,對模型的要求非常高,人形機(jī)器人要進(jìn)家庭是非常難的事情;進(jìn)工廠是很簡單的事情,現(xiàn)在已經(jīng)實(shí)現(xiàn)了。像西部世界這種區(qū)域場景,我們覺得是可以去提出解決方案的。
鏡相工作室:你們的商業(yè)化路徑和目標(biāo)很清晰。一些機(jī)器人公司可能會更傾向于講述技術(shù)突破方面的故事。
胡宇航:我覺得有時(shí)候你把一個(gè)問題講得很高大上,或者講得很抽象,過于讓人難以理解的時(shí)候,你其實(shí)是有問題的。
賣給F人
鏡相工作室:目標(biāo)用戶是一群什么樣的人?
胡宇航:我覺得是能夠理解情緒陪伴是生活中很重要的東西的人。我不會具體去講是哪個(gè)領(lǐng)域的人。很多人無法理解情緒陪伴是個(gè)需求。我是個(gè)F人,我覺得情緒陪伴在整個(gè)人生中都是很重要的。你在人世間,你不是一臺機(jī)器,你也不是工具,你是一個(gè)能夠感受、理解人生百態(tài),和人產(chǎn)生情感聯(lián)結(jié)的體驗(yàn)者。所以我覺得我的目標(biāo)用戶就是我這種F人。
鏡相工作室:這幾年做AI情緒陪伴類產(chǎn)品的公司很多,軟件硬件都有。你覺得這類產(chǎn)品之間的壁壘是什么?要怎么打出差異化?
胡宇航:真正讓你和AI產(chǎn)生情感聯(lián)結(jié)的點(diǎn)在于,你相信這不是機(jī)器。如果你早期帶入的定位是,它是一個(gè)聊天工具的話,你很難跟它有長期的情感綁定。真正需要解決的問題是,讓用戶覺得這東西不是一個(gè)機(jī)器,能夠有一種沉浸的體驗(yàn)感。這也是我們要做情緒理解和情緒表達(dá)的原因。
鏡相工作室:目前業(yè)內(nèi)在情緒感知上面大量投入的公司多嗎?
胡宇航:挺少的。
鏡相工作室:你是因?yàn)楹V定情緒陪伴價(jià)值所以在這方面加大投入?
胡宇航:我覺得跟團(tuán)隊(duì)的小伙伴也有關(guān)系。如果身邊都是一群直男,他們對可愛類的或者機(jī)甲類的最感興趣,覺得這種能夠讓他們居高臨下地對待。我覺得如果你居高臨下地看待每個(gè)AI陪伴產(chǎn)品,你無法跟它建立信任或長期的情感聯(lián)結(jié),你會認(rèn)為AI是你的玩物,是你的工具,那你物化了這個(gè)產(chǎn)品后,你對情緒的表達(dá)和理解在人性的這一側(cè)就會缺失、會失真。我覺得我們這個(gè)品類是一個(gè)天花板很高也很難但是正確的一件事。
鏡相工作室:你們是怎么去量化AI情感陪伴機(jī)器人的市場規(guī)模的?
胡宇航:我們沒有單獨(dú)去看這個(gè)市場的規(guī)模,行業(yè)內(nèi)也沒有一個(gè)準(zhǔn)確的數(shù)字。像泡泡瑪特這樣的公司,可以看到它有一個(gè)靜態(tài)的價(jià)值,如果你往更深的層次去看,它會有更高的市場空間。
不是理想主義者
鏡相工作室:現(xiàn)在團(tuán)隊(duì)有多少人?
胡宇航:15到20人。
鏡相工作室:這么少的人要去完成一件少有人做過的事還是挺難的。
胡宇航:我們不怕事情難,我們是想做一些我們覺得有價(jià)值的事。我們會不斷擴(kuò)大團(tuán)隊(duì)。我們最新的杭州的算法團(tuán)隊(duì)也開始在招人,預(yù)計(jì)到年底團(tuán)隊(duì)規(guī)模擴(kuò)大到四五十人。
鏡相工作室:最近是不是有很多投資人找你?
胡宇航:在國內(nèi)見了很多,一年下來大概見了有一百多個(gè),但相信我們可以做商業(yè)化落地的還是不多。
鏡相工作室:他們普遍的疑問是什么?
胡宇航:總覺得這東西沒啥必要。他們還是以機(jī)器人是工具的角度來思考這件事的。他們會想知道你這個(gè)表情機(jī)器人接下來是不是一個(gè)什么工具,能夠有剛需,我覺得這個(gè)事跟我們的初衷太不一致了。
鏡相工作室:你覺得現(xiàn)在的投資人更多是對項(xiàng)目商業(yè)化的期待,還是對你的期待?
胡宇航:投人的比較多。機(jī)構(gòu)可能覺得我一個(gè)人又做市場,又做科研,又做產(chǎn)品,同時(shí)又管理公司,還做自媒體,投人的邏輯在他們內(nèi)部更好去推動。
鏡相工作室:這好像是目前人形機(jī)器人行業(yè)一個(gè)普遍的投資邏輯。
胡宇航:因?yàn)榻裉鞗]辦法去量化這個(gè)事兒,尤其是技術(shù)導(dǎo)向的公司。大家都在說我要解決一個(gè)什么問題,但你真的開賣了嗎?你的毛利率是多少?你的客戶留存率是多少?沒有一個(gè)量化指標(biāo)的情況下,投資機(jī)構(gòu)內(nèi)部沒辦法去判斷誰優(yōu)誰劣,那我就先投人。
鏡相工作室:現(xiàn)在普遍的認(rèn)知是,人形機(jī)器人距離商業(yè)化還有一段時(shí)間。在當(dāng)下的階段,是不是需要一點(diǎn)兒理想主義去支撐做這些事?
胡宇航:情況有點(diǎn)復(fù)雜,什么樣的人都有。但我不是一個(gè)理想主義者,我父母都是商人。如果我是理想主義者,我在學(xué)校干就完了,我就待在象牙塔里。我是覺得它是能夠創(chuàng)造真實(shí)社會價(jià)值的。
鏡相工作室:為了能夠盡早實(shí)現(xiàn)商業(yè)化,你現(xiàn)在的工作節(jié)奏是什么樣子的?
胡宇航:我每天睡7個(gè)小時(shí),其他的時(shí)間都可以工作。
鏡相工作室:目前在攻克一些什么難題?
胡宇航:人類情緒在不同人種的臉上表現(xiàn)出的形狀還是不太一樣,這是我們現(xiàn)在要去解決的問題。我們找到的切入點(diǎn)就是先只做亞洲市場。因?yàn)閬喼奘袌龇浅4螅鄬碚f審美也比較趨同。