2026-03-26 11:04:48
3月24日京東公布AI研發應用進展,包括開源大模型、推出“龍蝦”產品組合及“自由態數字人”等。“龍蝦”智能體聚焦模型能力突破,窗口期僅一年。數字人解決三大痛點,規模化應用仍需探索。此外,京東正建設全球最大具身智能數據中心,發動數十萬人采集超1000萬小時真實場景數據,探索視覺語言導航等人機交互工作。
每經記者|王郁彪 每經編輯|畢陸名
“龍蝦”火爆出圈、機器人跳舞打拳刷屏、數字人直播帶貨“如假包換”,隨著AI技術的加速迭代,整個行業也來到了尋找場景落地的關鍵期。如何實現成本、效率、性能的平衡,以及如何打通產業落地的“最后一公里”,這些難題都需要更多的“參考答案”。
3月24日,京東公布了部分AI研發應用的階段性進展,包括開源大模型JoyAI-LLM Flash、推出自家“龍蝦”產品組合,以及率先推出“自由態數字人”等。
就“龍蝦”這一話題,京東集團相關技術負責人在接受《每日經濟新聞》記者(以下簡稱“每經記者”)采訪時表示,“龍蝦”這個放大器的作用肯定在今年還會持續,預計到今年底或明年此時,我們有望看到L4級模型問世;屆時,許多大家現在想象不到的應用方式將百花齊放。
而在數字人技術研發方面,京東JoyStreamer推出“自由態數字人”,相對傳統數字人擁有更自然靈動的交互形態。每經記者在現場觀看數字人“吃播”示例時,明顯能夠感覺到其在動作、姿態等都更加流程自然,即使臉部遮擋也能保持高保真質感。
字節與阿里密集打響AI競賽,國內科技大廠的角力場幾乎完全轉向技術落地深度與生態協同廣度的全面較量。京東的“AI解法”另辟蹊徑,全方位對準產業端,能否后來居上?
“龍蝦”智能體以及背后的“Token(詞元)經濟”成了近來科技圈關注的焦點。
相較于推出自家“龍蝦”產品,京東云選擇基于JoyAI大模型,通過開源OpenClaw架構推出輕量云主機一鍵部署、一體機等產品形態。
該技術負責人告訴記者,很多人看到的是“龍蝦”,我們看到的其實是模型。
兩年前,OpenAI給大模型定義了5個Level(等級),第一級是Conversation(對話),第二級是Reasoning(推理),第三級是Agentic AI,即AI達到了一個整體系統,在系統中自主采取行為解決問題。第四級為Innovation(創新)階段,處于該階段的系統不再依賴人工干預,且具備自主的創新思維。最后一級為Organization(組織),即達到或超越人類水平,能夠提升工作中的效率。
在問及現在的“龍蝦”與去年的Manus(全球首款通用AI智能體)有何不同時,該技術負責人指出,核心問題仍在于基礎模型的能力。去年的基模能力剛剛突破第二級,即便是去年爆火的DeepSeek,也僅處于Reasoning(推理)層級,其模型層面尚未具備Agentic(自主代理)特性。
該技術負責人補充說:“而做Agent其實需要大量的工程、策略、流程,最終把它‘包’起來。去年底今年初的ClawCode模型,在模型層面就突破了L3級,真正來到了Agentic層面了。”
在技術路線層面,該技術負責人則認為,可能很快就會看到大模型進入下一個Innovation層級,即模型本身具有創作能力。“這個創作不是簡單的創作一段話或者一首歌,而是真的在一些高難度的,需要人類充分發揮智慧的地方,AI去替代。當然現在還沒有發生,可能一年內就會發生,但這個技術路線是確定的。”他進一步解釋。
他還判斷,AGI在軟件模型這一塊,可能就這一兩年的時間,快的話可能今年年底就會見分曉。能不能趕上這一波Agentic模型,再趕上Innovation模型,對于一家公司來說,窗口期可能就一年的時間。
“不過,‘龍蝦’這個放大器的作用在今年還會持續,L4級別的模型出來,那時候又會有很多大家現在想象不到的應用方式百花齊放。”該技術負責人表示。
在觀看京東數字人JoyStreamer技術進展時,每經記者注意到,目前數字人行業三大技術痛點正被逐一解決,包括音視頻不同步、多模態控制不協調、長視頻身份失真。
除了常規披露技術路線外,京東數字人JoyStreamer率先推出“自由態數字人”。其支持人物自然走動與靈活擺姿,具備鏡頭跟隨及流暢出畫入畫的能力,且在臉部遮擋場景下也能保持高保真質感。
數字人技術的提升是否意味著行業離數字人規模化應用更進一步?京東數字人相關負責人告訴記者,規模應用最大的挑戰在于,減少商家端的實際操作,不要對其生成有太多依賴條件。比如,原來30分鐘拍攝素材,到3分鐘再到單張圖片。
“去年我們推出的復刻模式是,其歷史直播過的素材都可以用來做數字人直播的生成。”他表示。
每經記者了解到,在解決數字人規模應用的問題上,Agent(智能體)技術產品的出現也帶來了一些利好。該負責人舉例稱,目前會通過Agent打通目前已在平臺上錄入的海量信息,包括商品本身、優惠活動等問題。一來是可以準確、高質量地回答用戶問題,二來是可以減少對商家的依賴,這使得該方案適用于數字人的大規模推廣。
數字人在應用過程中的實際收效如何?每經記者從京東方面了解到,直播間的轉化是毫無疑問的最終業務指標。但也會看過程指標,比如,用戶在直播間停留時長是多少,用戶在直播間里的交互輪數是多少,以及如何反映用戶對商品的潛在需求等。
具身智能從去年爆火到今年熱度依然不減。3月以來,具身智能賽道多筆大額融資落定。此外,3月20日,上交所受理宇樹科技科創板IPO申請,預計募資規模42.02億元,有望成為A股“人形機器人第一股”。
京東去年在具身智能領域罕見地完成了“六連投”,且近年來多次發布機器人產業計劃。前幾日的中國發展高層論壇2026年年會上,京東集團CEO許冉透露,京東正在建設全球規模最大、場景最全的具身智能數據中心。
目前具身智能領域的一大痛點,就是真實場景數據匱乏,導致模型訓練不足,進而影響產業落地。“在兩年內我們將積累超過1000萬小時的真實場景數據,覆蓋物流、家庭、城市等五大場景。”許冉稱。
對于該項目的進展,京東相關負責人在此次采訪中透露,數據采集過程中,京東將發動內部超過10萬名各類職業員工,以及外部最多50萬各行業人員,其中在宿遷就將發動超10萬市民,開展“人類規模最大的數據采集行動”。
每經記者了解到,該項目具體落地執行周期為,未來一年內,積累500萬小時人類真實場景視頻數據,兩年內將超1000萬小時,并同步采集100萬小時機器人本體數據。
京東具身智能業務相關負責人告訴記者,剛開始大家都關注機器人的硬控和VLA雙臂或者靈巧手的操作,讓機器人表現得像人,能聽懂人話并按人的想法反饋,這叫‘言行一致’。目前市面上大部分做機器人和機器狗的公司都已經涉及了這一領域,但這只是其中的一部分(功能/階段)。
“除此之外,我們京東探索研究院的老師們還在做VLN無阻導航(視覺語言導航)這一塊,并將其集成到我們的JoyInside里,去結合不同的機器人和機器狗,做更多人機交互的工作。”該負責人補充說。
封面圖片來源:楊卉
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP