3月20日,知乎正式發布了全新AI功能“發現·AI搜索”。這也是繼去年發布“知海圖AI”大模型后,知乎在人工智能方面的又一重要進展。
據知乎創始人、董事長兼CEO周源介紹,知乎的AI搜索集搜索、實時問答和追問功能于一體,而且與其他大模型提供的內容不同,知乎AI搜索的內容均來自社區專業創作者的可信賴內容。
上圖為記者測試知乎AI搜索
記者測試發現,在知乎AI搜索中提問“如何使用大模型”,除了其他語言大模型都有的文字回答外,知乎AI搜索還在結果上面列入了內容來源,比如記者測試的問題答案,就有6位答主參與了貢獻,并且可以通過點擊直接跳轉至這些回答頁面。
知乎COO、高級副總裁、社區業務負責人張寧在接受21世紀經濟報道記者采訪時表示,知乎的AI產品一定是建立在社區生態上面的?!拔覀円恢痹谒伎嫉氖牵珹I搜索搜出的結果,如何再反哺給創作者,讓創作者感覺到內容是被更多人看到的”。
所以在內容呈現上,知乎有別于其他模型,會在回答內容中標注內容來源,這樣既提升了內容的可溯源性,加大了對創作者的曝光,同時也大大增強了用戶對內容的信任度。
記者了解到,知乎的AI搜索功能是以AI創業公司面壁智能的大模型產品為基礎。面壁智能成立于2022年8月,創始成員全部來自清華大學NLP實驗室。2023年3月,知乎作為領投方參與了面壁智能的天使輪融資,同年4月,知乎聯合面壁智能發布了“知海圖AI”中文大模型。
周源此前曾向21世紀經濟報道記者表示,在AI時代,生產力的三要素分別是應用場景、專有數據和基礎模型。其中,知乎在應用場景和專有數據方面,占據獨特優勢。而在基礎模型方面,投資面壁智能并與其進行模型共建,是知乎構建基礎模型層能力時,選擇的一條捷徑。
而這次“AI搜索”功能上線,算是知乎在大模型技術應用上的一個階段性成果。張寧告訴21世紀經濟報道,知乎針對AIGC的布局,在ToC產品上會聚焦于“AI搜索”。
“因為AI搜索跟知乎用戶的心智是高度對齊的,用戶希望在知乎解決問題,希望獲得專業可信賴的優質解答,而正是AI搜索所提供的能力”。張寧說。
所以接下來,知乎也會在AI搜索方面投入更多精力,包括在特定的專業領域上進行更多的數據標注,以提高生成內容的可信度。
目前,市面上做AI搜索的公司已經不少,對知乎而言,其擁有的一大優勢就是高質量的中文語料。公開數據顯示,截至2022年底,知乎累計擁有6310萬名內容創作者,他們貢獻了約5.06億條問答內容,覆蓋超過1000個垂直領域。
在大模型訓練過程中,訓練預料質量將直接影響大模型輸出內容質量。各個廠商為了提升模型質量,往往會投入大量資源對數據進行標注。但張寧向記者表示,知乎在數據標注上的投入,遠低于其他廠商。
張寧進一步表示,知乎AI搜索的第一個版本在春節前一周就已經上線,后面經過一個多月的灰度測試,“我們收到的整體反饋是,回答質量要高于預期”。
在張寧看來,這個結果也印證了知乎中文語料的優質?!罢f實話,這么短的時間內我們不太可能做特別大規模的數據標注,但取得這樣的結果,說明我們的數據底子好。過去大家一直說知乎的內容質量高,這次也通過AI訓練的方式進行了驗證”。
不過,按照大模型的發展速度,知乎儲備的中文語料數據未來或也將捉襟見肘。今年年初,周源在接受記者采訪時也曾提到中文語料短缺的問題。他說,中文優質數據的稀缺,導致國內許多從事大模型開發的研究機構和企業在進行模型訓練時,不得不依賴于外文標注數據集、開源數據集,或是爬取網絡數據。
在他看來,解決中文語料資源短缺的問題,實際上應該是先構建“水庫”,然后再去合理使用的過程。但是現在,行業對構建“水庫”的工作重視不夠,反而都比較看重怎么去“打水”,所以未來幾年,中文語料資源短缺都將是一個特別嚴重的問題。(記者 白楊)
來源:21世紀經濟報道
責任編輯:王海山
請輸入驗證碼