卷友們好,我是rumor。
網站建設哪家好,找創新互聯建站!專注于網頁設計、網站建設、微信開發、成都微信小程序、集團企業網站建設等服務項目。為回饋新老客戶創新互聯還提供了濟寧免費建站歡迎大家使用!已經好久沒看OpenAI的官網[1]了,但今天冥冥之中感覺受到了什么召喚,心想GPT4什么時候發布,莫名地就打開了,果然有料:
試用:https://chat.openai.com/
它把魔抓又伸向對話了!來一起看看官方放出的case吧:
幫人Debug代碼,并進行多輪詢問:
識別出危險問題并拒絕回答,但用戶說明意圖后給出了更好的回復:
執行指令,甚至改很多遍也不生氣:
還有個指代消解的case太長就不放了,OpenAI在最后還拿InstructGPT做了對比,可以看到InstructGPT只是冰冷地執行指令,而ChatGPT則更有溫度一些。
從上面的例子可以看到,對比今年其他廠的對話工作,ChatGPT有幾項明顯的優點:
基于GPT3.5,有著更多樣的訓練數據,別的我不知道,反正debug代碼有點東西
強大的多輪上下文理解能力,從指代消解、寫信的例子看出來的,如果對歷史消息沒有很好的記憶理解,可能就新起一個話題了
更像人。目前大部分模型都是直接回答,而ChatGPT顯然跟用戶有一個「Chat」的過程,比如debug代碼的時候,上來先回復「很難說,再多給點信息」
更像人的對話策略,是很難做出來的,因為我們不知道怎么才算「像個人」。谷歌為了解決這個問題,曾經拆分出了一堆指標。
而這次OpenAI則是采用了和DeepMind Sparrow[2]一樣的策略,既然不知道用哪些維度衡量對話的好壞,那直接基于用戶的反饋去訓練,讓模型自己學就好了。
基于反饋的訓練,那不就是宇宙的終點強化學習嗎。
ChatGPT的制作分為如下幾步:
用監督數據基于GPT3.5訓練一個對話模型,訓練數據是標注人員手把手寫出來的
人工標注模型生成的多個結果,訓練一個給對話回復打分的模型
用打分模型作為反饋,基于PPO算法訓練一個對話模型
上面的步驟其實跟DeepMind的工作很像,也很直覺,但DeepMind額外針對黃賭毒對話做了些訓練,目前還不知道ChatGPT是怎么實現的,不過以他們LM一把梭的性格,有可能全是數據堆出來的。。。
當然,ChatGPT還是有一些局限的,比如:
說一些不明所以毫無疑義的話
重復問相同的問題,或者輕微調整后答案變化很大
很啰嗦,從case里也看出來了,這主要是訓練數據帶來的偏差,標注同學會更傾向長句子
也不是所有模糊情況都會反問
有些黃賭毒問題還是沒法識別,作者們在打算用API解決
目前,為了讓大家給出更多的反饋,OpenAI順勢在11.30-12.30之間舉行了一個反饋比賽[3],感興趣的同學可以積極參與。
最后,讓我們對應該過陣子就會發布的GPT4拭目以待吧!
參考資料[1]
OpenAI Blog:https://openai.com/blog/
[2]Building safer dialogue agents:https://www.deepmind.com/blog/building-safer-dialogue-agents
[3]Feedback Contest:https://cdn.openai.com/chatgpt/ChatGPT_Feedback_Contest_Rules.pdf
我是朋克又極客的AI算法小姐姐rumor
北航本碩,NLP算法工程師,谷歌開發者專家
歡迎關注我,帶你學習帶你肝
一起在人工智能時代旋轉跳躍眨巴眼
「不會debug代碼的模型不是好AI」
你是否還在尋找穩定的海外服務器提供商?創新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源,準確流量調度確保服務器高可用性,企業級服務器適合批量采購,新人活動首月15元起,快前往官網查看詳情吧
網頁題目:OpenAI發布ChatGPT!手把手debug代碼!-創新互聯
文章起源:http://vcdvsql.cn/article22/diddcc.html
成都網站建設公司_創新互聯,為您提供搜索引擎優化、網站設計、網站制作、關鍵詞優化、外貿網站建設、靜態網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯