OpenAI發(fā)布GPT-4支持圖像文本輸入處理中文準(zhǔn)確度大幅提升

更新時(shí)間：2023年03月16日 10:39:07 作者：redeemer

這篇文章主要為大家介紹了OpenAI正式發(fā)布GPT-4：支持圖像和文本的輸入、?處理中文的準(zhǔn)確度大幅提升，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

引言

以下文章來源于OSC開源社區(qū) ，作者oschina

正文

OpenAI 剛剛宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的縮寫，即生成型預(yù)訓(xùn)練變換模型 4。

公告寫道，GPT-4 是一個(gè)多模態(tài)大型語言模型（支持接受圖像和文本輸入，以文本形式輸出），也是 OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。雖然 GPT-4 對(duì)于許多現(xiàn)實(shí)場(chǎng)景的處理比人類差，但它在各種體現(xiàn)專業(yè)和學(xué)術(shù)能力的 benchmark 上，已表現(xiàn)出和人類相當(dāng)?shù)乃?。例如，GPT-4 通過了模擬律師考試，其分?jǐn)?shù)在應(yīng)試者的前 10% 左右；相比之下，GPT-3.5 的得分卻在倒數(shù) 10% 左右。OpenAI 表示，他們花了 6 個(gè)月的時(shí)間來使用對(duì)抗性測(cè)試程序，以及通過 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)迭代調(diào)整 GPT-4，從而在真實(shí)性和可控性等方面取得了有史以來最好的結(jié)果（盡管遠(yuǎn)非完美）。使用示例OpenAI 用一張梗圖演示了 GPT-4 特有的「多模態(tài)」功能。

用戶提問

解釋下圖的笑點(diǎn)是什么，并對(duì)圖片中的每部分進(jìn)行描述。

GPT-4

The image shows a package for a "Lightning Cable" adapter with three panels.Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.

翻譯如下：

圖片顯示了一個(gè) "Lightning Cable" 適配器的包裝，總共包含三個(gè)部分。面板 1：一部智能手機(jī)，其充電端口插著一個(gè) VGA 接口（大的藍(lán)色 15 針接口，通常用于電腦顯示器）。面板 2："Lightning Cable" 適配器的包裝上有一張 VGA 接口的圖片。面板 3：VGA 連接器的特寫，末端是一個(gè)小的 Lightning 連接器（用于為 iPhone 和其他蘋果設(shè)備充電）。這張圖片的笑點(diǎn)來自于：展示了將一個(gè)大的、過時(shí)的 VGA 連接器插入一個(gè)小的、現(xiàn)代的智能手機(jī)充電端口的荒謬性。

上面的例子看起來很簡單，OpenAI 緊接著展示了高級(jí)用法 —— 像人類一樣讀論文。簡單來說就是給 GPT-4 提供論文的圖片格式文件，讓它閱讀并總結(jié)出要點(diǎn)。效果如下：

甚至直接讓 GPT-4 回答圖片中對(duì)應(yīng)題號(hào)的問題：

GPT-4 局限性

GPT-4 局限性盡管功能強(qiáng)大，但 GPT-4 與早期的 GPT 模型具有相似的局限性，即生成的結(jié)果不符合事實(shí)。因此它仍然不完全可靠（它會(huì)產(chǎn)生 “幻覺” 事實(shí)并出現(xiàn)推理錯(cuò)誤）。雖然這仍然是一個(gè)問題，但 GPT-4 相對(duì)于以前的模型（它們本身在每次迭代中都在改進(jìn)）顯著減少了 “幻覺”。在內(nèi)部的對(duì)抗性真實(shí)性評(píng)估中，GPT-4 的得分比最新的 GPT-3.5 高 40%：

與 GPT 3.5 的對(duì)比據(jù)介紹，對(duì)于日常的談話，GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙。但當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就會(huì)出現(xiàn) ——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。為了了解這兩種模型之間的區(qū)別，OpenAI 通過各種 benchmark 進(jìn)行了測(cè)試，包括最初為人類設(shè)計(jì)的模擬考試。從下圖可以看出，GPT-4 的成績大部分都比 GPT-3 好。

GPT-4 也在多項(xiàng)測(cè)試項(xiàng)目中取得了接近滿分的成績：

USABO Semifinal Exam 2020（美國生物奧林匹克競(jìng)賽）
GRE 口語

OpenAI 還將機(jī)器學(xué)習(xí)模型的傳統(tǒng) benchmark 用于評(píng)估 GPT-4。結(jié)果顯示，GPT-4 已經(jīng)遠(yuǎn)遠(yuǎn)超過現(xiàn)有的大型語言模型，以及大多數(shù)最先進(jìn)的 (SOTA, state-of-the-art) 模型。benchmark 數(shù)據(jù)如下：

在 MMLU benchmark 中（一個(gè)基準(zhǔn)數(shù)據(jù)集，包括來自于 STEM、人文、社科等 57 個(gè)學(xué)科的選擇題，它用于測(cè)試 LLM 的世界知識(shí)和問題解答的能力），GPT-4 處理中文的準(zhǔn)確度大約是 80%，已經(jīng)優(yōu)于其他 LLM 的英文表現(xiàn)，比如 GPT-3.5、Chinchilla、PALM。

試用方式

ChatGPT Plus 訂閱用戶可嘗鮮體驗(yàn)，他們將在 chat.openai.com 上獲得具有使用s上限的 GPT-4 訪問權(quán)限。
調(diào)用 API，訪問
另外，
現(xiàn)在只支持純文本的請(qǐng)求（圖像輸入還在 alpha 階段）
定價(jià)：prompt - 0.03per1ktoken,completion−0.03 per 1k token, completion - 0.03per1ktoken,completion−0.06 per 1k token
context 長度為 8192 tokens，并且提供 32768 token 的版本（價(jià)格也更貴，0.06 & 0.12)

以上就是OpenAI發(fā)布GPT-4支持圖像文本輸入處理中文準(zhǔn)確度大幅提升的詳細(xì)內(nèi)容，更多關(guān)于OpenAI發(fā)布GPT-4的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: