Microsoft 的 Copilot 提出了 Copilot Vision 功能,這是一項「視覺+螢幕/鏡頭」能力。能夠“看”你螢幕上 Edge 瀏覽器中的頁面內容,並基於這些視覺內容給出建議或回答。在電腦中,必須使用 Edge 瀏覽器來操作。

Gemini 也有同質性功能:Gemini Live,這是 Google Gemini 的一項「即時視覺+語音互動」能力,其中包括螢幕分享(Screen Share)和鏡頭(camera)分享兩大模式:你可以將手機螢幕共享給 Gemini,或者用手機相機即時讓 Gemini「看」你實體世界的物件、場景。

先來到 Copilot Labs:https://copilot.microsoft.com/labs

在視窗最下方有看到:Copilot 視覺,但限制在 Edge 中使用。

先點選視窗中的麥克風圖示:

在視窗底部出現了麥克風和眼鏡圖示。(下圖中為麥克風和視覺都在啟用中)

點選:齒輪,可以設定對話使用的人聲。

當你顯示了某個網後,可以透過麥克風詢問 Copilot 這個網頁上的相關內容,Copilot 會檢視網頁並且回答你(使用語音)。

在瀏覽新聞網頁時,直接使用麥克風詢問頁面中所提到的「馬爾堡病毒」是什麼?

接著,我問到:視窗右側拿著籃球的人是誰?回答的也是清楚而詳盡。

例如,在這個頁面下,提問:請教我如何使用這個網頁。

我開啟了一個 YouTube 的 TED 影片,詢問:這個YouTube影片在講什麼?

開啟 Sora 頁面,詢問:我如何取得 Sora 的邀請碼?

詢問:評論這張圖做的如何?

文章標籤
全站熱搜
創作者介紹
創作者 vincent 的頭像
vincent

學不完.教不停.用不盡

vincent 發表在 痞客邦 留言(0) 人氣(63)