iPAS 114年第四次初級AI應用規劃師-生成式AI應用與規劃試題解答

🌈️ 點選題目可顯示解答與相關背景知識說明。

🌈️ 引用本站解答請註明出處 https://ipas.tw


1. 在Low Code平台的開發應用設計中,關於「模型(Model)」,下列敘述何者最符合實際情況?

(A) 模型僅扮演設計視覺化的輔助工具,對應用邏輯的影響有限;
(B) 模型是用來抽象描述資料結構、業務流程與介面邏輯的核心元素,影響應用的設計與維護;
(C) 模型僅依循UML(Unified Modeling Language)等傳統建模方式,缺乏針對Low Code環境的延展性;
(D) 模型在Low Code平台中已被自動程式碼生成全面取代,實際價值有限

看解答

正確答案是 (B) 模型是用來抽象描述資料結構、業務流程與介面邏輯的核心元素,影響應用的設計與維護。

這題考察的是 低程式碼(Low-Code) 開發平台的核心設計哲學——「模型驅動開發(Model-Driven Development, MDD)」。

(B) 為正確答案:

核心地位: 在 Low-Code 環境中,「模型」不只是圖畫,它是應用的靈魂。開發者透過圖形化介面定義「資料模型(Entity/Schema)」、「流程模型(Workflow)」與「介面模型(UI Layout)」。

抽象化: 模型將複雜的底層程式碼抽象化。平台會根據這些模型自動處理資料庫連線、邏輯判斷與前端呈現。這使得應用程式更容易設計,且當業務需求變更時,只需修改模型,系統便能快速同步更新,極大提升了維護效率。

(A) 錯誤:

模型在 Low-Code 中並非「僅僅輔助」,而是應用的基礎。應用邏輯(例如:如果 A 發生,則執行 B)通常就是直接在流程模型中定義的。

(C) 錯誤:

雖然 Low-Code 模型借鑒了 UML 的部分概念(如類別圖、狀態圖),但它們針對 Low-Code 環境做了大量的簡化與延展,使其更貼近商務邏輯而非單純的軟體工程圖表。

(D) 錯誤:

觀念誤導: 雖然 Low-Code 平台會自動生成程式碼,但這些程式碼是根據模型生成的。如果沒有模型作為定義,「自動生成」就失去了依據。模型是「輸入」,程式碼是「輸出」,模型的價值反而因為自動化而變得更高。

Low-Code 中的三大關鍵模型

模型類型 負責內容
資料模型 (Data Model) 定義資料表、欄位類型、資料間的關聯(1對多、多對多)。
邏輯模型 (Logic/Process Model) 定義業務流程(BPMN)、審核關卡、自動化觸發條件。
UI 模型 (UI Model) 定義畫面的佈局、元件拖拉位置與互動反應。

解題關鍵:在 Low-Code 的語境下,「模型即應用」。看到強調模型具有 「核心元素」、「抽象描述」 且 「影響設計與維護」 的選項,即為正確方向。


2. 企業在導入生成式AI平台時,往往需要利用分散於不同部門或機構中的大量敏感文本資料。若希望在確保隱私的前提下,仍能讓模型持續優化並降低資料外洩風險,下列哪一種方法最適合?

(A) 同態加密(Homomorphic Encryption);
(B) 安全多方計算(Secure Multi-party Computation);
(C) 零知識證明(Zero-knowledge Proofs);
(D) 聯邦學習(Federated Learning)

看解答

正確答案是 (D) 聯邦學習(Federated Learning)。

這題考察的是在企業環境中,如何平衡 「生成式 AI 模型優化」 與 「分散式隱私保護」。

(D) 為正確答案:

資料不落地: 聯邦學習的核心在於「資料不動,模型動」。分散在各部門或機構的敏感文本(如合約、財務報表、個資)不需要上傳到中央伺服器。

持續優化: 每個部門在本地端利用自己的資料訓練模型,僅將訓練後的「權重(Weights)」或「梯度(Gradients)」回傳至中心進行聚合,更新後的模型再發送回各部門。這能讓模型學到跨部門的知識,同時滿足企業內部最嚴格的資料隱私與法規要求。

(A) 錯誤:

同態加密 允許直接對加密資料進行運算,雖然安全性極高,但目前在處理「大型語言模型(LLM)」這類需要龐大計算量的生成式 AI 任務時,其運算開銷(Overhead)過於巨大,實務可行性較低。

(B) 錯誤:

安全多方計算 (SMPC) 著重於讓多方共同計算一個結果(如加總或比較),且不讓任何一方看到他方的輸入值。雖然能保護隱私,但在大規模模型訓練的持續優化情境中,其效率與通訊複雜度通常不如聯邦學習。

(C) 錯誤:

零知識證明 (ZKP) 主要用於「身分驗證」或「確認某項聲明為真」而無需洩露該內容。例如證明「我超過 18 歲」但不洩露生日。它無法直接支援「讓模型利用資料進行學習與優化」。

生成式 AI 的隱私保護技術對照

技術 核心特色 企業導入生成式 AI 的角色
聯邦學習 訓練資料原地保留,僅交換參數。 最適合跨部門/跨機構的協同建模。
同態加密 對加密內容直接運算,不解密。 適合簡單運算,目前不適合複雜 LLM 訓練。
安全多方計算 各方持有一部分數據片斷進行運算。 常用於保護隱私數據的聯合查詢或簡單統計。
零知識證明 證明我知道這件事,但我不告訴你內容。 適合用於 AI 輸出結果的完整性驗證。

解題關鍵:當題目關鍵字包含 「分散在不同機構」、「大量敏感資料」、「持續優化模型」 且要 「降低外洩風險」 時,聯邦學習 (Federated Learning) 是目前 AI 工業實務上的最優解。


3. 某企業利用 No Code/Low Code 平台開發內部營運系統。為確保系統在跨部門流程與外部服務整合下仍具良好的可測試性(Testability),下列哪一項作法最為合適?

(A) 依賴 No Code/Low Code 平台提供的即時預覽與基本單元測試功能,快速驗證常見流程;
(B) 導入可重複執行的自動化測試流程,並透過 API 或服務虛擬化進行模組化驗證;
(C) 將測試聚焦於使用者介面互動與操作流程驗證,檢查系統表面功能;
(D) 依靠使用者回饋與正式上線後的監控資料,作為修正依據

看解答

正確答案是 (B) 導入可重複執行的自動化測試流程,並透過 API 或服務虛擬化進行模組化驗證。

這題考察的是在 Low Code / No Code (LCNC) 開發模式下,如何建立專業等級的 可測試性(Testability),特別是在涉及「跨部門」與「外部整合」的複雜情境時。

(B) 為正確答案:

應對複雜性: 跨部門與外部服務整合(如串接 ERP、銀行 API 或天氣資訊)最怕因外部系統不穩定或資料異動導致測試中斷。

服務虛擬化 (Service Virtualization): 透過模擬(Mocking)外部 API 的回傳結果,開發團隊可以在不依賴外部環境的情況下,獨立驗證內部邏輯。

自動化與可重複性: 建立自動化測試腳本能確保每次修改模型或流程後,系統核心功能不會產生回歸錯誤(Regression),這對於需要長期維護與整合的企業營運系統至關重要。

(A) 錯誤:

功能侷限: 平台內建的即時預覽與基本測試僅能應付「簡單的單元驗證」。面對「跨部門流程」這種長路徑、多狀態的複雜邏輯,單靠基本功能無法達到高品質的品質保證(QA)。

(C) 錯誤:

測試盲點: 僅聚焦於 UI 介面(黑箱測試)無法發現後端邏輯、資料整合或 API 傳輸產生的隱藏錯誤。在整合度高的系統中,後端邏輯的正確性往往比介面外觀更重要。

(D) 錯誤:

成本與風險極高: 將「使用者回饋」與「上線後監控」作為主要修正依據,等於是把使用者當作測試員,會導致營運中斷風險增加與企業形象受損。

提升 LCNC 系統可測試性的關鍵技術

技術手段 解決問題 效益
API Mocking 外部系統尚未完成或不穩定。 隨時可進行端對端測試。
自動化迴歸測試 手動測試耗時、易遺漏。 確保新功能開發不影響舊有流程。
服務虛擬化 跨部門資料存取受限或環境複雜。 建立模組化、可獨立運行的測試環境。

解題關鍵:看到 「跨部門 / 外部整合」 與 「可測試性」,重點在於 「解耦 (Decoupling)」。「API 模擬/虛擬化」 是達成系統解耦並提升測試穩定性的標準答案。


4. 某社交平台嘗試結合自動提示工程(Automatic Prompt Engineer,APE)與圖提示(Graph Prompting),讓 AI 協助分析使用者之間的互動關係。在這個過程中,下列何者為最可能遇到的挑戰?

(A) 圖結構轉換為文字提示時,可能導致部分關聯資訊遺失;
(B) APE 在圖資料上無法產生任何提示內容;
(C) 圖轉文字後能完整保留所有上下文,對推理不造成影響;
(D) Graph Prompting 僅能處理線性路徑,限制多分支探索

看解答

正確答案是 (A) 圖結構轉換為文字提示時,可能導致部分關聯資訊遺失。

這題考驗的是將「非線性數據」轉譯為「線性文字」時的技術瓶頸。當我們結合 自動提示工程(APE) 與 圖提示(Graph Prompting) 來分析複雜的社交互動(如使用者、貼文、標籤之間的網狀關係)時,轉換過程最為關鍵。

(A) 為正確答案:

維度壓縮問題: 圖(Graph)是高維度的拓撲結構,包含節點、邊、方向性及權重。大型語言模型(LLM)主要是處理「線性」的文字序列(Tokens)。

資訊損失: 當我們嘗試用文字來描述一個複雜的圖結構(例如:「A 追蹤 B,B 留言給 C,C 又分享了 A 的貼文」)時,隨著關聯層級增加,文字描述會變得極其冗長且破碎,模型往往難以從文字中完美重建原本的「結構鄰近性」,進而導致部分細微的關聯資訊在轉換過程中遺失。

(B) 錯誤:

APE(自動提示工程)可以透過模型自我迭代產生提示內容。它在圖資料上可以產生提示,挑戰在於產生的提示品質是否能精確捕捉圖的邏輯,而非完全無法產生。

(C) 錯誤:

目前的技術尚無法做到「完整保留」。文字天生具有順序性,很難像矩陣或圖資料一樣同時呈現多個對等的關聯,因此對複雜推理(如多跳推理,Multi-hop reasoning)確實會造成影響。

(D) 錯誤:

這剛好說反了。Graph Prompting 的優勢正是因為它「不限於線性路徑」,能夠處理多分支、網狀的資訊。

技術整合的關鍵特徵

技術項目 核心作用 在此場景的挑戰
Graph Prompting 描述網狀的互動關係(如社群影響力)。 結構轉譯(Linearization)的損耗。
APE 自動優化最適合分析該圖結構的指令。 搜尋空間巨大,容易陷入局部最優解。

解題關鍵:處理「圖(Graph)」與「文字(Prompt)」的交互時,最核心的技術痛點永遠是 「結構(Structure)與語義(Semantics)之間的轉換保真度」。


5. 在超長上下文任務中使用自動提示工程(Automatic Prompt Engineer,APE)時,可能面臨的最大限制是什麼?

(A) 迭代優化難以因應上下文的不斷變動,導致調整失效;
(B) 模型的記憶容量有限,無法完整保留所有長篇資訊;
(C) 提示內容難以有效分解,無法支援複雜任務拆解;
(D) 回饋機制通常僅針對局部片段,難以全面評估最終輸出品質

看解答

正確答案是 (D) 回饋機制通常僅針對局部片段,難以全面評估最終輸出品質。

這題考驗的是 自動提示工程(APE) 在處理 超長上下文(Long Context) 時的評估困境。APE 的核心運作依賴於「生成-評估-迭代」的循環,但在超長文本場景下,這個循環會遇到嚴重的瓶頸。

(D) 為正確答案:

評估困難: 當上下文長度達到數萬甚至數十萬 Token 時,要判斷一個 Prompt 是否優化成功,必須檢視模型對整篇長文的理解。

局部陷阱: 現有的自動化評估指標(如機率得分或短答案比對)往往只能針對「局部」的輸出進行回饋。然而,超長文本任務(如摘要整本小說或分析萬頁合約)的品質取決於全篇的連貫性與關鍵資訊的擷取,僅靠局部片段的回饋難以引導 APE 找到真正能優化全域表現的提示詞。

(A) 錯誤:

雖然上下文會變動,但 APE 的目的是找到具備魯棒性的 Prompt。上下文變動是挑戰,但相較於「回饋機制失效」,這更多是計算成本的問題。

(B) 錯誤:

這描述的是模型本身的硬體或架構限制(如 Attention Window),而非 APE 這個「自動優化技術」本身的演算法限制。

(C) 錯誤:

提示內容是可以被拆解的(例如透過 Chain-of-Thought 或任務拆解技術)。這並非超長上下文場景下 APE 特有的「最大限制」。

APE 在超長上下文中的三大痛點

挑戰維度 具體困難點
計算成本 每次迭代都要處理超長文本,導致 API 費用與運算時間極高。
信號稀疏 在長文中,正確答案的線索可能只佔 0.1%,優化指令時難以獲得足夠的梯度回饋。
全域一致性 (D) 目前的 APE 難以定義一個「全方位指標」來衡量長篇生成的品質。

解題關鍵:自動提示工程(APE)的核心是 「回饋(Feedback)」。在超長任務中,如果你無法給予 AI 精準且全面的回饋(告訴它這篇萬字摘要哪裡好、哪裡壞),APE 就無法有效進步。


6. 某設計團隊計畫在短時間內完成一款行動應用程式,必須同時達到高度個人化體驗、快速生成介面與行銷內容自動產出等需求。若結合 No Code/Low Code 平台與生成式 AI 技術,以下哪一種整合策略最能符合目標?

(A) 使用生成式 AI 自動產生 API 呼叫與元件配置,並由開發者手動整合至 No Code 平台流程;
(B) 透過生成式 AI 在 No Code 平台中自動建立介面模板,並結合使用者數據即時生成個人化功能與行銷推播內容;
(C) 在 No Code 平台中導入生成式 AI,快速建立跨專案可重用的通用模組,專注於提升開發速度;
(D) 在 No Code 平台中完全依賴生成式 AI 自動產生所有應用功能與流程,不經人工設計或驗證

看解答

正確答案是 (B) 透過生成式 AI 在 No Code 平台中自動建立介面模板,並結合使用者數據即時生成個人化功能與行銷推播內容。

這題考驗的是如何最大化發揮 No-Code/Low-Code 與 生成式 AI 結合的協同效應,以同時達成「速度」與「深度個人化」的商業目標。

(B) 為最佳策略:

快速生成: 利用 AI 自動建立介面模板(UI Generation),大幅縮短了傳統拖拉元件的時間。

個人化體驗: 結合使用者數據(User Data)與 AI 的推理能力,能動態調整 App 的功能模組或內容顯示,實現「千人千面」的應用體驗。

行銷自動化: AI 擅長生成文案與行銷素材,整合進流程後可達成自動化推播,完美符合題目要求的三項指標。

(A) 錯誤:

這雖然可行,但「手動整合」會成為開發瓶頸,且偏重於後端技術層面,較難直接解決「高度個人化體驗」與「行銷內容自動產出」的需求。

(C) 錯誤:

「通用模組」雖然能提升開發速度,但其本質是標準化,與「高度個人化」的需求背道而馳。這是一個傳統的 Low-Code 優化策略,並未充分利用生成式 AI 的動態生成優勢。

(D) 錯誤:

「不經人工設計或驗證」在目前的企業應用中極其危險。AI 可能產生幻覺或不合邏輯的流程,且 Low-Code 平台的初衷是「輔助」與「賦能」,完全去人工化會導致系統失控,不符合專業開發邏輯。

生成式 AI 與 No-Code 的整合藍圖

功能需求 整合方式 核心效益
快速開發 AI 輔助生成 UI 與邏輯腳本 縮短從點子到上線(Time-to-Market)的時間。
高度個人化 AI 即時分析用戶行為並變更組件內容 提升用戶留存率與互動深度。
內容自動化 生成式模型串接行銷自動化工作流 降低內容產製成本,實現精準行銷。

解題關鍵:當題目要求 「個人化」、「快速生成」 與 「自動內容」 時,必須選擇一個能同時涵蓋 「UI 生成」 與 「動態數據驅動」 的策略。


7. 某團隊希望讓 AI 自動查詢 GitHub 上的程式碼庫,並生成摘要給使用者參考。開發者決定透過 Model Context Protocol(MCP)來實現,AI 需先發出請求,再經由 MCP 架構逐步完成查詢與回傳。在此情境下,MCP 運作流程的正確順序為何?

(A) MCP Server→AI Host→MCP Client→資料查詢→結果回傳 AI Host;
(B) MCP Client→AI Host→MCP Server→資料查詢→結果回傳 AI Host;
(C) AI Host→MCP Client→ MCP Server→資料查詢→結果回傳 AI Host;
(D) AI Host→MCP Server→MCP Client→資料查詢→結果回傳 AI Host

看解答

正確答案是 (C) AI Host → MCP Client → MCP Server → 資料查詢 → 結果回傳 AI Host。

這題考驗的是對 Model Context Protocol (MCP) 標準架構中角色與通訊流程的理解。

(C) 為正確答案:

AI Host: 這是發起請求的主體,例如 Claude Desktop 或開發者自己建置的 AI 應用程式。當它發現需要外部資料(GitHub 程式碼)時,會啟動流程。

MCP Client: 整合在 AI Host 內部的客戶端。負責將 AI 的意圖轉化為符合 MCP 協議的請求。

MCP Server: 這是具體負責與外部工具(GitHub API)對接的伺服器。它接收來自 Client 的請求,執行資料查詢或操作。

資料查詢與回傳: Server 從 GitHub 抓取資料後,循原路經由 Client 回傳給 AI Host,讓 AI 進行摘要生成。

(A)、(B)、(D) 錯誤:

流程的核心起始點必須是 AI Host。

MCP Client 是負責與 MCP Server 溝通的橋樑,Client 始終位於 Host 與 Server 之間。

Server 是最後接觸數據源(GitHub)的關口。

MCP 架構角色快速對照

角色名稱 功能說明 類比
AI Host 使用 AI 模型的應用程式。 使用者(點菜的人)
MCP Client 負責協議調度與安全管控。 服務生(傳遞訂單)
MCP Server 提供工具(Tools)或資源(Resources)。 廚師(實際做菜/抓取資料)
Data Source 外部資料庫或服務(如 GitHub)。 食材倉庫

解題關鍵:記住 MCP 的通訊鏈結是由內而外的:應用程式 (Host) → 協議端 (Client) → 服務端 (Server) → 外部資料。


8. 在 Agent-to-Agent(A2A)架構中,不同代理人之間會分工合作。一般而言,下列敘述何者最符合 Client Agent 與 Remote Agent 的互動流程?

(A) Remote Agent 主動分派任務給 Client Agent;
(B) 由人工事先設定 Client Agent 與 Remote Agent 處理任務的先後順序;
(C) Client Agent 發起任務,Remote Agent 執行並回傳結果;
(D) Client Agent 與 Remote Agent 同時處理任務並同步處理結果

看解答

正確答案是 (C) Client Agent 發起任務,Remote Agent 執行並回傳結果。

這題考察的是 Agent-to-Agent (A2A) 協作模式中的「主從架構」或「請求-響應」邏輯。

(C) 為正確答案:
角色定位: 在 A2A 架構中,Client Agent 通常擔任「協調者」或「發起者」的角色,它負責理解用戶的最終目標,並將任務拆解。
互動流程: 當 Client Agent 發現某些子任務超出了自己的權限或專業範圍(例如需要查詢特定的外部資料庫或執行特定工具),它會向 Remote Agent 發出請求。Remote Agent 接收指令後,在遠端環境執行任務,最後將結果回傳給 Client Agent 進行彙整。這與 MCP 協議中的 Client/Server 邏輯非常相似。

(A) 錯誤:通常是由 Client 端(靠近用戶的一方)發起需求,而非由 Remote Agent 主動分派任務給 Client 端。

(B) 錯誤:Agentic AI 的核心價值在於「自主規劃(Autonomy)」。雖然人工可以設定限制,但在 A2A 運作時,通常是由 Client Agent 根據當前狀況動態判斷何時調用 Remote Agent,而非完全依賴人工預設的硬性順序。

(D) 錯誤:雖然「同步處理」在某些並行運算場景會發生,但 A2A 的典型互動是具有因果關係的(請求 \(\rightarrow\) 處理 \(\rightarrow\) 回報),並非盲目地同時處理。

Client Agent 與 Remote Agent 角色對比

角色 主要職責 類比
Client Agent 任務拆解、結果彙整、與用戶互動。 專案經理 (PM)
Remote Agent 執行特定工具、存取特定數據、專業領域運算。 外部包商 / 專科工程師

解題關鍵:在 Agent 協作中,「Client」代表需求側,「Remote」代表執行側。任務的流向通常是從需求側發往執行側,並由執行側回傳成果。


9. 在導入生成式 AI 的應用規劃中,上下文工程(Context Engineering)的核心目的為何?

(A) 縮短模型訓練時間;
(B) 優化提示與上下文;
(C) 增加模型參數數量;
(D) 優化 Fine-tuning 正確率

看解答

正確答案是 (B) 優化提示與上下文。

這題考驗的是對 上下文工程(Context Engineering) 定義與範疇的理解。在生成式 AI 的應用中,這是一個旨在提升模型輸出品質的關鍵技術手段。

(B) 為正確答案:

核心定義: 上下文工程是指透過對輸入給模型的資訊進行精細化設計、組織與管理,來引導模型產生更精準、更符合需求的結果。

涵蓋範疇: 這包括了 提示工程(Prompt Engineering) 的技巧(如撰寫明確的指令)、檢索增強生成(RAG) 的上下文選擇(如挑選最相關的文本片段),以及長上下文的管理(如訊息摘要或快取)。

目的: 透過優化這些「外部輸入」,讓模型在不重新訓練的情況下,也能在特定任務上表現出色。

(A) 錯誤:

上下文工程是在模型「推理階段(Inference)」運用的技術,與模型本身的「訓練時間(Training Time)」無關。

(C) 錯誤:

增加參數數量屬於 模型架構設計(Architecture Design) 或模型預訓練的範疇,上下文工程僅涉及模型如何使用現有的參數來處理輸入。

(D) 錯誤:

微調(Fine-tuning) 是透過標籤數據來更新模型權重。雖然好的上下文有助於評估微調效果,但上下文工程的主要目的並非優化微調過程,而是直接在對話中提升模型的理解力。

上下文工程的常見手段

技術手段 具體做法 預期效果
Few-Shot Prompting 提供幾個正確的範例。 讓模型學會特定的輸出格式或風格。
Chain-of-Thought 引導模型寫下思考步驟。 提升模型處理複雜邏輯與數學的能力。
RAG 檢索優化 僅餵入與問題最相關的資訊。 減少噪音干擾,解決模型的「幻覺」問題。

解題關鍵:「上下文(Context)」 指的是輸入給模型的環境與資訊,因此相關的工程活動必然是圍繞著 「提示(Prompt)」 與 「輸入內容」 的優化。


10. 某公司在導入生成式 AI 協助撰寫內部報告時,測試人員刻意在輸入的上下文中放入互相矛盾的資訊(例如:同一位員工在不同段落被描述為「入職三年」與「入職五年」)。在這種情況下,最常見的模型行為會是什麼?

(A) 永遠選擇第一段資訊作為答案依據;
(B) 可能生成幻覺或隨機採信其中一方的內容;
(C) 拒絕回答,並要求提供更一致的輸入;
(D) 自動判斷並只選擇正確的資訊 

看解答

正確答案是 (B) 可能生成幻覺或隨機採信其中一方的內容。

這題考驗的是對大型語言模型(LLM)在處理 「資訊衝突(Context Conflict)」 時的特性理解。

(B) 為正確答案:

機率導向: LLM 的運作本質是基於機率預測下一個字。當上下文出現矛盾時,模型並沒有內建的「真理檢核器」來判斷哪一個才是事實。

幻覺與隨機性: 模型可能會隨機抓取其中一個資訊來回答,或者試圖「調和」這兩個矛盾(例如:寫成入職四年,這就是一種幻覺),甚至在同一個回覆中前後說法不一。

(A) 錯誤:

雖然某些模型可能存在「首位偏誤(Primacy Bias)」,傾向於重視開頭的資訊,但這並非「永遠」如此。模型也可能受到「近因偏誤(Recency Bias)」影響,採信最後看到的資訊。

(C) 錯誤:

除非開發者預先設定了非常嚴格的 Guardrails(防護機制) 或檢核邏輯,否則一般的模型通常會「一本正經地胡說八道」,而不會主動發現邏輯矛盾並拒絕回答。

(D) 錯誤:

模型本身無法判斷外部事實的真偽。除非它能連結到可靠的外部資料庫(如透過 MCP 協定查詢人資系統),否則它無法判斷「三年」還是「五年」才是正確的。

LLM 處理衝突資訊的常見挑戰

現象 描述
迷失在中間 (Lost in the Middle) 當關鍵資訊隱藏在長文本中間時,模型較容易忽略或產生錯誤。
幻覺 (Hallucination) 模型在面對矛盾或未知領域時,生成虛假但看似合理的資訊。
偏誤影響 (Bias Influence) 模型可能會受到輸入順序或特定用詞的誘導而偏向某一邊。

解題關鍵:記住 LLM 是 「文字續寫機」 而非 「邏輯驗證機」。面對矛盾時,它最常見的行為就是 隨機採信 或 產生幻覺。


11. Agentic AI 在解決方案圖譜(Solution Graph)上尋找最佳解決路徑 時,通常會使用什麼樣的搜尋策略?

(A) 使用廣度優先、深度優先或最佳優先等演算法進行探索;
(B) 每一步都隨機選擇動作,反覆嘗試直到找到一條可行路徑;
(C) 只執行事先假定的一條路徑,失敗就停止;
(D) 完全依靠 LLM 一次性推斷最優完整路徑

看解答

正確答案是 (A) 使用廣度優先、深度優先或最佳優先等演算法進行探索。

這題考察的是 Agentic AI 在處理複雜任務時,如何結合傳統電腦科學的「搜尋演算法」與「大型語言模型(LLM)」來尋找解答。

(A) 為正確答案:

搜尋空間: 當 AI 代理將一個複雜問題拆解成多個子任務或步驟時,這些步驟會交織成一個「狀態空間」或「解決方案圖譜」。

策略應用: 為了在圖譜中找到最有效率的路徑,代理會運用經典的搜尋策略:

廣度優先 (BFS): 同時探索多種可能的初步方案,確保不漏掉潛在路徑。

深度優先 (DFS): 深入嘗試某一條特定的解決邏輯,直到成功或遇到阻礙為止。

最佳優先 (Best-First) / A:* 結合 LLM 的評估能力,優先嘗試那些看起來「勝算最大」的路徑(這也是 Tree-of-Thought 等技術的核心理念)。

(B) 錯誤:

隨機嘗試(Random Walk)效率極低,無法處理企業級的複雜任務,且不具備代理應有的「規劃(Planning)」特徵。

(C) 錯誤:

這屬於傳統的線性腳本邏輯。Agentic AI 的優點在於具備「自我修正」與「重新規劃」的能力,失敗時會回溯(Backtracking)並嘗試圖譜中的其他路徑。

(D) 錯誤:

一次性推斷(One-shot Inference)難以應對具有多個變數或需要外部反饋的複雜問題。解決方案圖譜的價值就在於它允許「多步推理」與「分段決策」。

AI 代理在圖譜上的搜尋流程

搜尋策略 LLM 的角色 適用場景
廣度探索 產生多個不同的起始想法(Ideation)。 需要多元化方案時(如創意發想)。
深度探索 針對單一目標不斷進行細化與執行(Execution)。 步驟明確但需要高度專注時。
啟發式搜尋 扮演「評論家」,評估各路徑成功的機率。 最常見的 Agentic AI 決策模式。

解題關鍵:解決方案圖譜(Solution Graph)本質上就是一種資料結構,因此對其進行操作時,必然會使用到 「搜尋演算法」 來優化決策路徑。


12. 某企業考慮將開源大型語言模型(GPT-OSS)自行部署在本地伺服器,以取代雲端服務。下列何者最能代表本地部署對企業的實際好處?

(A) 可以達到無運算成本,因為本地部署模型不會產生額外的資源消耗;
(B) 模型的預測能力會比在雲端運行時更精度,因為本地環境更加可靠;
(C) 可確保輸入模型的敏感資料不會傳輸給第三方,提升資料隱私和自主控制;
(D) 以上皆是

看解答

正確答案是 (C) 可確保輸入模型的敏感資料不會傳輸給第三方,提升資料隱私和自主控制。

這題考驗的是企業在選擇 「本地部署(On-premise)」 與 「雲端服務(Cloud-based)」 時的決策考量。

(C) 為正確答案:

核心優勢: 本地部署最大的吸引力在於「數據主權」。企業的研發資料、客戶清單或內部合約等敏感資訊,都在企業內部的防火牆內處理,不需上傳到外部雲端供應商(如 OpenAI、Google),這能滿足極高的資訊安全要求與法律合規(如 GDPR 或特定金融法規)。

自主控制: 企業可以完全控制模型的更新週期、存取權限,避免雲端服務因改版或服務條款變動而影響現有流程。

(A) 錯誤:

本地部署並非無成本。雖然不需支付雲端訂閱費,但必須承擔硬體設備(高階 GPU 伺服器)、電力、冷卻系統以及後續運維人員的薪資成本。這些通常被稱為資本支出(CAPEX)與營運支出(OPEX)。

(B) 錯誤:

精確度取決於模型本身,而非部署的位置。同一個模型(如 Llama 3)在雲端跑跟在本地跑,輸出的結果是一樣的。甚至雲端供應商往往能提供更強大的運算叢集來加速推理。

(D) 錯誤:

由於 (A) 與 (B) 的敘述明顯有誤,故此選項不成立。

本地部署 vs. 雲端服務

特性 本地部署 (On-premise) 雲端服務 (Cloud)
資料隱私 極高,資料不離場。 存在第三方洩露或訓練風險。
啟動成本 高(需購買昂貴硬體)。 低(按量計費,隨開隨用)。
維護負擔 重(需自行維護硬體與更新)。 輕(供應商負責維護)。
網路依賴 內網可用,受頻寬影響小。 必須連網,受網路品質影響大。

解題關鍵:企業選擇本地部署(尤其是開源模型)最主要的動機永遠是 「安全性(Security)」、「隱私性(Privacy)」 與 「合規性(Compliance)」。


13. 關於 GitHub Copilot,下列敘述何者正確?

(A) GitHub Copilot 基於程式碼片段查詢工具,透過後端搜尋大型程式碼資料庫提供建議;
(B) GitHub Copilot 僅適用於 GitHub 上的開源專案,無法在私有程式碼庫或本地環境中提供程式碼補全建議;
(C) GitHub Copilot 利用靜態分析技術分析程式碼,根據邏輯流程推導下一步應寫的程式碼;
(D) GitHub Copilot 由 OpenAI 的 Codex 模型提供技術支援,可即時在開發者編輯程式碼時給出整行或整個函式建議

看解答

正確答案是 (D) GitHub Copilot 由 OpenAI 的 Codex 模型提供技術支援,可即時在開發者編輯程式碼時給出整行或整個函式建議。

這題考驗的是對目前主流 AI 輔助開發工具(AI Coding Assistant)底層技術與功能特性的理解。

(D) 為正確答案:

技術源頭: GitHub Copilot 最初是與 OpenAI 合作開發,其核心引擎是 Codex(GPT 模型的衍生版本,專門針對程式碼進行大量預訓練)。

生成能力: 它不只是搜尋現成程式碼,而是具備「生成式」能力,能根據開發者當下的註解、變數名稱或程式邏輯,即時產出整行或整段函式代碼(Function blocks)。

(A) 錯誤:

GitHub Copilot 的運作方式是「生成」而非「搜尋」。傳統的程式碼片段工具是去資料庫抓現成的程式碼,而 Copilot 是根據訓練過的參數機率直接生成程式碼。

(B) 錯誤:

GitHub Copilot 是作為 IDE(如 VS Code、Visual Studio、JetBrains)的擴充套件運行,無論你在寫的是開源專案還是公司私有的、存放在本地的專案,它都能根據當前編輯器的上下文提供建議。

(C) 錯誤:

靜態分析(Static Analysis) 主要是用來檢查語法錯誤、安全性漏洞或程式碼風格。雖然 Copilot 會讀取程式碼,但它是利用「深度學習模型的語意理解」而非傳統的「編譯器靜態分析邏輯」來產出建議。

GitHub Copilot 的核心特點

特性項目 說明
自動補全 (Autocomplete) 預測開發者接下來要打的字詞、語句。
自然語言轉程式碼 只要寫下註解(如:// 寫一個過濾重複數字的函式),它會生成對應代碼。
跨語言支持 支援 Python, JavaScript, TypeScript, Go, Ruby, Java 等數十種主流語言。
多點建議 會提供多種可能的實作方案供開發者切換選擇。

解題關鍵:看到 GitHub Copilot,關鍵字應鎖定在 「OpenAI/Codex」、「生成式 AI」 以及 「即時函式建議」。


14. 某電商公司導入 Agentic AI 來處理客服工作。測試發現 Agent 在回答產品 FAQ 時經常出錯,且無法幫客戶修改訂單。這種情況最可能是因為缺少下列哪兩項工具或技術?

(A) API 調用(API Calling)+ 任務規劃器(Task Planner);
(B) 向量資料庫檢索(Vector Retrieval)+API 調用(API Calling);
(C) 向量資料庫檢索(Vector Retrieval)+任務規劃器(Task Planner);
(D) 任務規劃器(Task Planner)+溫度參數(Temperature)設定

看解答

正確答案是 (B) 向量資料庫檢索(Vector Retrieval)+ API 調用(API Calling)。

這題考驗的是 Agentic AI 的兩大核心能力:知識獲取(Knowledge Acquisition)與行動執行(Action Execution)。

(B) 為正確答案:

解決 FAQ 出錯(向量資料庫檢索):
FAQ(常見問題)通常涉及公司特定的產品資訊。大型語言模型(LLM)本身的訓練資料可能不包含這些細節,導致其產生「幻覺」而回答錯誤。透過 向量資料庫檢索(RAG 技術),Agent 可以從公司內部的知識庫中精準找出正確答案,再進行回答。

解決無法修改訂單(API 調用):
修改訂單是一個「主動執行」的動作,涉及對後端資料庫的寫入。AI 模型本身無法直接連結資料庫,必須透過 API 調用(Tool Use) 來與電商系統進行互動,才能完成修改訂單、查詢物流等實體操作。

(A) 錯誤:

「任務規劃器」雖然重要,但它主要負責「拆解複雜步驟」。題目中提到的兩個問題,核心病灶在於「缺乏外部知識」與「缺乏外部執行權限」。

(C) 錯誤:

雖然包含檢索,但缺少了 API 調用,Agent 依然無法對外部系統(訂單系統)產生任何實質影響。

(D) 錯誤:

「溫度參數(Temperature)」僅能控制 AI 生成文字的隨機性,調整它無法賦予 AI 檢索知識或修改資料的能力。

Agentic AI 的功能組件對照

遇到的問題 缺少的關鍵技術 技術說明
回答錯誤、資訊過時 向量資料庫檢索 (RAG) 讓 AI 能從私有知識庫中「讀取」正確資訊。
無法執行動作(如退貨、改單) API 調用 (Tool Use) 讓 AI 能與外部軟體、資料庫「互動」。
邏輯混亂、無法處理複雜流程 任務規劃器 (Planner) 讓 AI 能按部就班地執行多步驟任務。

解題關鍵:解決 「知識正確性」 選檢索(Vector Retrieval);解決 「功能執行力」 選 API 調用。


15. 某客服自動回應系統希望根據不同客戶群體調整回覆風格。在兼顧即時性與效果的前提下,下列哪一種方案最適合?

(A) 直接微調預訓練模型針對每個客戶群體分別訓練不同風格模型;
(B) 利用控制變量(Control Tokens)或風格標籤在同一模型內動態調整風格;
(C) 利用生成對抗網路(GAN)生成不同風格文本,並透過人工篩選最終答案;
(D) 採用規則式替換方法,替換回覆詞彙以符合不同風格要求。

看解答

正確答案是 (B) 利用控制變量(Control Tokens)或風格標籤在同一模型內動態調整風格。

這題考驗的是如何在企業應用中,平衡 個人化效果 與 系統維運效率 的策略選擇。

(B) 為最佳方案:

兼顧即時性與效果: 透過在 Prompt 前端加入特定的「風格標籤」(例如:[專業風格]、[親切風格]),可以讓同一個強大的預訓練模型根據指令變換語氣。

低維運成本: 不需要為了 5 種客戶群體就維護 5 個獨立模型,只需要維護一個核心模型,並根據客戶資料(CRM)動態切換標籤即可。這在現代 LLM 應用中是非常成熟且高效的做法。

(A) 錯誤:

成本過高: 針對每個群體分別微調(Fine-tuning)獨立模型會消耗極大的運算資源與儲存空間。當客戶群體增加時,系統會變得臃腫且難以維護,不符合「即時性」與經濟效益。

(C) 錯誤:

技術不匹配: GAN 主要用於圖像生成,在文本生成領域(尤其是客服回覆)表現並不穩定。此外,「人工篩選」完全違背了「自動回應系統」的初衷,無法處理大規模的即時需求。

(D) 錯誤:

效果生硬: 規則式替換(如把「你」換成「您」)僅能改變詞彙,無法調整句子的結構、語氣與整體氛圍。這種方法產出的文本通常顯得生硬,難以達到真正的「風格調整」效果。

不同風格控制技術對比

方案 靈活性 維護成本 語義自然度
微調 (A) 低(需重新訓練) 極高
風格標籤 (B) 極高(動態切換)
規則替換 (D) 極低

解題關鍵:當題目要求 「兼顧效果與效率」 且對象是 「不同群體」 時,使用 「單一模型+動態標籤/指令」 是目前業界的主流標準做法。


16. 在建置多代理大型語言模型(Multi-agent LLMs)系統時,如果沒有清楚定義每個代理的任務啟動條件和角色分工,最可能出現什麼問題?

(A) 回覆內容前後不連貫,系統邏輯斷裂;
(B) 不同代理的答案互相衝突,無法判斷最終決策;
(C) 系統陷入無限對話循環,導致資源耗盡;
(D) 多個代理重複做同樣的任務,造成效率低落

看解答

正確答案是 (D) 多個代理重複做同樣的任務,造成效率低落。

這題考驗的是對於 多代理系統(Multi-agent System, MAS) 中「協調(Orchestration)」與「角色定義」重要性的理解。

(D) 為正確答案:

冗餘執行: 當多個代理人(Agents)的角色邊界模糊且沒有明確的啟動條件時,它們會因為「覺得這件事歸我管」而同時針對同一個任務進行運算。例如,在沒有明確分工的情況下,兩個代理人可能同時都在進行「網路搜尋」或「撰寫同一段程式碼」,這不僅浪費了大量的 Token 運算資源,也會大幅拉長系統的響應時間,導致效率低下。

(A) 錯誤:

前後不連貫通常是「上下文管理(Context Management)」或「狀態傳遞」出現問題,而非單純因為角色定義不清。

(B) 錯誤:

答案衝突是「共識機制」或「衝突解決策略」的缺失。雖然分工不明可能導致衝突,但 (D) 描述的「功能重疊與重複勞動」是缺乏角色分工時最直接且普遍的現象。

(C) 錯誤:

無限循環通常是因為「結束條件(Exit Condition)」設定錯誤或邏輯死鎖(Deadlock),與「任務啟動條件」雖有相關,但多代理系統若角色定義不清,首要問題通常是任務推諉或重複執行,而非循環。

多代理系統的設計關鍵

設計要素 目的 缺乏該要素的後果
角色定義 (Persona) 區分專門領域(如:工程師、評測員)。 (D) 任務執行重疊、效率低。
啟動條件 (Trigger) 決定何時由下一個 Agent 接手。 流程停滯或邏輯失控。
通訊協議 (Protocol) 規範 Agent 之間傳遞資訊的格式。 資訊遺失、無法解析上下文。

解題關鍵:在組織行為學中,「角色不明」 導致的最直接後果就是 「權責重疊」(多個人做同樣的事)或 「權責真空」(沒人做事),在 AI 系統中則體現為運算效率的低落。


17. 某公司部署結合 Fine-tuning 與檢索增強生成(RAG)的語言模型系統作為內部文件助理。系統需同時確保回覆語氣一致、能即時查詢每日新增文件、維持效能穩定,並避免頻繁重新訓練。在長期維護與效能平衡下,下列哪一種策略最合適?

(A) 每週重新 Fine-tune 模型,將新文件整合進模型知識,逐步取代 RAG模組;
(B) 完全依靠基礎模型與 RAG,不進行 Fine-tune,僅透過提示設計控制語氣;
(C) 每日進行增量 Fine-tune,讓模型即時學習新文件內容,避免依賴檢索;
(D) 保留語氣相關 Fine-tuning,僅透過檢索系統更新文件內容,不頻繁改動模型

看解答

正確答案是 (D) 保留語氣相關 Fine-tuning,僅透過檢索系統更新文件內容,不頻繁改動模型。

這題考驗的是如何平衡 微調(Fine-tuning) 與 檢索增強生成(RAG) 的各自優勢。在企業級應用中,這兩者的角色分工非常明確:微調負責「風格與形式」,而 RAG 負責「知識與時效」。

(D) 為最佳策略:

分工明確: 透過 Fine-tuning 讓模型內化公司的企業文化、品牌語氣或特定的回覆格式(例如固定使用「您好,這裡是...」)。由於語氣通常不會天天變動,因此微調模型後可以長期維持穩定。

即時性: 對於「每日新增文件」,RAG 是最佳方案。只需將新文件向量化(Embedding)並存入向量資料庫,模型在查詢時就能即時檢索到最新資訊,完全不需要重新訓練模型。

效能穩定: 避免了頻繁訓練的高額運算成本與模型退化的風險。

(A) 與 (C) 錯誤:

成本與技術限制: 頻繁(每週或每日)進行 Fine-tuning 在實務上極其昂貴。

時效性不足: 即使每日訓練,模型知識仍有落後。且 Fine-tuning 並不適合用來記憶具體的「事實資訊」,模型很容易產生幻覺。

災難性遺忘: 頻繁增量訓練可能導致模型原本的通用推理能力受損。

(B) 錯誤:

語氣控制不夠深: 雖然 Prompt Engineering 可以控制語氣,但在處理非常複雜、長篇或需要高度一致性的企業風格時,Fine-tuning 的效果通常比單純的提示詞更穩定且深層。

Fine-tuning vs. RAG 的完美平衡 (The Hybrid Approach)

維度 Fine-tuning (微調) RAG (檢索增強)
擅長任務 調整回覆語氣、學習特定格式。 獲取最新事實、查詢外部文件。
更新頻率 低(數月一次)。 極高(即時更新資料庫)。
資料容量 有限,難以記住海量細節。 幾乎無限,取決於資料庫大小。
透明度 黑箱,無法追溯答案來源。 高,可提供來源文獻引用。

解題關鍵:當需求包含 「語氣一致」 與 「即時查詢新增文件」 時,標準答案永遠是:微調控制皮囊(語氣),RAG 提供靈魂(知識)。


18. 某客服系統在回覆「訂單取消政策」時,即使生成溫度固定為 0.6,回覆品質仍常出現差異。調查顯示,檢索到的政策內容有時是最新版本,有時則是過時文件,此外 Prompt 約束不足,微調語料也有模糊描述。若要優先改善品質波動,應先解決下列哪一項問題?

(A) 調整溫度參數,降低生成隨機性;
(B) 加強 Prompt 設計,限制模型表達方式;
(C) 優化微調語料,減少含糊描述;
(D) 提升檢索系統品質,確保取得的政策內容正確且最新

看解答

正確答案是 (D) 提升檢索系統品質,確保取得的政策內容正確且最新。

這題考察的是「垃圾進,垃圾出(Garbage In, Garbage Out)」的原則,特別是在 RAG(檢索增強生成) 架構中,當多個環節都出現問題時,應如何判斷 「優先順序」。

(D) 為最優先解決方案:

根源問題: 題目明確提到檢索到的內容「有時是最新,有時是過時」。這代表模型接收到的 「事實基礎(Ground Truth)」 本身就是不穩定且錯誤的。

影響力最大: 無論你的 Prompt 寫得多完美、語氣微調得多優雅,如果輸入的政策資料是錯的,模型產出的答案就一定是錯的。在處理法規、政策或合約等「事實敏感型」任務時,資訊的正確性與時效性 永遠是最高優先級。

(A) 錯誤:

溫度參數(Temperature)影響的是文字的「創造性」或「隨機性」。雖然調低溫度能讓輸出更穩定,但如果輸入的資料本身就是過時的,調低溫度只會讓模型「更穩定地給出錯誤答案」。

(B) 錯誤:

Prompt 工程可以修飾輸出的格式與風格,但無法無中生有產生正確的政策細節,也無法解決檢索系統抓錯文件的問題。

(C) 錯誤:

微調語料的優化屬於長期工程,且主要影響模型的表現風格或特定任務的理解力。相較於「抓錯文件」這種嚴重的知識錯誤,語料模糊的影響順位較後。

RAG 系統品質優化優先級

在實務開發中,當系統表現不穩定時,通常遵循以下檢查順序:

1. 檢索層 (Retrieval) [優先級:最高]:模型有沒有讀到正確、最新的參考資料?
2. 上下文層 (Augmentation):參考資料是否被完整、無噪音地餵給模型?
3. 生成層 (Generation):Prompt 是否清晰?溫度設定是否合適?模型微調是否到位?

解題關鍵:「事實錯誤(過時文件)」 的殺傷力遠大於 「風格波動」。解決 RAG 品質問題,首要任務是確保 資料來源(Source of Truth) 的純淨與準確。


19. 某醫院導入了一套智慧系統,由三個模組構成:語音辨識(ASR) → 語言模型生成(LLM) → 查詢醫療資料庫 API。近期發現部分查詢結果錯誤,例如醫師詢問「術後復健流程」時,系統卻誤判為要查詢「術前注意事項」,因此查詢到錯誤的文件。經檢查已排除語音辨識的錯誤,下列何者最可能是造成查詢錯誤的來源?

(A) 醫療資料庫 API 對應規則設計不清,造成意圖映射模糊;
(B) LLM 的 Prompt 缺乏明確指示,導致語意分類判斷錯誤;
(C) 查詢 API 回傳速度過慢,影響系統處理正確性;
(D) LLM 未經醫療領域微調,難以正確理解專業性詞彙

看解答

正確答案是 (B) LLM 的 Prompt 缺乏明確指示,導致語意分類判斷錯誤。

這題考驗的是對 AI Agent 工作流(Workflow) 中「決策點」的錯誤分析。

在「ASR \(\rightarrow\) LLM \(\rightarrow\) API」的架構中,LLM 扮演的是 「大腦(控制器)」 的角色,負責判斷使用者的意圖並決定呼叫哪個 API。

(B) 為正確答案:
意圖識別錯誤: 醫師詢問的是「術後」,系統卻判斷為「術前」。在 ASR 已排除錯誤的前提下,代表 LLM 接收到了正確的文字,但在 語意理解與分類(Intent Classification) 階段出了錯。
Prompt 的重要性: LLM 如何將一段話歸類為特定的 API 參數,完全取決於你給它的 Prompt 指令。如果 Prompt 中沒有明確定義「術前」與「術後」的區分邏輯,或是範例(Few-shot)不足,LLM 就容易產生誤判。這就是典型的「意圖映射」在 AI 推理層面失效。

(A) 錯誤:
API 的「對應規則」通常是固定的(例如輸入 type=post-op 就給術後文件)。如果 LLM 給出的參數是正確的(post-op),但 API 回傳錯誤,那才是 API 設計問題。但本題描述的是「誤判」,這屬於 LLM 的決策失誤。

(C) 錯誤:
API 的「回傳速度」只會影響使用者的等待時間(Latency),不會導致「內容判斷錯誤」。速度慢不代表邏輯會變錯。

(D) 錯誤:
雖然醫療微調能提升理解力,但「術前」與「術後」屬於基礎的邏輯詞彙,一般的強大模型(如 GPT-4 或 Claude 3.5)在具備良好 Prompt 的情況下都能正確分辨。這類判斷錯誤通常優先歸咎於 Prompt 工程 的瑕疵,而非模型本身不認識專業詞彙。

AI 客服/助理的決策鏈結分析

步驟 功能 錯誤現象 責任歸屬
1. ASR 語音轉文字 把「術後」聽成「售後」 語音模型
2. LLM 判斷意圖 (B) 把「術後」理解為「術前」 Prompt / NLU
3. API 執行查詢 輸入正確但查無此文件 資料庫 / 後端邏輯

解題關鍵:當輸入文字正確(ASR 沒錯),但最終執行的動作與目標不符時,問題核心通常出在 LLM 的 「決策/分類邏輯」,而優化該邏輯最直接手段就是 Prompt 工程。


20. 某醫院正在規劃一個 AI 專案,目的是協助醫師從胸腔 X 光影像中判斷是否存在肺炎徵兆,團隊卻誤將生成式 AI 模型運用於影像診斷。下列哪一項最可能成為主要風險?

(A) 模型在生成報告時語句流暢,但僅在文字表達上有差異,對診斷結果沒有重大影響;
(B) 模型若資料不足,僅會降低生成報告的完整性,而非影響判斷病灶的正確性;
(C) 模型偏向生成內容而非分類,但此差異僅影響效率,不會造成誤診風險;
(D) 模型可能生成與實際影像不符的診斷結論,導致誤判並引發醫療與法律風險

看解答

正確答案是 (D) 模型可能生成與實際影像不符的診斷結論,導致誤判並引發醫療與法律風險。

這題考驗的是對 生成式 AI(Generative AI) 與 判別式/分析式 AI(Discriminative/Analytical AI) 應用邊界的理解。在醫療診斷等高風險領域,選錯模型類型會帶來嚴重的後果。

(D) 為正確答案:

生成 vs. 判別: 影像診斷(如 X 光片判讀)本質上是一個 分類(Classification) 或 物件偵測(Object Detection) 任務。傳統的分析式 AI 會針對影像特徵進行統計判斷。

幻覺風險(Hallucination): 生成式 AI 的核心是「預測下一個字」或「補全內容」。當它被誤用於診斷時,可能會因為語義補全的特性,生成一段看似專業但與實際 X 光影像特徵完全不符的文字(例如影像中沒有肺炎,但模型卻根據機率生成了典型的肺炎描述),這就是醫療領域最危險的「幻覺」現象。

法律與生命安全: 這種「誤判」可能導致患者錯過治療黃金期或接受不必要的治療,進而引發嚴重的醫療糾紛與法律責任。

(A)、(B)、(C) 錯誤:

這些選項都低估了生成式 AI 在處理「事實診斷」時的風險。生成式 AI 的問題不只是「語句差異」、「不完整」或「效率低」,而是它具備 「無中生有」 的特性,在需要極度精確的醫療判讀中,這種特性會直接轉化為 誤診風險。

醫療 AI 模型選用對照

任務類型 推薦 AI 類型 運作機制 錯誤風險
影像診斷 (X光、MRI) 判別式/電腦視覺 (CNN) 辨識病灶特徵並分類。 漏看或誤認特徵。
撰寫衛教文章、病歷摘要 生成式 (LLM) 根據上下文生成流暢文字。 幻覺 (生成虛假事實)。

解題關鍵:當 AI 被要求做 「判斷真偽」 或 「精確診斷」 時,使用 生成式模型 的最大死穴就是 「生成與事實不符的內容(幻覺)」。


21. 某公司開發的智慧車載語音助理,可透過語音辨識(ASR)辨識駕駛語音,再由 LLM 生成回答並查詢車載 API。測試中發現:ASR 對汽車專業術語辨識錯誤率高;LLM 的回覆常不精確;系統回覆延遲雖存在但仍可接受。若目標是「優先提升準確性與回答品質」,下列改進步驟的最合理執行順序為何?
1. 擴充並標註汽車領域語音資料,微調 ASR 模型
2. 微調 LLM 並加入檢索增強(RAG)
3. 優化系統架構,引入批次推論降低延遲
4. 動態調整生成溫度,平衡準確度與多樣性

(A) 1 → 2 → 4 → 3;
(B) 2 → 1 → 3 → 4;
(C) 1 → 3 → 2 → 4;
(D) 3 → 1 → 2 → 4

看解答

正確答案是 (A) 1 → 2 → 4 → 3。

這題考驗的是在多模態 AI 系統中,面對多個問題時的 「改進優先順序」 邏輯。核心原則是 「先修復輸入(Input),再優化處理(Process),最後才是調優與效率(Tuning & Optimization)」。

第一步:1. 微調 ASR 模型(修復輸入)

理由: 這是系統的最前端。題目提到 ASR 對專業術語辨識錯誤率高。如果輸入的文字本身就是錯的(例如將「煞車」聽成「下車」),後端的 LLM 再強、RAG 再精準也無法給出正確答案。因此,優先解決 「聽不準」 的問題是所有後續品質提升的基礎。

第二步:2. 微調 LLM 並加入 RAG(優化處理)

理由: 在確保輸入文字正確後,接下來要解決 LLM 「說不準」 的問題。透過 RAG 可以讓 AI 查詢正確的車主手冊或維修資料,微調則能讓語氣與專業性更符合車載場景。這是提升「回答品質」的核心。

第三步:4. 動態調整生成溫度(精細調優)

理由: 當 ASR 聽得準、LLM 也有正確知識後,最後再透過調整溫度(Temperature)來微調輸出風格。對於車載助理,通常會降低溫度以追求高度的穩定性與準確度。

第四步:3. 優化系統架構降低延遲(提升效率)

理由: 題目明確提到 「延遲雖存在但仍可接受」,且目標是 「優先提升準確性與回答品質」。因此,降低延遲雖然對使用者體驗有幫助,但在這題的目標設定下,它的優先級是最低的。

AI 系統改進的黃金法則:由前至後

優化層級 對應步驟 核心價值
感知層 (Perception) 1. ASR 優化 確保 AI 「看/聽」到的資訊是正確的。
認知層 (Cognition) 2. RAG/LLM 微調 確保 AI 「思考/理解」的邏輯與知識是正確的。
表現層 (Expression) 4. 參數調優 控制 AI 「說話」的穩定性。
體驗層 (Experience) 3. 降低延遲 讓系統跑得更順、更快。

解題關鍵:解決 AI 問題必須遵循 「垃圾進,垃圾出 (GIGO)」 原則,輸入端(ASR)的錯誤如果不先解決,後續的優化都是徒勞。


22. 一家顧問公司使用生成式 AI 協助撰寫數據分析報告。雖然模型在測試中表現優異,但其生成的報告多半僅遵循固定段落結構,替換數值或關鍵詞即可完成,卻未能展現針對不同專案的多樣化推理與分析。下列何者為造成這種現象的最合理解釋?

(A) 模型在生成過程中缺乏對字體與排版的優化能力,因此無法展現分析邏輯;
(B) 測試資料涵蓋過多統計圖表,導致模型無法專注於文字內容的多樣化表達;
(C) 模型過度依賴訓練語料中的常見報告範式,導致生成結果以樣板化結構取代真正的推理;
(D) 模型因無法正確辨識報告中的頁碼與標題層級,才出現樣板化的結果

看解答

正確答案是 (C) 模型過度依賴訓練語料中的常見報告範式,導致生成結果以樣板化結構取代真正的推理。

這題考驗的是對大型語言模型(LLM)「機率性預測」與「模式匹配(Pattern Matching)」特性的理解,特別是在處理結構化文件時的表現。

(C) 為最合理的解釋:

模式崩塌與依賴: 數據分析報告在訓練語料中(或是在微調資料中)往往有著高度重複的結構(例如:摘要、數據呈現、結論)。當模型發現這種「固定模版」的出現機率極高時,它會傾向於選擇最安全、機率最高的路徑,即「填空式」生成。

缺乏深層推理: 雖然模型表面上產生了正確的數值替換,但它本質上是在進行複雜的文字補全,而非真正理解數據背後的因果關係。這導致輸出雖然語法正確,卻顯得千篇一律,缺乏針對特定專案的深度洞察。

(A) 錯誤:

排版非邏輯基礎: 字體與排版屬於「表現層(Presentation)」,與模型內部的「分析邏輯」無關。

(B) 錯誤:

圖表並非阻礙: 統計圖表(或數據)應該是分析的基礎。模型無法展現多樣化表達,是因為它陷入了文字生成的「安全區(樣板)」,而非因為圖表過多。

(D) 錯誤:

層級識別與內容無關: 頁碼與標題層級的辨識屬於「結構解析」問題,這可能會影響報告的外觀美醜,但不會導致模型無法進行「多樣化推理」。

如何突破「樣板化」現象?

在實務應用中(如您在網頁開發與 SEO 優化中所追求的高品質內容生成),若要解決此類問題,通常會採取以下策略:

策略 說明
增加 Temperature (溫度) 稍微提高隨機性,讓模型不總是選擇機率最高的下一個詞。
Few-shot Prompting 提供數個「具備深度分析」而非「填空式」的範例,引導模型模仿推理邏輯。
Chain-of-Thought (CoT) 要求模型在給出結論前,先寫出數據推導的邏輯步驟。
多樣化微調 使用不同風格、結構的分析報告進行微調,打破單一樣板的限制。

解題關鍵:當 AI 表現出 「填空化」 或 「僵化」 時,通常是因為它選擇了 訓練資料中最常見的機率路徑,導致行為模式化。


23. 在應用零樣本提示(Zero-Shot Prompting)時,下列哪一種情境最可能因缺乏示範而失敗,出現語意錯誤或結構錯誤的輸出?

(A) 要求模型判斷一段影評文字的情感傾向;
(B) 要求模型將一段新聞摘要濃縮為一句話;
(C) 要求模型將一段繁體中文翻譯成英文;
(D) 要求模型從表格中擷取所有城市的最高氣溫

看解答

正確答案是 (D) 要求模型從表格中擷取所有城市的最高氣溫。

這題考驗的是對 零樣本提示(Zero-Shot Prompting) 侷限性的理解。零樣本是指在不提供任何範例的情況下,直接下令讓模型執行任務。

(D) 為正確答案:

複雜格式與精確性: 從表格中擷取特定數據(如「最高氣溫」)涉及對 非結構化或半結構化數據 的精確解析。表格的呈現方式多變(可能在 Markdown 中,也可能只是純文字排列),模型若沒有範例引導,很難精確判斷哪些數字代表「最高溫」,哪些代表「最低溫」或「平均溫」。

結構錯誤: 擷取任務通常需要特定的輸出格式(如 JSON、CSV 或清單)。在 Zero-Shot 情況下,模型極容易漏掉資料、誤判欄位,或是產生不符合預期的輸出結構,導致後續程式無法處理。

(A) 錯誤:

語意直覺強: 情感分析(正向/負向)是 LLM 在預訓練階段學得最好的能力之一。即使不給範例,模型通常也能準確判斷影評的情緒。

(B) 錯誤:

通用任務: 摘要縮寫是生成式 AI 的核心強項。模型對於「摘要」的概念有很強的通用理解,Zero-Shot 的失敗率相對較低。

(C) 錯誤:

語言對齊: 對於繁簡中英轉換等主流語系翻譯,模型在預訓練時已建立了強大的映射關係,Zero-Shot 通常能完成得非常出色。

零樣本 (Zero-Shot) vs. 少樣本 (Few-Shot)

任務類型 Zero-Shot 表現 建議改用 Few-Shot 的原因
通用創作/摘要 優異 除非有特定字數或風格要求。
簡單情感判斷 穩定 除非有極為模糊的中性語境。
數據擷取 (D) 不穩定 需提供範例確保模型理解欄位對應與輸出格式。
複雜邏輯推理 較差 需引導思考步驟 (CoT)。

解題關鍵:「擷取」 與 「格式化」 任務對精確度要求極高,且極度依賴對上下文結構的理解。這類任務在缺乏範例(Zero-Shot)時,最容易出現欄位錯位或資訊遺漏。


24. 某保險公司計畫導入生成式 AI 的內部合約查詢系統,協助業務員與法務部門快速解讀保單條款與理賠規範。高層特別強調客戶資料隱私與合規風險控管,即使需要投入較多資源,也必須確保資料不會外洩。在此情況下,下列哪一種策略最符合公司的資料安全與合規優先考量?

(A) 導入開源模型並由 IT 團隊自建,後續再逐步補強隱私與合規控管;
(B) 在需求確認階段即納入法遵與稽核單位,設定準確率 KPI,並透過MVP 驗證成效;
(C) 優先使用雲端大型 API 模型快速部署,並根據使用數據持續調整;
(D) 投入資源自訓並私有化部署 LLM,並同步建立自動化風控機制

看解答

正確答案是 (D) 投入資源自訓並私有化部署 LLM,並同步建立自動化風控機制。

這題考驗的是在極高安全需求(保險、醫療、金融)下,企業對於 數據主權(Data Sovereignty) 與 風險控管 的最佳實踐。

(D) 為正確答案:

私有化部署(On-premise): 這是確保資料「絕對不外洩」的終極手段。對於處理保單條款與理賠規範等敏感資料,將模型部署在公司內部的伺服器或私有雲,可完全隔絕第三方服務商存取資料的風險。

自訓(Self-training): 雖然資源投入大,但能針對保險專業術語與合約邏輯進行深度優化,確保回覆精準且符合公司立場。

自動化風控: 同步建立風控機制(如:內容過濾、權限管控),能滿足高層對「合規風險控管」的嚴格要求。

(A) 錯誤:

「逐步補強」在金融與保險業是不可接受的。對於隱私與合規,必須是「設計即安全(Security by Design)」,而非事後才補救。

(B) 錯誤:

這屬於專案管理的流程優化(納入法遵、KPI、MVP),雖然是正確的專案步驟,但並未從技術底層解決題目最在意的「資料不會外洩」物理性限制。

(C) 錯誤:

雲端 API(如 OpenAI, Claude) 最大的風險在於資料必須傳輸到外部。即便有企業版協議,對某些保險公司的高層而言,仍存在第三方洩漏或監管合規的疑慮,不符合「確保資料不會外洩」的最優先考量。

保險業 AI 部署的安全考量矩陣

安全維度 私有化部署 (D) 雲端 API (C) 影響評估
數據流向 留在內部防火牆內。 傳輸至外部供應商。 (D) 具備絕對主權。
法律合規 完全符合個資法規。 需檢視跨境傳輸限制。 (D) 降低合規阻力。
資源投入 極高(硬體、維運)。 低(訂閱費)。 題目註明「即使需投入較多資源」。

解題關鍵:當題目強調 「資料隱私」、「合規控管」 且 「不計資源投入」 時,選擇 「私有化部署(Private Deployment)」 永遠是權威答案。


25. 某新創公司開發一套圖像描述生成系統,能根據輸入的照片自動產生說明文字。為了讓產生的描述文字能與圖片資訊精準對應,下列哪一種設計思路最關鍵?

(A) 強化語言模型的句法與流暢性,確保生成文字更自然易讀;
(B) 在生成過程中結合圖片特徵與語言建模,讓模型同時利用影像內容與文字資訊;
(C) 調整生成策略(如 Beam Search 或溫度參數),以提升輸出文字的合理性;
(D) 專注於文字序列上下文的建模,只提升文字間的連貫性

看解答

正確答案是 (B) 在生成過程中結合圖片特徵與語言建模,讓模型同時利用影像內容與文字資訊。

這題考驗的是 多模態模型(Multimodal Models) 的核心原理,特別是「影像敘述生成(Image Captioning)」的設計邏輯。

(B) 為正確答案:

精準對應的核心: 要讓文字精準對應圖片,模型必須具備「跨模態對齊」的能力。這意味著在生成每一個字時,模型的大腦都要同時參考:

影像特徵(Visual Features): 從圖片中提取出的物件、場景、顏色與空間關係(通常由 CNN 或 Vision Transformer 處理)。

語言建模(Language Modeling): 根據已生成的文字推測下一個字,確保語法正確。

注意力機制(Attention Mechanism): 關鍵技術通常是讓模型在生成特定詞彙(如「狗」)時,將注意力集中在圖片中對應的區域,這才是達到「精準對應」的最關鍵設計。

(A) 錯誤:

強化流暢性只能讓句子讀起來像「人話」,但如果沒有與圖片特徵掛鉤,模型可能會產生與圖片無關的漂亮廢話(例如:圖中是一隻貓,模型卻流暢地描述了一隻狗)。

(C) 錯誤:

調整生成策略(如 Beam Search)只是在後端「挑選」機率最高的字詞組合。如果模型底層沒有融合影像資訊,無論怎麼挑選,都無法解決「圖文不符」的根本問題。

(D) 錯誤:

只專注於「文字序列上下文」會讓模型變成單純的語言模型。這會導致模型完全忽視輸入的照片,僅根據文字慣性進行預測,與題目要求「精準對應圖片」的目標背道而馳。

影像描述生成系統 (Image Captioning) 工作流程

組件名稱 負責任務 關鍵作用
影像編碼器 (Encoder) 提取圖片中的高階語義特徵。 讓 AI 「看懂」圖片內容。
文字解碼器 (Decoder) 將特徵轉換為文字序列。 讓 AI 「說出」描述內容。
交叉注意力 (Cross-Attention) 連結影像特徵與文字生成。 確保說出的每個字都對應到圖中對象。

解題關鍵:「跨模態對齊」(影像與文字的融合)是所有多模態任務(如 DALL-E, Sora, GPT-4o)能成功的基石。


26. 某電商平台希望生成的商品描述在風格與用詞上保持一致性,但不需要新增專業知識。下列哪種方法最適合?

(A) 擴充語料庫並微調模型,使風格統一;
(B) 增加提示詞複雜度,引導模型風格一致;
(C) 降低生成溫度,以減少隨機性並提升風格一致性;
(D) 使用全連接神經網路對生成結果後期篩選

看解答

正確答案是 (B) 增加提示詞複雜度,引導模型風格一致。

這題考驗的是如何在不同層次調整生成式 AI 的輸出,特別是針對「風格一致性」且「不需額外專業知識」的情境。

(B) 為最佳方案:

高效與低成本: 對於電商平台來說,如果只是要確保回覆語氣(例如:親切、專業、使用特定術語),透過 提示工程(Prompt Engineering) 或是 Few-shot Prompting(在提示詞中提供 3~5 個標準範例)是最快速且經濟的做法。

靈活性: 只要修改提示詞(System Prompt),就能立刻更換整站的描述風格(例如從「清新風」改成「促銷風」),不需要重新訓練模型。

(A) 錯誤:

過度工程(Over-engineering): 微調(Fine-tuning)雖然能統一風格,但過程昂貴且耗時。題目明確提到「不需要新增專業知識」,這意味著基礎模型已有的能力就足夠,使用微調來解決純風格問題在經濟效益上並不划算。

(C) 錯誤:

治標不治本: 降低溫度(Temperature)雖然能減少隨機性,讓輸出變得「呆板且重複」,但如果原始提示詞給得不好,模型只會「穩定地生成風格不一致或品質低落的內容」。溫度控制的是多樣性,而非定義風格本身。

(D) 錯誤:

技術誤用: 全連接神經網路(FNN)通常用於分類或回歸任務。在生成文字後再用另一個神經網路進行「風格篩選」極其低效,且難以定義篩選準則。

不同層次的風格控制手段

手段 適用情境 優點 缺點
提示工程 (B) 通用的風格規範。 成本極低、即時生效。 對極其細微的風格掌握度較弱。
微調 (A) 深度法律、醫學風格。 風格內化、效果最穩。 成本高、資料準備耗時。
參數調整 (C) 追求答案唯一性。 簡單快速。 可能導致內容重複感過重。

解題關鍵:當需求是 「風格一致」 且 「無須新知識」 時,優先考慮 Prompt Engineering(提示工程)。


27. 某企業已建置 AI 語音記錄系統,並希望整合生成式 AI 進行「會議即時摘要」功能,下列哪一種策略最能提升摘要的語意品質與使用價值?

(A) 使用語音轉文字模型即時輸出逐字稿並轉入 GPT 摘要;
(B) 將語音逐段切分並建立關鍵字索引,以利摘要模型從中擷取核心內容生成會議重點;
(C) 將語音轉文字後標註發言角色與主題邊界,結合語意分群進行動態摘要;
(D) 將所有語音內容儲存為完整紀錄,提供事後人工摘要比對用

看解答

正確答案是 (C) 將語音轉文字後標註發言角色與主題邊界,結合語意分群進行動態摘要。

這題考察的是如何將非結構化的語音資料轉化為高品質、具備「語意價值」的生成內容。

(C) 為最佳策略:

發言角色標註 (Diarization): 會議中「誰說了什麼」至關重要。標註發言者能讓摘要區分出決策者、執行者與提問者,避免語意混淆。

主題邊界與語意分群: 會議通常包含多個議題。透過主題切割,AI 可以針對每個獨立討論點(而非整塊雜亂的逐字稿)進行精確摘要。這種「分段處理、動態匯總」的方式最能保留原始對話的邏輯脈絡,提升摘要的使用價值。

(A) 錯誤:

資訊過載: 直接將原始、未經處理的逐字稿塞給 GPT,會包含大量口頭贅字(呃、那個)、重複表達或無意義的插嘴,導致生成的摘要重點模糊,且容易受限於模型的上下文長度限制。

(B) 錯誤:

缺乏連貫性: 關鍵字索引雖然有助於「搜尋」,但若只靠擷取關鍵字來生成摘要,會丟失對話間的因果關係與脈絡(Context),生成的重點可能顯得破碎。

(D) 錯誤:

不具備自動化價值: 這只是傳統的紀錄存檔與人工處理,完全沒有發揮生成式 AI 提升效率與品質的潛力。

高品質會議摘要的關鍵技術層次

技術手段 提升的價值 避免的問題
角色識別 (Diarization) 釐清責任歸屬與發言情境。 避免將 A 的建議誤植為 B 的決定。
語意分段 (Segmentation) 建立結構化的議題清單。 避免摘要內容前後跳躍、邏輯混亂。
摘要生成 (Summarization) 濃縮核心觀點與待辦清單。 節省閱讀完整逐字稿的時間。

解題關鍵:提升「語意品質」的關鍵在於資料的結構化處理。「角色」與「主題」是會議資訊中最核心的兩個維度,標註這兩者能大幅提升 AI 生成內容的精確度。


28. 某公司正在開發一個智慧客服系統,負責回覆顧客關於退換貨、優惠活動與商品建議等問題。研發團隊嘗試使用不同的提示設計方式來提升模型效能。下列哪一個提示最符合「少樣本提示(Few-Shot Prompting)」的設計原則?

(A) 「請回答顧客詢問:如何申請退貨?」;
(B) 「以下是兩組客服對話範例,請依照相同風格回覆新的顧客問題」;
(C) 「請逐步分析顧客投訴的原因,並依照推理過程生成合適回覆」;
(D) 「請以正式的語氣回覆顧客的提問」

看解答

正確答案是 (B)「以下是兩組客服對話範例,請依照相同風格回覆新的顧客問題」。

這題考驗的是對各種 提示工程(Prompt Engineering) 策略的辨識能力。

(B) 為正確答案:

設計原則: 少樣本提示(Few-Shot Prompting) 的核心特徵在於提供 「範例(Examples/Demonstrations)」。透過給予模型幾組「輸入-輸出」的範例,讓模型學習特定的任務格式、回答邏輯或語氣風格。選項 (B) 明確提到提供了「兩組對話範例」,完全符合此定義。

(A) 錯誤:

零樣本提示(Zero-Shot Prompting): 直接下達指令,沒有提供任何範例。模型僅憑藉預訓練時的通用知識來回答。

(C) 錯誤:

鏈狀思考提示(Chain-of-Thought, CoT): 要求模型「逐步分析」或「寫出推理過程」。這旨在引導模型進行邏輯推導,而非強調範例的模仿。

(D) 錯誤:

角色/語氣設定(Persona/Role Prompting): 僅定義模型的角色身分或說話語氣,不涉及具體的範例示範。

常見提示策略對照表

策略名稱 核心特徵 目的
Zero-Shot 直接下指令,無範例。 測試模型通用理解能力。
Few-Shot (B) 提供少數幾個範例。 規範輸出格式、風格或處理複雜邏輯。
Chain-of-Thought (C) 加上「逐步思考」的指令。 解決需要多步推理的數學或邏輯問題。
Role-Play (D) 指定模型為「專業客服」。 調整模型的語氣與專業深度。

解題關鍵:看到 「範例(Example)」 或 「示範」 關鍵字,即可判定為 Few-Shot Prompting。


29. 某投資公司導入生成式 AI,用於即時分析股市波動並提供市場背景資訊。若希望 AI 能兼顧「即時性」與「可靠性」。下列哪一項設計最能有效提升 AI 在即時股市分析上的表現?

(A) 將 AI 系統連結至公司內部歷史交易資料庫,以便快速調用既有的案例參考;
(B) 調整模型的回應邏輯,讓 AI 優先輸出最新市場行情,而不是完整的背景分析;
(C) 建立與外部即時行情來源同步的查詢模組,確保 AI 能即時擷取最新金融數據;
(D) 增加訓練資料中模擬的金融危機與市場異常案例,以提升 AI 在特殊情境下的表現能力

看解答

正確答案是 (C) 建立與外部即時行情來源同步的查詢模組,確保 AI 能即時擷取最新金融數據。

這題考驗的是對於 RAG(檢索增強生成) 在處理「極高時效性數據」時的應用能力。在股市分析這種秒級變動的場景中,「資料的新鮮度」直接決定了分析的價值。

(C) 為最佳方案:

即時性(Real-time): 大型語言模型(LLM)的訓練資料有其截止日期(Knowledge Cutoff),無法得知「現在」的股價。透過查詢模組連結外部 API(如 Bloomberg、Yahoo Finance 或交易所 API),能讓 AI 獲取當下的數據。

可靠性(Reliability): AI 不再僅憑記憶中的機率來「預測」股價(避免幻覺),而是根據真實的行情數據進行邏輯分析。這種「外部數據 + LLM 分析能力」的結合是目前金融 AI 應用的主流架構。

(A) 錯誤:

歷史資料庫有助於「歷史回測」或「模式比對」,但無法解決「即時股市分析」所需的新鮮資訊。面對突發的市場波動,歷史數據無法提供當下的背景解釋。

(B) 錯誤:

僅調整回應邏輯(優先輸出行情)並不能改變 AI 知識落後的事實。如果 AI 沒辦法存取即時數據,它輸出的行情依然是過時的。

(D) 錯誤:

增加模擬案例屬於「提升模型的泛化能力」,雖然能讓 AI 在極端情況下更有經驗,但這屬於模型預訓練或微調的範疇,無法解決「即時性」問題。

金融 AI 系統架構:RAG 的即時應用

組件 作用 解決的問題
外部查詢模組 (C) 抓取最新股價、即時新聞、公告。 知識落後、數據時效性。
LLM 核心 分析數據間的因果關係,撰寫報告。 數據太生硬,缺乏人類可讀性。
歷史資料庫 (A) 提供過去類似情況的處理經驗。 缺乏長線脈絡參考。

解題關鍵:當需求包含 「即時性」 與 「可靠數據」 時,標準答案必然是透過 「外部查詢/檢索(RAG)」 來獲取最新資訊。


30. 30. 某大型物流公司計畫導入 AI 系統,以改善客服與配送作業的效率。專案團隊規劃了以下四個步驟,請問正確的執行順序為何?
1. 建立符合公司服務流程的 AI 對話邏輯與應答範本,確保顧客體驗一致
2. 明確定義導入 AI 的目標並設定關鍵績效指標(KPI)
3. 蒐集與清理過往客服紀錄與配送相關資料,作為模型訓練素材
4. 評估並選擇合適的 AI 技術供應商或開源方案,確立技術方向與架構

(A) 2 → 3 → 4 → 1;
(B) 3 → 2 → 1 → 4;
(C) 2 → 1 → 3 → 4;
(D) 1 → 4 → 3 → 2

看解答

正確答案是 (A) 2 → 3 → 4 → 1。

這題考驗的是企業導入 AI 專案時的 標準作業流程(SOP)。一個成功的 AI 專案必須遵循「目標導向」與「數據驅動」的原則,由宏觀規劃逐步落實到執行細節。

第一步:2. 明確定義目標並設定 KPI(策略規劃)

理由: 這是所有專案的起點。必須先知道要解決什麼問題(例如:降低 20% 客服人力成本、提升配送準點率),才能決定後續需要什麼數據與技術。

第二步:3. 蒐集與清理資料(基礎建設)

理由: AI 的本質是「數據」。在決定技術方案前,必須先評估手邊有多少可用的資料、品質如何。資料的完整性會直接影響到第四步技術方案的選擇(例如:資料量夠大才考慮自訓模型)。

第三步:4. 選擇技術方案或供應商(技術確立)

理由: 根據已確定的目標(第一步)與現有的數據狀況(第二步),決定是要買現成的雲端服務、使用開源模型,還是尋找外部系統整合商。

第四步:1. 建立對話邏輯與應答範本(實作部署)

理由: 在技術架構與數據都到位後,最後才是針對具體的業務流程(如:退貨流程、包裹查詢)設計對話邏輯與範本。這是最接近使用者的一環,也是最後的落地執行。

企業 AI 導入生命週期

階段 對應步驟 核心任務
1. 規劃期 (2) 定義目標 確立專案價值,設定衡量標準。
2. 準備期 (3) 數據清洗 準備 AI 的「燃料」,確保品質。
3. 選型期 (4) 技術選型 挑選最合適的「引擎」(供應商或模型)。

解題關鍵:記住 「先有目標(KPI),後有數據(Data),再選技術(Tech),最後落實流程(Logic)」 的邏輯順序。


31. 某跨國電商企業導入生成式 AI,協助處理顧客服務請求,並根據顧客歷史訂單提供個人化建議。資安與法遵部門擔心 AI 在回覆時可能洩漏顧客個資,若要在導入初期優先避免觸法風險,下列哪一項措施最符合要求?

(A) 在加密環境下導入完整的顧客訂單與行為資料,並透過嚴格存取控管降低洩漏風險;
(B) 實施資料最小化與去識別化,確保 AI 在訓練與生成過程中不直接處理或暴露敏感個資;
(C) 強化模型的回覆審查流程,透過自動過濾與人工抽查結合,降低個資外洩的機率;
(D) 設定 AI 的角色與回覆範圍,讓其專注於客服相關內容,避免回答其他敏感議題

看解答

正確答案是 (B) 實施資料最小化與去識別化,確保 AI 在訓練與生成過程中不直接處理或暴露敏感個資。

這題考驗的是對 隱私保護設計(Privacy by Design) 以及全球個資法規(如 GDPR 或台灣個資法)核心原則的理解。在 AI 專案導入初期,從「源頭」控管資料是最有效的防護手段。

(B) 為最符合要求的措施:

資料最小化(Data Minimization): 指僅蒐集與處理達成特定目的所「必要」的資料。如果 AI 只需要根據「購買品項」推薦商品,就不應讓它接觸到「姓名、身分證字號或詳細地址」。

去識別化(De-identification): 在將資料餵給 AI 之前,先遮蔽或移除能識別特定個人的資訊。這是避免 AI 在生成回覆時不經意「吐出」個資(即洩漏風險)的根本解決之道。

合規優先: 法律通常規定,若資料已去識別化至無法回溯特定個人的程度,其處理風險將大幅降低,最能滿足資安與法遵部門的初衷。

(A) 錯誤:

雖然加密與存取控管是資安基礎,但 AI 模型本身具備「記憶」特性。如果將完整個資餵給模型,即便環境加密,模型仍可能在生成過程中產生「幻覺」或受「提示攻擊(Prompt Injection)」而將隱私內容寫在回覆中。

(C) 錯誤:

審查與過濾屬於「事後補救」。在高流量的電商環境下,人工抽查緩不濟急,且自動過濾器(DLP)無法百分之百保證攔截所有變體形式的個資洩漏。

(D) 錯誤:

設定回覆範圍(Persona)雖然能限制 AI 的話題,但無法防止 AI 在「客服範圍內」洩漏個資。例如,顧客詢問「我的訂單狀態」,AI 可能在回覆時順便帶出了未經遮蔽的電話號碼。

AI 隱私保護的層次邏輯

防護策略 作用點 安全等級
資料去識別化 (B) 數據輸入前 (源頭) 極高(法律合規基準)
加密與存取控管 (A) 儲存與傳輸環境 高(基礎建設級)
回覆過濾與審查 (C) 輸出結果後 中(容易被繞過)

解題關鍵:面對 「避免觸法」 與 「隱私風險」,最標準的回答永遠是從 資料端(最小化、去識別化、匿名化) 下手,而非僅依賴環境控管或產出過濾。


32. 某國際銀行導入生成式 AI,用於彙整不同國家金融監管機構的合規規範,建立跨國合規知識庫。由於各國條文表述方式不同,且監管要求具有高度專業性與隱含邏輯,若要確保知識庫在後續查詢與生成報告時能維持正確性與一致性,下列哪一項 AI 能力最為關鍵?

(A) 具備跨語言專業術語對齊與條文語意抽取能力,能正確辨識不同國家規範間的對應與差異;
(B) 能自動最佳化文件檢索效率,縮短跨國法規查詢的延遲時間,提升合規部門使用體驗;
(C) 能將合規文件轉換為多種輸出形式(如簡報、摘要或法規清單),以符合不同決策層級需求;
(D) 具備根據歷史案例生成合規解釋的能力,協助新進員工快速理解法規在實務上的應用

看解答

正確答案是 (A) 具備跨語言專業術語對齊與條文語意抽取能力,能正確辨識不同國家規範間的對應與差異。

這題的核心情境是「跨國金融監管」與「合規知識庫」。處理各國法規時,最大的挑戰不在於翻譯文字,而在於 「語意的一致性」 與 「專業邏輯的對齊」。

(A) 為最關鍵能力:

專業術語對齊(Term Alignment): 不同國家對同一金融行為可能有不同稱呼(例如:洗錢防制的各國定義差異)。若 AI 不能在底層將這些術語「對齊」,生成的報告就會產生歧義。

語意抽取(Semantic Extraction): 合規條文充滿隱含邏輯,AI 必須能從法律術語中精確抽取出「義務」、「禁止事項」與「處罰條款」,並識別出 A 國與 B 國規範間的衝突或重疊。這是建立「跨國一致性」知識庫的技術基石。

(B) 錯誤:

這屬於「效能(Performance)」優化。雖然能提升體驗,但對於合規這種 「容錯率極低」 的任務,回覆得快不如回覆得準。

(C) 錯誤:

這屬於「展現層(Presentation)」。將法規轉為簡報是輔助功能,前提是內容必須正確。如果核心語意識別錯誤,再精美的簡報也沒有價值。

(D) 錯誤:

這屬於「知識傳承(Knowledge Transfer)」。根據歷史案例解釋法規對新進員工有幫助,但這無法解決「建立知識庫時如何處理各國條文差異」的根本問題。

建立合規知識庫的技術挑戰

挑戰維度 解決手段 (A) 預期效果
多語言差異 跨語言向量對齊 確保搜尋「Anti-Money Laundering」能找到對應的中文條文。
專業定義歧義 知識圖譜 / 術語抽取 釐清不同監管機構對「合格投資人」定義的微小差別。
隱含邏輯判斷 語意推理與邏輯抽取 自動比對不同國家的合規義務是否存在衝突。

解題關鍵:在 「法規/監管」 領域,「精確度(Accuracy)」 與 「邏輯一致性(Consistency)」 永遠優先於效率與形式。處理跨國任務時,「跨語言語意對齊」 是確保不觸法的核心。


33. 在企業導入 MLOps(Machine Learning Operations)的過程中,除了模型部署與維運挑戰外,仍可能面臨其他推動上的困難。下列何者為 No Code 平台最能有效解決的挑戰?

(A) 自動化大量資料的標註與前處理,以降低數據準備成本;
(B) 提升運算基礎設施的可擴展性,以因應大規模服務需求;
(C) 透過可視化建模介面,降低技術門檻並促進跨部門協作;
(D) 提供進階特徵工程能力,優化高維度數據的處理效率

看解答

正確答案是 (C) 透過可視化建模介面,降低技術門檻並促進跨部門協作。

這題考驗的是對於 No-Code(無程式碼)平台 核心價值及其在 MLOps 流程中定位的理解。

(C) 為最佳答案:

降低門檻: No-Code 平台(如 Google Vertex AI Model Builder、Azure ML Studio 等)提供拖拉式的可視化介面,讓不具備深厚 Python 或 R 程式開發能力的「公民資料科學家」(如業務分析師、產品經理)也能參與建模。

促進協作: 在 MLOps 流程中,最常見的困難之一是「業務需求」與「技術開發」之間的斷層。No-Code 平台讓非技術部門能直接看懂模型邏輯與實驗流程,大幅降低溝通成本,解決了推動上的「人才短缺」與「跨部門協作」挑戰。

(A) 錯誤:

雖然某些平台包含標註功能,但「自動化大量資料標註」通常需要專門的數據標註工具或主動學習(Active Learning)技術,並非 No-Code 平台最核心的差異化優勢。

(B) 錯誤:

這屬於雲端基礎設施或 Kubernetes(K8s)等 Cloud Native 技術要解決的「擴展性(Scalability)」問題,通常由 DevOps/MLOps 工程師負責,與 No-Code 的介面特性無關。

(D) 錯誤:

「進階特徵工程」往往需要針對特定領域進行複雜的邏輯撰寫。雖然 No-Code 平台提供基本的資料轉換,但對於處理「高維度」或極其複雜的特徵工程,專業的程式開發(Code-based)通常比 No-Code 更具備效率與靈活性。

No-Code 平台在 MLOps 中的定位

挑戰類型 No-Code 平台的解決方案 預期效果
人才缺口 可視化 GUI 建模 讓業務人員也能快速產出模型原型(Prototype)。
溝通斷層 流程圖形式的實驗管理 技術與非技術人員有共同的語言進行討論。
開發速度 預建的算法模組與自動化機器學習 (AutoML) 縮短從想法到模型上線的時間。

解題關鍵:No-Code 的關鍵字永遠是 「降低入門門檻」、「可視化(Visualization)」 與 「非技術人員參與」。


34. 某醫療機構計畫導入生成式 AI 協助撰寫病歷摘要。在技術測試階段,為確保系統能安全應用於臨床,最應優先關注下列哪一項指標?

(A) 資料儲存與存取架構的完整性,確保長期運作過程中的數據可追溯性;
(B) 生成內容的醫療準確性與臨床一致性,避免出現錯誤或誤導性資訊;
(C) 模型在不同病例語境下的泛化能力,確保不因個別樣本而偏差;
(D) 系統回應時間的穩定性,以支援醫療場域中可能的即時需求

看解答

正確答案是 (B) 生成內容的醫療準確性與臨床一致性,避免出現錯誤或誤導性資訊。

這題考驗的是在 高風險領域(醫療、生命安全) 應用 AI 時的核心價值順序。在臨床實務中,「安全性」與「不傷害(Do No Harm)」永遠是第一優先考量。

(B) 為最應優先關注的指標:

幻覺與誤導風險: 生成式 AI 最大的技術缺陷在於可能產生「幻覺(Hallucination)」,即編造不存在的病徵或數據。在病歷摘要中,若模型誤植了藥物劑量、過敏史或診斷結果,將直接導致醫療錯誤,危害患者生命。

臨床一致性: 摘要必須與原始病歷事實完全相符(Factuality)。在技術測試階段,若無法確保生成的內容百分之百準確,該系統就無法安全地進入臨床應用。

(A) 錯誤:

這屬於「系統架構與合規(Audit Trail)」層面。雖然對於長期運作和法遵很重要,但若生成的內容本身是錯的,架構再完整也無法保證臨床安全。

(C) 錯誤:

「泛化能力(Generalization)」是指模型處理少見病例的能力。這固然重要,但對於醫療機構而言,優先確保「目前處理的這份摘要是正確的」比「未來能否處理各種奇特病例」更為急迫且關鍵。

(D) 錯誤:

這屬於「效能與可用性(Availability)」。在醫療場域,除非是急診即時監測系統,否則對於撰寫病歷摘要這類任務,準確性(Accuracy)的權重遠高於回應速度(Latency)。

醫療 AI 的評估權重分配

評估維度 關鍵關注點 優先順序
準確性 (Accuracy) (B) 內容是否與事實相符、有無幻覺。 第 1 優先 (安全核心)
隱私與合規 (Privacy/Compliance) 個資去識別化、存取權限。 第 2 優先 (法律底線)
穩定性與泛化 (C, D) 系統不當機、不同科別通用。 第 3 優先 (維運效能)

解題關鍵:在任何涉及 「生命安全」 的 AI 題目中,「準確性」 與 「避免錯誤資訊」 永遠是技術測試階段的最高優先級。


35. 在即時客服系統的效能測試中,若針對延遲測試(Latency Testing)進行評估,下列哪一項指標最能反映系統是否符合用戶即時互動需求?

(A) AI 模型在同一分鐘內可完成的回覆訊息數量;
(B) 客戶從輸入問題到收到第一個完整回應所需的時間;
(C) 客服系統能連續提供服務的運行時長;
(D) AI 產生回答時用詞的多樣性與表達創意程度

看解答

正確答案是 (B) 客戶從輸入問題到收到第一個完整回應所需的時間。

這題考驗的是對 延遲測試(Latency Testing) 關鍵指標的理解。在即時客服場景中,用戶的體驗直接取決於「等待感」。

(B) 為正確答案:

定義: 這項指標通常被稱為 「端到端延遲(End-to-End Latency)」 或 「首字響應時間(Time to First Token, TTFT)」 的延伸。

用戶體驗: 在即時對話中,用戶最在意的是發出訊息後多久能看到結果。如果這個時間過長(例如超過 3~5 秒),用戶就會感到焦慮或認為系統當機。因此,這是衡量「即時互動需求」最直接、最重要的指標。

(A) 錯誤:

這屬於 「吞吐量(Throughput)」 指標。它反映的是系統的處理能力上限(容量),而不是單一用戶感受到的速度(延遲)。

(C) 錯誤:

這屬於 「可用性(Availability)」 或 「穩定性(Stability)」 指標。它衡量系統會不會當機,與回覆速度(延遲)無關。

(D) 錯誤:

這屬於 「品質(Quality)」 或 「多樣性(Diversity)」 指標。這與系統效能(效能測試)無關,而是模型生成策略(如 Temperature)的評估。

AI 效能測試常見指標對照表

指標名稱 描述 衡量重點
延遲 (Latency) (B) 從請求發出到收到回應的時間。 用戶端等待的「快慢」。
吞吐量 (Throughput) (A) 單位時間內能處理的總請求數。 系統端承載的「多少」。
首字時間 (TTFT) 從請求到模型吐出第一個字的時間。 互動的即時感(流式傳輸)。
可用性 (Availability) (C) 系統正常運行的百分比(如 99.9%)。 系統服務的「穩定」。

解題關鍵:評估 「即時互動」 時,重點永遠在於 「時間(Time)」 與 「等待感」,即從輸入到輸出的反應速度。


36. 某航空公司導入生成式 AI 聲控客服,提供航班與票務查詢。有人員透過惡意提示,試圖讓系統洩漏內部安檢流程。在此情境中,下列何者為降低提示攻擊(Prompt Injection)風險的最佳策略?

(A) 導入輸入檢測與回應審核流程,防止敏感指令被執行;
(B) 限制 AI 可回應的主題範圍,使系統僅回答非敏感的航班與票務查詢,避免處理內部或敏感流程資訊;
(C) 隨機變化回覆內容,讓攻擊者難以預測回應行為以增加攻擊難度;
(D) 擴充與更新航班與票務資料來源,以提升模型的知識正確性與覆蓋率

看解答

正確答案是 (B) 限制 AI 可回應的主題範圍,使系統僅回答非敏感的航班與票務查詢,避免處理內部或敏感流程資訊。

這題考驗的是對 提示注入攻擊(Prompt Injection) 防禦策略的理解。這類攻擊的核心在於利用惡意提示詞繞過系統原有的指令,迫使模型執行非預期或敏感的操作。

(B) 為最佳策略:

最小特權原則(Principle of Least Privilege): 這是資訊安全的核心概念。透過 「角色定義(System Role/Persona Prompting)」 與 「範疇限制(Guardrails)」,明確規定模型只能處理「航班與票務」。

阻斷攻擊路徑: 當系統被限制在極小的知識與操作範疇內時,即便攻擊者試圖引導模型討論「安檢流程」,模型也會因為該主題不在其「允許回應範圍」內而拒絕回答。這是防止模型偏離任務目標、洩漏無關敏感資訊的最根本手段。

(A) 錯誤:

雖然「輸入檢測」是常見的防禦手段,但提示攻擊的變體極多(例如:角色扮演、催眠、語義混淆),過濾器(Filters)往往難以窮舉所有的惡意指令。相較於 (B) 直接從「邏輯範疇」切斷,(A) 屬於較被動的層次。

(C) 錯誤:

隨機變化內容對「提示注入」幾乎沒有防禦作用。攻擊者的目標是獲取特定資訊(如安檢流程),內容的隨機性反而可能在不經意間暴露出更多不同的內部訊息。

(D) 錯誤:

這屬於提升「知識庫質量」,與「安全性」無關。擴充資料來源反而可能讓模型接觸到更多原本不應對外公開的資訊,若未搭配 (B) 的範疇限制,反而可能增加風險。

提示攻擊 (Prompt Injection) 的三道防線

防線層級 技術手段 效果
邏輯層 (B) 定義系統邊界 (Guardrails) 最強:讓模型知道「哪些絕對不能說」。
過濾層 (A) 輸入與輸出內容偵測 (DLP) 中:攔截已知的敏感關鍵字或模式。
隔離層 採用 RAG(檢索增強生成) 強:限制模型僅能從公開資料中查找,不讀取內部資料。

解題關鍵:對付 「越權存取」 或 「主題偏離」,最有效的策略永遠是 「限縮模型的回應範疇(Scope Limitation)」。


37. 在機器學習模型的實務應用中,常會出現數據漂移(Data Drift)的情況。此現象主要是指下列哪一種情況?

(A) 訓練時使用的資料分佈,與部署後實際輸入資料的統計特徵隨時間逐漸出現差異,導致模型表現衰退;
(B) 在資料前處理過程中,因特徵刪減或缺失補值不當,造成樣本資訊量下降;
(C) 模型對訓練數據擬合過度,在未知數據上泛化能力不足;
(D) 後端資料庫因欄位定義或結構調整,導致特徵提取流程與原始設計不一致

看解答

正確答案是 (A) 訓練時使用的資料分佈,與部署後實際輸入資料的統計特徵隨時間逐漸出現差異,導致模型表現衰退。

這題考驗的是對 機器學習維運(MLOps) 中核心挑戰——數據漂移(Data Drift) 的理解。

(A) 為正確答案:

定義: 數據漂移是指模型的輸入數據(Input Data)隨時間發生了變化。由於模型是基於「過去」的數據分佈訓練出來的,當「現在」的實際數據統計特徵(如平均值、標準差、類別比例)與訓練集不一致時,模型原有的預測邏輯就會失效,進而導致精確度下降。

常見例子:

消費者行為改變: 例如疫情發生後,民眾的購物習慣從線下轉向線上,原本預測實體店面銷量的模型會因數據分佈改變而失準。

環境因素變動: 感測器因老化導致讀數偏移,或季節交替影響了用電量數據分佈。

(B) 錯誤:

這描述的是 資料預處理(Preprocessing) 階段的品質問題或資訊損失,並非指時間維度上的分佈偏移。

(C) 錯誤:

這描述的是 過擬合(Overfitting)。過擬合是在訓練階段發生的問題(背答案而非理解邏輯),而數據漂移是部署後的環境變化問題。

(D) 錯誤:

這屬於 系統架構或資料工程(Data Engineering) 的錯誤,通常稱為「Schema 變更」或「Pipeline 損壞」,雖然會影響模型,但不屬於數據分佈變化的統計學定義。

漂移(Drift)的兩大類型比較

類型 影響對象 描述
數據漂移 (Data Drift) (A) 輸入特徵 (X) 使用者輸入的內容、環境特徵發生了變化。
概念漂移 (Concept Drift) 目標變數 (Y) 與 X 的關係 即使輸入沒變,但「定義」或「因果關係」變了(例如:通膨導致原本「高薪」的數值現在變成「中產」)。

解題關鍵:「數據漂移」 的核心特徵是 「訓練 vs. 實際輸入」 之間的 「統計分佈差異」 以及隨之而來的 「模型衰退」。


38. 某銀行導入生成式 AI 放貸審核系統,用於分析申貸人條件並生成初步審核意見。測試過程中發現,模型對不同族群的核准率存在顯著差異,可能引發演算法偏見問題。為降低此風險,下列哪一項措施最合適?

(A) 提升模型運算速度與效能,以確保在大量申請中快速回應;
(B) 全面移除與申貸人身份相關的敏感屬性,避免模型因變數影響而產生偏差;
(C) 導入資料與結果的公平性檢測流程,並依合規規範調整模型或決策邏輯;
(D) 減少訓練樣本數量,降低偏見被放大的可能性

看解答

正確答案是 (C) 導入資料與結果的公平性檢測流程,並依合規規範調整模型或決策邏輯。

這題考驗的是對 AI 倫理與演算法公平性(Algorithmic Fairness) 的理解。在金融放貸等涉及權益分配的敏感領域,防止歧視是合規的核心。

(C) 為最合適措施:

主動監測: 公平性檢測(Fairness Auditing)能透過統計指標(如:差異性衝擊 Disparate Impact)量化偏見程度。

合規調整: 發現偏差後,必須根據金融合規規範(如台灣的「金融業運用 AI 指引」或國際法規)回頭調整訓練數據、加權邏輯或決策閾值,這是從流程面解決偏見問題的標準做法。

(B) 錯誤:

代理變數風險(Proxy Variables): 僅移除「性別、族群」等敏感屬性通常無法解決偏見。因為模型可能透過其他欄位(如:居住地郵遞區號、消費習慣、學歷)推論出隱藏的族群特徵,進而產生「隱形歧視」。這種做法被稱為「盲目公平」,在實務上效果有限。

(A) 錯誤:

效能與速度屬於「維運指標」,與「公平性或倫理風險」無關。跑得更快的模型只會更快地產生偏見。

(D) 錯誤:

減少樣本通常會導致模型精確度下降,且樣本不足反而可能讓既有的少數族群特徵被誤讀或忽視,導致偏見更加嚴重。增加「多樣化且平衡」的樣本才是正確方向。

AI 公平性管理架構

策略維度 實施方法 目的
數據端 重新取樣或數據增廣。 確保訓練集中各族群比例均衡。
模型端 (C) 公平性約束演算法。 在訓練過程中加入公平性損失函數。
結果端 (C) 事後統計檢測與調整。 確保不同族群的核准率(Acceptance Rate)符合合規比例。

解題關鍵:解決 「演算法偏見(Bias)」 的標準應對策略是執行 「公平性檢測(Fairness Testing)」 並進行 「合規邏輯調整」。


39. 在提示工程(Prompt Engineering)的應用中,Chain-of-Thought(CoT)與 Tree of Thoughts(ToT)各適用於不同的推理情境,請問以下兩個情境,分別最適合採用哪一種方法?
情境一:電商公司開發客服助理,用來協助客戶查詢退款流程與相關規範
情境二:活動策劃團隊使用 AI 協助規劃多場跨部門行銷活動,需要同時考量預算、場地、時程與人力資源,並比較不同方案的可行性。

(A) 情境一採用 CoT,情境二採用 ToT;
(B) 情境一採用 ToT,情境二採用 CoT;
(C) 情境一與情境二都適合 CoT;
(D) 情境一與情境二都適合 ToT

看解答

正確答案是 (A) 情境一採用 CoT,情境二採用 ToT。

這題考驗的是對兩種進階提示策略 —— 鏈狀思考(Chain-of-Thought, CoT) 與 思維樹(Tree of Thoughts, ToT) 適用場景的深度理解。

情境一:採用 CoT(Chain-of-Thought)

任務特性: 查詢退款流程屬於 「線性邏輯」。模型只需要按照步驟(第一步確認訂單、第二步填寫表格、第三步等待審核)逐步推導即可得出結論。

CoT 的優勢: 透過「請逐步思考」的指令,引導模型將複雜問題分解為連續的邏輯步驟,非常適合這類有固定流程、因果關係明確的任務。

情境二:採用 ToT(Tree of Thoughts)

任務特性: 策劃跨部門活動涉及 「多路徑決策」 與 「優化求解」。需要同時考量預算、場地等多個限制變數,且存在多種可能的方案。

ToT 的優勢: ToT 允許模型在每個決策點產生多個「想法」(思維分支),並對這些分支進行評估、回溯(Backtracking)或比較。這就像是在腦中畫出一棵決策樹,探索不同的可能性並選擇最佳路徑,最適合需要 「方案比較」 與 「複雜多維度規劃」 的情境。

CoT vs. ToT 技術特點對照表

比較維度 Chain-of-Thought (CoT) Tree of Thoughts (ToT)
思考路徑 單一、線性的路徑。 多重、分叉的樹狀結構。
核心機制 逐步推理 (Step-by-step)。 產生多個想法 \(\rightarrow\) 評估 \(\rightarrow\) 搜索。
適用場景 簡單數學題、標準作業流程 (SOP)。 創意寫作、複雜規劃、數獨、策略開發。
複雜度 較低,單次推論即可完成。 較高,通常需要多次推論與評估。

解題關鍵:
CoT 像是一條 「直線」,帶你從起點走到終點(適合 SOP 流程)。
ToT 像是一棵 「樹」,在每個路口探索不同方向並挑選最好的(適合方案比較與多變數規劃)。


40. 在生成式 AI 的提示工程中,Graph Prompting 在處理複雜關係資料時,為何通常比 Chain-of-Thought(CoT)更有效?

(A) Graph Prompting 幾乎不需要推理,只依靠圖結構即可得出結論;
(B) Graph Prompting 僅需單次提示,即可避免多輪推理的誤差累積;
(C) Graph Prompting 的生成速度通常更快,因此效率更高;
(D) Graph Prompting 能捕捉非線性結構與上下文關聯,適合處理網絡化資訊

看解答

正確答案是 (D) Graph Prompting 能捕捉非線性結構與上下文關聯,適合處理網絡化資訊。

這題考驗的是對於進階提示架構在處理不同「資訊結構」時的辨析能力。

(D) 為正確答案:
結構上的差異: Chain-of-Thought (CoT) 本質上是 「線性」 的,它擅長處理「因為 A \(\rightarrow\) 所以 B \(\rightarrow\) 所以 C」這種具備前後因果關係的任務。
捕捉複雜性: 然而,許多現實世界的問題(如社交網路、知識圖譜、生物分子結構或法律關係)是 「非線性」 的網絡結構。Graph Prompting 透過將實體(Entity)設為節點、關係(Relation)設為邊,能有效引導模型理解多對多的複雜關聯。
上下文關聯: 它能讓模型同時考量多個維度的交叉影響,而不僅僅是單一條線的邏輯,因此在處理「網絡化」資訊時,比 CoT 更能精準還原真實世界的複雜邏輯。

(A) 錯誤:Graph Prompting 仍然需要模型進行高度的推理。圖結構只是提供了一種更適合該任務的「導引架構」,而非取代推理過程。

(B) 錯誤:Graph Prompting 往往比 CoT 更複雜。在某些實作中(例如需要檢索知識圖譜),它可能涉及多步驟的節點探索與聚合,並不一定能「避免誤差累積」,重點在於它處理的是不同維度的資訊。

(C) 錯誤:由於 Graph Prompting 需要處理節點與邊的複雜拓樸關係,其 Token 消耗與運算複雜度通常比線性的 CoT 更高,因此生成速度通常較慢,而非更快。

推理策略與資訊結構對應表

提示策略 資訊結構 隱喻 最佳應用範例
CoT 線性 (Linear) 一條線 數學計算、SOP 流程說明。
ToT 階層/樹狀 (Hierarchical) 一棵樹 方案擇優、多路徑決策規劃。
Graph Prompting 網狀 (Networked) 一張網 人物關係圖分析、供應鏈關聯、知識圖譜推理。

解題關鍵:看到 「Graph」 就要聯想到 「非線性(Non-linear)」、「關聯性(Relationships)」 與 「網狀結構(Network)」。


41. 在少樣本提示(Few-shot Prompting)僅能提供 1–2 個範例的情況下,若遇到領域偏移(Domain Shift),下列何者為模型最可能面臨的核心挑戰?

(A) 範例數量過少,無法涵蓋新領域的多樣性,導致模型泛化不足;
(B) 範例表徵有限,模型容易依賴單一樣本特性而降低適應力;
(C) 範例覆蓋不足,使模型難以抽取跨領域的穩定模式;
(D) 範例資訊過於稀缺,模型缺乏應對不同輸入情境的能力

看解答

正確答案是 (C) 範例覆蓋不足,使模型難以抽取跨領域的穩定模式。

這題考驗的是對於 少樣本學習(Few-shot Learning) 在面對 領域偏移(Domain Shift) 時的深層限制。

(C) 為最核心的挑戰:

領域偏移的本質: 所謂「領域偏移」,是指測試數據的分布(如專業術語、語境、邏輯結構)與提示詞中所提供的範例分布不一致。

穩定模式的缺失: 當僅能提供 1–2 個範例時,模型接收到的「特徵信號」極其微弱。在原本熟悉的領域,模型可以依靠預訓練的強大記憶來補足;但在新領域(Domain Shift),這 1–2 個範例不足以讓模型識別出該領域的 「不變特徵(Invariant Features)」 或 「穩定邏輯模式」,導致模型無法將範例中的邏輯正確遷移到新任務中。

(A) 錯誤:

這描述的是一般的「泛化(Generalization)」問題。雖然範例少會導致泛化不足,但在領域偏移的情境下,問題不在於「涵蓋多樣性」,而在於範例與目標領域之間的「邏輯斷層」。

(B) 錯誤:

「依賴單一樣本特性」較傾向於描述「過擬合(Overfitting)」於特定範例,這會導致風格僵化,但不一定是處理領域偏移時最根本的「模式抽取」失敗問題。

(D) 錯誤:

「資訊稀缺」與「缺乏應對能力」的表述較為籠統,未能精確切中領域偏移中關於「特徵分布改變」與「模式對齊」的技術核心。

少樣本提示 (Few-shot) 的局限性分析

現象 影響 核心困難點
樣本稀缺 (1-2個) 資訊增益低。 無法提供足夠的統計顯著性。
領域偏移 (Domain Shift) 範例與任務語境不符。 模型無法建立範例與新領域間的正確映射。
綜合影響 (C) 推理邏輯崩塌。 模型難以從有限範例中「抽取出」適用於新領域的通用規則。

解題關鍵:面對 「領域偏移」,模型最需要的是找到不同領域間的 「共同模式」。當範例極少時,這種 「穩定模式的抽取」 就會變得極其困難。


42. 某金融機構導入檢索增強生成(Retrieval-Augmented Generation,RAG)模型,用於客服文件查詢與自動回覆。由於大型模型運算成本過高,若考慮引入知識蒸餾(Knowledge Distillation, KD)技術,下列何者為帶來的主要效益?

(A) 讓小型模型學習大型模型的知識,在降低運算成本的同時維持檢索與生成品質;
(B) 只能應用於語音或影像辨識,無法提升文字檢索生成效能;
(C) 因為 RAG 已有檢索機制,因此無需額外蒸餾知識;
(D) 僅能依賴特定 API 供應商才能使用,無法在自建模型中實現

看解答

正確答案是 (A) 讓小型模型學習大型模型的知識,在降低運算成本的同時維持檢索與生成品質。

這題考驗的是對 知識蒸餾(Knowledge Distillation, KD) 技術核心原理及其在企業應用中價值的理解。

(A) 為正確答案:

核心原理: 知識蒸餾是一種模型壓縮技術。它讓一個較小、較輕量化的模型(稱為 學生模型 Student)去模仿一個預訓練好的、體積龐大且準確度高的模型(稱為 教師模型 Teacher)的輸出行為。

主要效益:

降低成本: 學生模型參數較少,推論速度快且消耗顯存低,能大幅減少伺服器開銷。

品質維持: 透過學習教師模型的「軟標籤(Soft Labels)」,學生模型能學到比單純從原始數據中更豐富的特徵與邏輯,使得效能遠優於直接訓練的小模型。

RAG 場景下的應用: 在金融客服中,可以用大型 LLM(如 GPT-4 或大型 Llama)作為老師,蒸餾出一個專門處理金融文件、性能接近但運行極快的小模型(如 7B 以下的模型),完美兼顧效能與成本。

(B) 錯誤:

知識蒸餾是機器學習的通用技術。它最早雖然在電腦視覺(CV)領域廣為人知,但在自然語言處理(NLP)領域(如 DistilBERT, TinyBERT)同樣極為成熟且常用。

(C) 錯誤:

誤解技術關係: RAG 解決的是「知識即時性與幻覺」問題(外掛知識庫);知識蒸餾解決的是「運算效率與成本」問題(引擎輕量化)。兩者可以並行不悖:一個輕量化的「蒸餾模型」依然可以搭配 RAG 框架來讀取外部文件。

(D) 錯誤:

知識蒸餾完全可以在 私有化部署(On-premise) 或 自建模型 中實現。事實上,許多企業為了擺脫對昂貴 API 的依賴,會選擇用大型 API 模型當老師,蒸餾出屬於自己的私有小模型。

知識蒸餾 (Knowledge Distillation) 的師生架構

角色 特點 作用
教師模型 (Teacher) 體積大、精度高、算力消耗大。 提供高品質的預測結果與邏輯。
學生模型 (Student) 體積小、推論快、算力消耗低。 模仿老師的輸出,追求「小而強」。
蒸餾過程 學習「機率分佈」而非僅是正確答案。 讓學生模型掌握老師的「思考細節」。

解題關鍵:看到 「知識蒸餾」,關鍵字就是 「大教小」、「模型壓縮」、「降低成本」 與 「維持品質」。


43. 在評估大型語言模型,例如 7B、13B、175B 參數規模時,模型規模對基準測試(Benchmark)結果的影響,下列哪一種說法最為恰當?

(A) 小模型在正確調整下能超越大模型,因此模型大小並不重要;
(B) 大模型在多數情境下表現較好,但在特定任務上略遜於小模型;
(C) 模型規模與基準測試結果完全無關,影響主要來自測試設計;
(D) 模型越大,Benchmark 結果可能提升,但幅度取決於訓練數據品質與資源配置

看解答

正確答案是 (D) 模型越大,Benchmark 結果可能提升,但幅度取決於訓練數據品質與資源配置。

這題考驗的是對於 模型擴展定律(Scaling Laws) 與影響模型表現因素的綜合理解。

(D) 為最恰當的說法:

規模效應(Scaling Effect): 根據研究,增加模型參數(從 7B 到 175B)通常能提升模型處理複雜邏輯、知識儲存與湧現能力(Emergent Abilities),進而在基準測試(如 MMLU、GSM8K)中取得更高分。

非唯一變數: 雖然「大」通常更好,但並非絕對。訓練數據的品質(Data Quality)、使用的 Token 數量(Compute-Optimal) 以及 訓練策略(如資源配置與對齊技術) 會極大程度影響最終表現。例如,一個經過高品質數據訓練的 70B 模型,表現完全可能超越一個訓練不足或數據充滿雜訊的 175B 模型。

(A) 錯誤:

雖然微調(Fine-tuning)能讓小模型在「特定、單一」任務中表現亮眼,但在衡量通用能力的「基準測試」中,小模型受限於參數容量,很難在所有維度上全面超越結構領先的大模型。模型大小依然是決定能力上限的核心因素。

(B) 錯誤:

這個敘述過於籠統且存在誤導。在「多數情境」下大模型表現較好是事實,但說大模型「在特定任務上略遜於小模型」並非普遍規律。除非小模型是針對該特定任務進行了深度專業化微調(Domain-specific),否則在大數據集的基準測試下,大模型通常具有壓倒性優勢。

(C) 錯誤:

模型規模與測試結果具備強相關性(Log-linear relationship)。雖然測試設計(如 Prompt 的選擇)會影響分數,但模型規模帶來的能力差異是本質上的。

模型規模 vs. 表現的關鍵維度

維度 小模型 (如 7B/8B) 大模型 (如 175B+) 影響因素
通用知識 較有限,易產生幻覺。 博學,能處理跨領域問題。 參數規模 (Capacity)
推理能力 基礎邏輯尚可,多步推理弱。 強大,具備複雜邏輯推演。 訓練數據量及模型深度
部署成本 低,可單機運行。 極高,需大量 GPU 集群。 硬體資源配置
邊際效益 增長明顯。 增長隨規模擴大而放緩。 資源配置效率

解題關鍵:「規模(Scale)」 是效能的基石,但 「數據品質(Quality)」 與 「訓練資源(Resources)」 決定了規模能否轉化為真正的 Benchmark 優勢。


44. 在 AI 應用設計中,Model Context Protocol(MCP)與檢索增強生成(RAG)都能擴展模型的能力,但兩者的核心差異主要為下列何者?

(A) MCP 擴展模型工具,但主要用於補足訓練資料不足;
(B) MCP 能標準化連接資源,但仍需依賴向量資料庫;
(C) RAG 常用於擴展知識庫內容,而 MCP 更著重於動態工具與 API 呼叫的整合;
(D) RAG 透過統一協議,提升回答相關性 

看解答

正確答案是 (C) RAG 常用於擴展知識庫內容,而 MCP 更著重於動態工具與 API 呼叫的整合。

這題考驗的是對 Model Context Protocol (MCP) 與 Retrieval-Augmented Generation (RAG) 這兩項擴展 AI 能力技術的本質區別。

RAG (檢索增強生成):專注於「知識」

核心功能: RAG 的目的是讓模型能夠存取其訓練資料之外的「靜態」或「私有」知識。

運作方式: 當用戶提問時,系統先從向量資料庫中檢索相關的文件片段(如 PDF、公司規章、產品手冊),再將這些片段餵給 AI 進行彙整生成。

類比: 就像是給 AI 一本參考書,讓它邊翻書邊回答問題。

MCP (模型上下文協定):專注於「行動與連結」

核心功能: MCP 是由 Anthropic 等公司推動的開放標準,旨在解決 AI 難以與各種資料源(如 GitHub、Google Drive、Slack、本地資料庫)直接溝通的問題。

運作方式: 它提供一個統一的通訊協定,讓 AI 能透過伺服器動態地呼叫 API、讀取實時數據或執行特定工具,而不需要為每個資料來源寫死一套連接程式。

類比: 就像是給 AI 一組「萬用插頭」與「遙控器」,讓它能直接操作不同的機器或讀取儀表板。

選項辨析:

(A) 錯誤: MCP 的目的不是補足訓練資料不足(那是 RAG 或微調的工作),而是提供標準化的介面來使用工具。

(B) 錯誤: MCP 的優點正是 「去中心化」,它不需要將所有資料都存進向量資料庫,而是可以直接讀取原始資料源。

(D) 錯誤: 敘述顛倒,透過統一協議(Protocol)來整合資源的是 MCP,而非 RAG。

MCP vs. RAG 核心差異對照表

維度 檢索增強生成 (RAG) 模型上下文協定 (MCP)
主要目的 擴展模型的 「知識邊界」。 擴展模型的 「工具與連結能力」。
處理數據類型 大多為非結構化的靜態文檔。 多樣化的動態資料、API 與系統工具。
核心組件 向量資料庫 (Vector DB)、Embedding。 MCP 伺服器 (Server) 與 客戶端 (Client)。
主要場景 企業知識庫、法規查詢、病歷摘要。 開發工具整合、即時數據調用、自動化流程。

解題關鍵:看到 RAG 關鍵字是 「知識/文件」;看到 MCP 關鍵字是 「統一協議/API/工具整合」。


45. 下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?

(A) MMLU;
(B) GSM8K;
(C) MATH;
(D) C-Eval

看解答

正確答案是 (A) MMLU。

這題考驗的是對於常見 大型語言模型基準測試(Benchmark) 及其評估範疇的辨析能力。

(A) MMLU (Massive Multitask Language Understanding) 為正確答案:

設計目標: 這是目前衡量 LLM 綜合知識能力 最具代表性的指標。

涵蓋範疇: 包含 57 個主題,廣泛覆蓋了 人文、科學、社會科學、STEM(科學、技術、工程、數學)以及其他專業領域。

測驗性質: 它是為了測試模型在廣泛知識背景下的「多任務理解能力」,而非單一學科的深度推理。

(B) GSM8K (Grade School Math 8K) 錯誤:

專門用途: 這是由 OpenAI 發布的資料集,專門用於測試模型在 「小學程度」數學應用題 上的推理能力。

(C) MATH 錯誤:

專門用途: 這是針對 「競賽等級」難度 的數學問題集,包含代數、微積分等高難度數學推理。

(D) C-Eval 錯誤:

專門用途: 雖然它也是多領域綜合測試,但它的核心特點在於 「中文專業知識」(涵蓋了中國公務員考試、醫師執照等中文語境考題)。題目中明確排除「專門用於中文專業知識」,故不選。

常見基準測試對照表

基準測試名稱 評估核心重點 語言環境
MMLU (A) 多領域綜合知識(人文、社科、科學等) 英文為主
GSM8K (B) 基礎數學多步推理(小學程度) 英文
MATH (C) 高階數學推理(高中、大學競賽程度) 英文
C-Eval (D) 中文語境下的多學科專業知識 中文

解題關鍵:看到 「多領域、多任務」 且涵蓋 「人文、社會科學」 等關鍵字,首選指標即為 MMLU。


46. 某智慧工廠導入生成式 AI,協助產線工程師即時產生維修指引與操作建議。下列哪一項並非團隊在系統設計中加入 Guardrails(防護機制)的主要目的?

(A) 檢查工程師輸入內容,避免觸發錯誤或危險需求;
(B) 過濾與驗證 AI 輸出的維修指引,確保符合安全標準;
(C) 確保生成的操作建議符合法規與產業安全規範;
(D) 完整重建並追蹤 AI 模型的全部推理過程 

看解答

正確答案是 (D) 完整重建並追蹤 AI 模型的全部推理過程。

這題考驗的是對於 Guardrails(防護機制) 在 AI 系統設計中核心功能的理解。

(D) 為正確答案(並非主要目的):

定義: 「完整重建並追蹤推理過程」通常屬於 可解釋性 AI(Explainable AI, XAI) 或 模型可追溯性(Traceability/Logging) 的範疇。

區別: Guardrails 的核心任務是 「攔截」 與 「過濾」 不當資訊,而不是記錄模型「為什麼」會這樣想。雖然追蹤過程對除錯很重要,但它不是防護機制(Guardrails)的主要定義功能。

(A) 屬於主要目的(輸入過濾):

Input Guardrails: 檢查使用者的 Prompt,避免「提示注入攻擊」或輸入了違反安全操作的非法指令。

(B) 屬於主要目的(輸出過濾):

Output Guardrails: 在回覆傳遞給工程師前進行檢查。在工廠環境中,若 AI 產出的指引包含危險動作(如:未斷電即維修),防護機制必須能偵測並阻斷該內容輸出。

(C) 屬於主要目的(合規性):

領域約束: 確保 AI 不會給出違反勞基法、工安法規或 ISO 產業標準的建議,這是智慧工廠應用中極為關鍵的合規防線。

AI Guardrails 的核心功能模型

防護方向 具體行動 目的
輸入端 (Input) 偵測敏感詞、惡意代碼、非任務指令。 防止模型被誤導或攻擊。
處理中 (Processing) 檢索內容校驗(RAG Check)。 確保模型參考的是正確的維修手冊。
輸出端 (Output) 幻覺偵測、事實核查、安全性檢查。 確保使用者收到的資訊是安全且正確的。

解題關鍵:Guardrails 的作用像是 「護欄」,重點在於 「安全(Safety)」 與 「合規(Compliance)」。而 「追蹤推理過程」 則像是 「黑盒子記錄器」,屬於審計與分析範疇。


47. 某顧問公司導入生成式 AI,協助團隊快速檢索並摘要長篇的法規文件。為了改善檢索結果常出現不相關或過於分散內容的問題,下列何者為團隊決定對文件進行文本切分(Chunking)的主要目的?

(A) 讓模型在回答時能加快推理速度;
(B) 提高檢索相關性與降低長上下文噪音;
(C) 降低系統記憶體和硬體資源的負擔;
(D) 使模型在生成回覆時更具創造性與多樣化

看解答

正確答案是 (B) 提高檢索相關性與降低長上下文噪音。

這題考驗的是 檢索增強生成(RAG) 流程中,文本切分(Chunking) 策略對檢索品質的關鍵影響。

(B) 為主要目的:

提高相關性: 長篇法規文件(如數百頁的法條)通常包含多個主題。如果不切分而直接檢索,模型很難定位到具體的某個法條。將文件切分為適當大小的區塊(Chunks),能確保檢索系統(如向量資料庫)精確找到與問題最相關的段落。

降低噪音: 若將整份文件或過長的片段餵給模型,其中包含大量無關的文字(噪音),會干擾模型提取關鍵資訊,甚至導致模型忽略真正的答案。精準的切分能讓模型只處理「乾淨且高度相關」的內容。

(A) 錯誤:

切分文本主要是為了優化「檢索品質」。雖然處理較短的文本區塊可能略微減少模型的 Token 處理量,但這並非切分的首要技術目的。

(C) 錯誤:

這屬於系統架構優化的範疇。切分雖然能減少單次輸入的 Token 數,但切分後的索引管理反而會增加向量資料庫的存儲負擔,因此並非為了降低「硬體資源負擔」。

(D) 錯誤:

切分是為了讓 AI 回答得更「準確」且「有根據(Fact-based)」,這與「創造性」或「多樣化」是相反的目標。

RAG 流程中的文本切分 (Chunking)

切分策略 描述 優點
長度切分 固定字數(如每 500 字一塊)。 實作簡單,適合結構不明顯的文檔。
語意切分 根據段落、標題或法律條號切分。 最適合法規文件,能保持邏輯完整性。
重疊切分 (Overlap) 相鄰區塊保留一部分重複內容。 防止關鍵資訊在切分點被切斷,確保上下文銜接。

解題關鍵:在 RAG 中,「切分」 的核心價值始終圍繞著 「檢索精準度」 與 「上下文品質」。


48. 某開發團隊在建置企業內部知識檢索系統時,選擇採用多向量檢索器(Multi-vector Retriever),下列何者為協助提升系統查詢的完整性與精準度的主要方式?

(A) 支援同時處理多種資訊表示,提升跨文本型態的檢索效果;
(B) 透過多向量壓縮與共享權重方式,降低檢索過程的運算與儲存成本;
(C) 以切分並過濾文件片段,減少上下文長度帶來的 Token 負擔;
(D) 透過調整生成階段的溫度參數,使模型在回覆時更穩定一致

看解答

正確答案是 (A) 支援同時處理多種資訊表示,提升跨文本型態的檢索效果。

這題考驗的是對於 多向量檢索器(Multi-vector Retriever) 在技術實務中如何優化 檢索增強生成(RAG) 品質的理解。

(A) 為主要方式:

核心原理: 傳統的檢索器通常將一個文本區塊(Chunk)轉換為單一的向量(Vector)。然而,多向量檢索器 允許針對同一份文件儲存多個不同的向量表示。

提升完整性與精準度: 它可以為同一份文檔建立不同的「視角」,例如:

摘要向量: 捕捉文件的核心大意。

假設性問題向量: 預測使用者可能會問的問題,並以此進行匹配。

原始片段向量: 保留細節資訊。

跨型態優勢: 這種方式特別擅長處理非單一純文字的內容。例如,在處理包含圖表、表格或複雜結構的企業文件時,能透過不同的向量表徵,讓系統無論面對模糊的摘要查詢還是具體的細節查詢,都能精準命中目標。

(B) 錯誤:

多向量檢索器因為儲存了更多的向量數據,通常會 增加 儲存成本與檢索負擔,而非降低成本。降低成本通常是透過「向量壓縮(Vector Quantization)」或「知識蒸餾」來達成。

(C) 錯誤:

這描述的是一般的 文本切分(Chunking) 策略,而非多向量檢索器特有的機制。雖然兩者常搭配使用,但多向量檢索器的重點在於「一對多」的向量映射,而不是單純減少 Token 負擔。

(D) 錯誤:

調整 溫度參數(Temperature) 屬於 生成階段(Generation) 的控制,而多向量檢索器作用於 檢索階段(Retrieval),兩者位於 RAG 流程的不同階段。

傳統檢索 vs. 多向量檢索比較

特性 傳統檢索 (Standard) 多向量檢索 (Multi-vector)
映射關係 一個區塊 \(\rightarrow\) 一個向量 一個區塊 \(\rightarrow\) 多個不同用途的向量
檢索精準度 受限於單一特徵提取 高,能從多維度(摘要、問題、內容)匹配
適用場景 結構簡單的純文字 複雜文件、跨文本型態、多樣化查詢需求
系統負擔 較低 較高(需管理更多向量索引)

解題關鍵:「多向量(Multi-vector)」 的技術優勢在於提供 「多種資訊表示」,從而解決單一向量無法完整捕捉文件複雜特徵的問題。


49. 在 Agentic AI 的架構中,解決方案圖譜(Solution Graph)常被用來輔助代理的任務執行,其主要作用為何?

(A) 透過圖形結構完全取代大型語言模型的推理,讓代理只依靠圖演算法完成任務;
(B) 僅用於保存代理的輸出結果,方便後續檢視與審計,而不影響實際推理流程;
(C) 將代理限制在既定流程內,避免其產生偏離設計腳本的行為;
(D) 作為代理在執行過程中的參考框架,用於組織決策步驟並支援任務推理

看解答

正確答案是 (D) 作為代理在執行過程中的參考框架,用於組織決策步驟並支援任務推理。

這題考驗的是對於 Agentic AI(代理式 AI) 進階架構中 解決方案圖譜(Solution Graph) 核心功能的理解。

(D) 為正確答案:

參考框架: 在複雜的代理任務中,AI 不再只是單次輸入輸出,而是一個具備「規劃、執行、反思」循環的實體。解決方案圖譜就像是 AI 的「戰略地圖」,將原本混亂的思考過程組織成具備邏輯關係的節點與路徑。

組織決策與推理: 代理(Agent)可以根據圖譜來判斷當前處於任務的哪一個階段,哪些路徑是已知的可行解,哪些則是死路。這能大幅提升代理在處理「長程、多步驟」任務時的成功率與邏輯一致性。

(A) 錯誤:

Agentic AI 的核心仍然是 大型語言模型(LLM)的推理能力。解決方案圖譜是為了「輔助」與「增強」LLM 的推論,而非完全「取代」它。

(B) 錯誤:

這描述的是單純的「日誌(Logging)」或「審計(Auditing)」功能。解決方案圖譜在代理執行過程中會動態影響決策,具有實質的引導作用,而非僅供事後檢視。

(C) 錯誤:

這描述的是傳統的「腳本式機器人」或「嚴格限制的 Guardrails」。Agentic AI 的特性之一是具備自主性(Autonomy),解決方案圖譜提供的是靈活的「框架」而非死板的「腳本」。

Agentic AI 中常見的輔助結構

結構名稱 核心功能 比喻
解決方案圖譜 (Solution Graph) 組織任務路徑與決策依據。 導航地圖。
規劃模組 (Planner) 將大目標分解為小任務。 專案經理。
工具庫 (Toolbox/Skills) 讓 AI 具備調用外部 API 的能力。 工具箱。
反思機制 (Reflexion) 自我檢查輸出是否正確。 自我檢核表。

解題關鍵:「圖譜(Graph)」 的作用通常在於 「組織(Organize)」 與 「結構化(Structure)」 複雜資訊。在代理架構中,它是用來輔助 「任務執行」 的 「參考框架」。


50. 小明想開發一個部落格寫作工具,讓用戶輸入文章開頭後,系統自動幫忙寫出後續內容,例如輸入「今天去了台北木柵動物園...」,系統就能續寫。若要實現這樣的功能,最適合選擇下列哪一類任務?

(A) 序列到序列建模(Sequence-to-Sequence Modeling),透過輸入序列產生新的輸出序列;
(B) 遮罩語言建模(Masked Language Modeling),補齊文字中缺失的詞語或片段;
(C) 生成式語言建模(Text Generation),依據上下文持續產生新的內容;
(D) 文本分類(Text Classification),針對輸入文本判斷情感、主題或標籤

看解答

正確答案是 (C) 生成式語言建模(Text Generation),依據上下文持續產生新的內容。

這題考驗的是對不同 自然語言處理(NLP)任務類型 的理解,特別是針對「續寫」這一行為的技術對應。

(C) 為正確答案:

核心功能: 生成式語言建模(如 GPT 系列)的運作原理是根據已有的上文(Context),預測下一個最可能出現的字或詞(Next Token Prediction),並不斷重複此過程。

場景對應: 小明的需求是「輸入開頭、寫出後續」,這正是 Text Generation 的典型應用場景。系統會根據「今天去了台北木柵動物園...」這個 Prompt,持續產生後續的段落內容。

(A) 錯誤:

序列到序列(Seq2Seq): 雖然也是產生序列,但它通常是指將一種形式的序列「轉換」為另一種。常見於 翻譯(英文轉中文)或 摘要(長文轉短文)。雖然續寫也可以看作廣義的 Seq2Seq,但在分類上,Text Generation 更能精準描述「接龍續寫」的本質。

(B) 錯誤:

遮罩語言建模(MLM): 這是 BERT 等模型常用的訓練方式,重點在於「填空」。它會挖掉句子中間的字(例如:今天去了台北[MASK]動物園),讓模型猜測缺失的部分,不適合用來產生開放式的長篇續寫。

(D) 錯誤:

文本分類: 這是判斷輸入內容的類別(例如:這是遊記還是食譜?是正面還是負面評價?),輸出的是「標籤」而非「後續文章」。

常見 NLP 任務類型比較

任務類型 核心邏輯 典型應用場景
生成式建模 (C) 預測下一個字 (Next Token) 文章續寫、聊天機器人、創意寫作。
遮罩建模 (B) 補齊中間的空缺 (Fill-in-the-blanks) 語法修正、語意理解、實體辨識。
序列到序列 (A) 輸入 A 序列 $\rightarrow$ 輸出 B 序列 機器翻譯、自動摘要、格式轉換。
文本分類 (D) 判斷類別 (Labeling) 垃圾郵件過濾、情感分析。

解題關鍵:看到 「續寫內容」、「自動寫出後續」,關鍵字即為 生成(Generation)。


回 AI 首頁   回 iPAS 首頁