iPAS 114年第四次初級AI應用規劃師-生成式AI應用與規劃試題解答

Question 1

1. 在Low Code平台的開發應用設計中，關於「模型（Model）」，下列敘述何者最符合實際情況？

(A) 模型僅扮演設計視覺化的輔助工具，對應用邏輯的影響有限；
(B) 模型是用來抽象描述資料結構、業務流程與介面邏輯的核心元素，影響應用的設計與維護；
(C) 模型僅依循UML（Unified Modeling Language）等傳統建模方式，缺乏針對Low Code環境的延展性；
(D) 模型在Low Code平台中已被自動程式碼生成全面取代，實際價值有限

看解答

Answer

正確答案是 (B) 模型是用來抽象描述資料結構、業務流程與介面邏輯的核心元素，影響應用的設計與維護。

這題考察的是低程式碼（Low-Code）開發平台的核心設計哲學——「模型驅動開發（Model-Driven Development, MDD）」。

(B) 為正確答案：

核心地位：在 Low-Code 環境中，「模型」不只是圖畫，它是應用的靈魂。開發者透過圖形化介面定義「資料模型（Entity/Schema）」、「流程模型（Workflow）」與「介面模型（UI Layout）」。

抽象化：模型將複雜的底層程式碼抽象化。平台會根據這些模型自動處理資料庫連線、邏輯判斷與前端呈現。這使得應用程式更容易設計，且當業務需求變更時，只需修改模型，系統便能快速同步更新，極大提升了維護效率。

(A) 錯誤：

模型在 Low-Code 中並非「僅僅輔助」，而是應用的基礎。應用邏輯（例如：如果 A 發生，則執行 B）通常就是直接在流程模型中定義的。

(C) 錯誤：

雖然 Low-Code 模型借鑒了 UML 的部分概念（如類別圖、狀態圖），但它們針對 Low-Code 環境做了大量的簡化與延展，使其更貼近商務邏輯而非單純的軟體工程圖表。

(D) 錯誤：

觀念誤導：雖然 Low-Code 平台會自動生成程式碼，但這些程式碼是根據模型生成的。如果沒有模型作為定義，「自動生成」就失去了依據。模型是「輸入」，程式碼是「輸出」，模型的價值反而因為自動化而變得更高。

Low-Code 中的三大關鍵模型

模型類型	負責內容
資料模型 (Data Model)	定義資料表、欄位類型、資料間的關聯（1對多、多對多）。
邏輯模型 (Logic/Process Model)	定義業務流程（BPMN）、審核關卡、自動化觸發條件。
UI 模型 (UI Model)	定義畫面的佈局、元件拖拉位置與互動反應。

解題關鍵：在 Low-Code 的語境下，「模型即應用」。看到強調模型具有「核心元素」、「抽象描述」且「影響設計與維護」的選項，即為正確方向。

Question 2

2. 企業在導入生成式AI平台時，往往需要利用分散於不同部門或機構中的大量敏感文本資料。若希望在確保隱私的前提下，仍能讓模型持續優化並降低資料外洩風險，下列哪一種方法最適合？

(A) 同態加密（Homomorphic Encryption）；
(B) 安全多方計算（Secure Multi-party Computation）；
(C) 零知識證明（Zero-knowledge Proofs）；
(D) 聯邦學習（Federated Learning）

看解答

Answer

正確答案是 (D) 聯邦學習（Federated Learning）。

這題考察的是在企業環境中，如何平衡「生成式 AI 模型優化」與「分散式隱私保護」。

(D) 為正確答案：

資料不落地：聯邦學習的核心在於「資料不動，模型動」。分散在各部門或機構的敏感文本（如合約、財務報表、個資）不需要上傳到中央伺服器。

持續優化：每個部門在本地端利用自己的資料訓練模型，僅將訓練後的「權重（Weights）」或「梯度（Gradients）」回傳至中心進行聚合，更新後的模型再發送回各部門。這能讓模型學到跨部門的知識，同時滿足企業內部最嚴格的資料隱私與法規要求。

(A) 錯誤：

同態加密允許直接對加密資料進行運算，雖然安全性極高，但目前在處理「大型語言模型（LLM）」這類需要龐大計算量的生成式 AI 任務時，其運算開銷（Overhead）過於巨大，實務可行性較低。

(B) 錯誤：

安全多方計算 (SMPC) 著重於讓多方共同計算一個結果（如加總或比較），且不讓任何一方看到他方的輸入值。雖然能保護隱私，但在大規模模型訓練的持續優化情境中，其效率與通訊複雜度通常不如聯邦學習。

(C) 錯誤：

零知識證明 (ZKP) 主要用於「身分驗證」或「確認某項聲明為真」而無需洩露該內容。例如證明「我超過 18 歲」但不洩露生日。它無法直接支援「讓模型利用資料進行學習與優化」。

生成式 AI 的隱私保護技術對照

技術	核心特色	企業導入生成式 AI 的角色
聯邦學習	訓練資料原地保留，僅交換參數。	最適合跨部門/跨機構的協同建模。
同態加密	對加密內容直接運算，不解密。	適合簡單運算，目前不適合複雜 LLM 訓練。
安全多方計算	各方持有一部分數據片斷進行運算。	常用於保護隱私數據的聯合查詢或簡單統計。
零知識證明	證明我知道這件事，但我不告訴你內容。	適合用於 AI 輸出結果的完整性驗證。

解題關鍵：當題目關鍵字包含「分散在不同機構」、「大量敏感資料」、「持續優化模型」且要「降低外洩風險」時，聯邦學習 (Federated Learning) 是目前 AI 工業實務上的最優解。

Question 3

3. 某企業利用 No Code/Low Code 平台開發內部營運系統。為確保系統在跨部門流程與外部服務整合下仍具良好的可測試性（Testability），下列哪一項作法最為合適？

(A) 依賴 No Code/Low Code 平台提供的即時預覽與基本單元測試功能，快速驗證常見流程；
(B) 導入可重複執行的自動化測試流程，並透過 API 或服務虛擬化進行模組化驗證；
(C) 將測試聚焦於使用者介面互動與操作流程驗證，檢查系統表面功能；
(D) 依靠使用者回饋與正式上線後的監控資料，作為修正依據

看解答

Answer

正確答案是 (B) 導入可重複執行的自動化測試流程，並透過 API 或服務虛擬化進行模組化驗證。

這題考察的是在 Low Code / No Code (LCNC) 開發模式下，如何建立專業等級的可測試性（Testability），特別是在涉及「跨部門」與「外部整合」的複雜情境時。

(B) 為正確答案：

應對複雜性：跨部門與外部服務整合（如串接 ERP、銀行 API 或天氣資訊）最怕因外部系統不穩定或資料異動導致測試中斷。

服務虛擬化 (Service Virtualization)：透過模擬（Mocking）外部 API 的回傳結果，開發團隊可以在不依賴外部環境的情況下，獨立驗證內部邏輯。

自動化與可重複性：建立自動化測試腳本能確保每次修改模型或流程後，系統核心功能不會產生回歸錯誤（Regression），這對於需要長期維護與整合的企業營運系統至關重要。

(A) 錯誤：

功能侷限：平台內建的即時預覽與基本測試僅能應付「簡單的單元驗證」。面對「跨部門流程」這種長路徑、多狀態的複雜邏輯，單靠基本功能無法達到高品質的品質保證（QA）。

(C) 錯誤：

測試盲點：僅聚焦於 UI 介面（黑箱測試）無法發現後端邏輯、資料整合或 API 傳輸產生的隱藏錯誤。在整合度高的系統中，後端邏輯的正確性往往比介面外觀更重要。

(D) 錯誤：

成本與風險極高：將「使用者回饋」與「上線後監控」作為主要修正依據，等於是把使用者當作測試員，會導致營運中斷風險增加與企業形象受損。

提升 LCNC 系統可測試性的關鍵技術

技術手段	解決問題	效益
API Mocking	外部系統尚未完成或不穩定。	隨時可進行端對端測試。
自動化迴歸測試	手動測試耗時、易遺漏。	確保新功能開發不影響舊有流程。
服務虛擬化	跨部門資料存取受限或環境複雜。	建立模組化、可獨立運行的測試環境。

解題關鍵：看到「跨部門 / 外部整合」與「可測試性」，重點在於「解耦 (Decoupling)」。「API 模擬/虛擬化」是達成系統解耦並提升測試穩定性的標準答案。

Question 4

4. 某社交平台嘗試結合自動提示工程（Automatic Prompt Engineer,APE）與圖提示（Graph Prompting），讓 AI 協助分析使用者之間的互動關係。在這個過程中，下列何者為最可能遇到的挑戰？

(A) 圖結構轉換為文字提示時，可能導致部分關聯資訊遺失；
(B) APE 在圖資料上無法產生任何提示內容；
(C) 圖轉文字後能完整保留所有上下文，對推理不造成影響；
(D) Graph Prompting 僅能處理線性路徑，限制多分支探索

看解答

Answer

正確答案是 (A) 圖結構轉換為文字提示時，可能導致部分關聯資訊遺失。

這題考驗的是將「非線性數據」轉譯為「線性文字」時的技術瓶頸。當我們結合自動提示工程（APE）與圖提示（Graph Prompting）來分析複雜的社交互動（如使用者、貼文、標籤之間的網狀關係）時，轉換過程最為關鍵。

(A) 為正確答案：

維度壓縮問題：圖（Graph）是高維度的拓撲結構，包含節點、邊、方向性及權重。大型語言模型（LLM）主要是處理「線性」的文字序列（Tokens）。

資訊損失：當我們嘗試用文字來描述一個複雜的圖結構（例如：「A 追蹤 B，B 留言給 C，C 又分享了 A 的貼文」）時，隨著關聯層級增加，文字描述會變得極其冗長且破碎，模型往往難以從文字中完美重建原本的「結構鄰近性」，進而導致部分細微的關聯資訊在轉換過程中遺失。

(B) 錯誤：

APE（自動提示工程）可以透過模型自我迭代產生提示內容。它在圖資料上可以產生提示，挑戰在於產生的提示品質是否能精確捕捉圖的邏輯，而非完全無法產生。

(C) 錯誤：

目前的技術尚無法做到「完整保留」。文字天生具有順序性，很難像矩陣或圖資料一樣同時呈現多個對等的關聯，因此對複雜推理（如多跳推理，Multi-hop reasoning）確實會造成影響。

(D) 錯誤：

這剛好說反了。Graph Prompting 的優勢正是因為它「不限於線性路徑」，能夠處理多分支、網狀的資訊。

技術整合的關鍵特徵

技術項目	核心作用	在此場景的挑戰
Graph Prompting	描述網狀的互動關係（如社群影響力）。	結構轉譯（Linearization）的損耗。
APE	自動優化最適合分析該圖結構的指令。	搜尋空間巨大，容易陷入局部最優解。

解題關鍵：處理「圖（Graph）」與「文字（Prompt）」的交互時，最核心的技術痛點永遠是「結構（Structure）與語義（Semantics）之間的轉換保真度」。

Question 5

5. 在超長上下文任務中使用自動提示工程（Automatic Prompt Engineer,APE）時，可能面臨的最大限制是什麼？

(A) 迭代優化難以因應上下文的不斷變動，導致調整失效；
(B) 模型的記憶容量有限，無法完整保留所有長篇資訊；
(C) 提示內容難以有效分解，無法支援複雜任務拆解；
(D) 回饋機制通常僅針對局部片段，難以全面評估最終輸出品質

看解答

Answer

正確答案是 (D) 回饋機制通常僅針對局部片段，難以全面評估最終輸出品質。

這題考驗的是自動提示工程（APE）在處理超長上下文（Long Context）時的評估困境。APE 的核心運作依賴於「生成－評估－迭代」的循環，但在超長文本場景下，這個循環會遇到嚴重的瓶頸。

(D) 為正確答案：

評估困難：當上下文長度達到數萬甚至數十萬 Token 時，要判斷一個 Prompt 是否優化成功，必須檢視模型對整篇長文的理解。

局部陷阱：現有的自動化評估指標（如機率得分或短答案比對）往往只能針對「局部」的輸出進行回饋。然而，超長文本任務（如摘要整本小說或分析萬頁合約）的品質取決於全篇的連貫性與關鍵資訊的擷取，僅靠局部片段的回饋難以引導 APE 找到真正能優化全域表現的提示詞。

(A) 錯誤：

雖然上下文會變動，但 APE 的目的是找到具備魯棒性的 Prompt。上下文變動是挑戰，但相較於「回饋機制失效」，這更多是計算成本的問題。

(B) 錯誤：

這描述的是模型本身的硬體或架構限制（如 Attention Window），而非 APE 這個「自動優化技術」本身的演算法限制。

(C) 錯誤：

提示內容是可以被拆解的（例如透過 Chain-of-Thought 或任務拆解技術）。這並非超長上下文場景下 APE 特有的「最大限制」。

APE 在超長上下文中的三大痛點

挑戰維度	具體困難點
計算成本	每次迭代都要處理超長文本，導致 API 費用與運算時間極高。
信號稀疏	在長文中，正確答案的線索可能只佔 0.1%，優化指令時難以獲得足夠的梯度回饋。
全域一致性 (D)	目前的 APE 難以定義一個「全方位指標」來衡量長篇生成的品質。

解題關鍵：自動提示工程（APE）的核心是「回饋（Feedback）」。在超長任務中，如果你無法給予 AI 精準且全面的回饋（告訴它這篇萬字摘要哪裡好、哪裡壞），APE 就無法有效進步。

Question 6

6. 某設計團隊計畫在短時間內完成一款行動應用程式，必須同時達到高度個人化體驗、快速生成介面與行銷內容自動產出等需求。若結合 No Code/Low Code 平台與生成式 AI 技術，以下哪一種整合策略最能符合目標？

(A) 使用生成式 AI 自動產生 API 呼叫與元件配置，並由開發者手動整合至 No Code 平台流程；
(B) 透過生成式 AI 在 No Code 平台中自動建立介面模板，並結合使用者數據即時生成個人化功能與行銷推播內容；
(C) 在 No Code 平台中導入生成式 AI，快速建立跨專案可重用的通用模組，專注於提升開發速度；
(D) 在 No Code 平台中完全依賴生成式 AI 自動產生所有應用功能與流程，不經人工設計或驗證

看解答

Answer

正確答案是 (B) 透過生成式 AI 在 No Code 平台中自動建立介面模板，並結合使用者數據即時生成個人化功能與行銷推播內容。

這題考驗的是如何最大化發揮 No-Code/Low-Code 與生成式 AI 結合的協同效應，以同時達成「速度」與「深度個人化」的商業目標。

(B) 為最佳策略：

快速生成：利用 AI 自動建立介面模板（UI Generation），大幅縮短了傳統拖拉元件的時間。

個人化體驗：結合使用者數據（User Data）與 AI 的推理能力，能動態調整 App 的功能模組或內容顯示，實現「千人千面」的應用體驗。

行銷自動化： AI 擅長生成文案與行銷素材，整合進流程後可達成自動化推播，完美符合題目要求的三項指標。

(A) 錯誤：

這雖然可行，但「手動整合」會成為開發瓶頸，且偏重於後端技術層面，較難直接解決「高度個人化體驗」與「行銷內容自動產出」的需求。

(C) 錯誤：

「通用模組」雖然能提升開發速度，但其本質是標準化，與「高度個人化」的需求背道而馳。這是一個傳統的 Low-Code 優化策略，並未充分利用生成式 AI 的動態生成優勢。

(D) 錯誤：

「不經人工設計或驗證」在目前的企業應用中極其危險。AI 可能產生幻覺或不合邏輯的流程，且 Low-Code 平台的初衷是「輔助」與「賦能」，完全去人工化會導致系統失控，不符合專業開發邏輯。

生成式 AI 與 No-Code 的整合藍圖

功能需求	整合方式	核心效益
快速開發	AI 輔助生成 UI 與邏輯腳本	縮短從點子到上線（Time-to-Market）的時間。
高度個人化	AI 即時分析用戶行為並變更組件內容	提升用戶留存率與互動深度。
內容自動化	生成式模型串接行銷自動化工作流	降低內容產製成本，實現精準行銷。

解題關鍵：當題目要求「個人化」、「快速生成」與「自動內容」時，必須選擇一個能同時涵蓋「UI 生成」與「動態數據驅動」的策略。

Question 7

7. 某團隊希望讓 AI 自動查詢 GitHub 上的程式碼庫，並生成摘要給使用者參考。開發者決定透過 Model Context Protocol（MCP）來實現，AI 需先發出請求，再經由 MCP 架構逐步完成查詢與回傳。在此情境下，MCP 運作流程的正確順序為何？

(A) MCP Server→AI Host→MCP Client→資料查詢→結果回傳 AI Host；
(B) MCP Client→AI Host→MCP Server→資料查詢→結果回傳 AI Host；
(C) AI Host→MCP Client→ MCP Server→資料查詢→結果回傳 AI Host；
(D) AI Host→MCP Server→MCP Client→資料查詢→結果回傳 AI Host

看解答

Answer

正確答案是 (C) AI Host → MCP Client → MCP Server → 資料查詢 → 結果回傳 AI Host。

這題考驗的是對 Model Context Protocol (MCP) 標準架構中角色與通訊流程的理解。

(C) 為正確答案：

AI Host：這是發起請求的主體，例如 Claude Desktop 或開發者自己建置的 AI 應用程式。當它發現需要外部資料（GitHub 程式碼）時，會啟動流程。

MCP Client：整合在 AI Host 內部的客戶端。負責將 AI 的意圖轉化為符合 MCP 協議的請求。

MCP Server：這是具體負責與外部工具（GitHub API）對接的伺服器。它接收來自 Client 的請求，執行資料查詢或操作。

資料查詢與回傳： Server 從 GitHub 抓取資料後，循原路經由 Client 回傳給 AI Host，讓 AI 進行摘要生成。

(A)、(B)、(D) 錯誤：

流程的核心起始點必須是 AI Host。

MCP Client 是負責與 MCP Server 溝通的橋樑，Client 始終位於 Host 與 Server 之間。

Server 是最後接觸數據源（GitHub）的關口。

MCP 架構角色快速對照

角色名稱	功能說明	類比
AI Host	使用 AI 模型的應用程式。	使用者（點菜的人）
MCP Client	負責協議調度與安全管控。	服務生（傳遞訂單）
MCP Server	提供工具（Tools）或資源（Resources）。	廚師（實際做菜/抓取資料）
Data Source	外部資料庫或服務（如 GitHub）。	食材倉庫

解題關鍵：記住 MCP 的通訊鏈結是由內而外的：應用程式 (Host) → 協議端 (Client) → 服務端 (Server) → 外部資料。

Question 8

8. 在 Agent-to-Agent（A2A）架構中，不同代理人之間會分工合作。一般而言，下列敘述何者最符合 Client Agent 與 Remote Agent 的互動流程？

(A) Remote Agent 主動分派任務給 Client Agent；
(B) 由人工事先設定 Client Agent 與 Remote Agent 處理任務的先後順序；
(C) Client Agent 發起任務，Remote Agent 執行並回傳結果；
(D) Client Agent 與 Remote Agent 同時處理任務並同步處理結果

看解答

Answer

正確答案是 (C) Client Agent 發起任務，Remote Agent 執行並回傳結果。

這題考察的是 Agent-to-Agent (A2A) 協作模式中的「主從架構」或「請求-響應」邏輯。

(C) 為正確答案：
角色定位：在 A2A 架構中，Client Agent 通常擔任「協調者」或「發起者」的角色，它負責理解用戶的最終目標，並將任務拆解。
互動流程：當 Client Agent 發現某些子任務超出了自己的權限或專業範圍（例如需要查詢特定的外部資料庫或執行特定工具），它會向 Remote Agent 發出請求。Remote Agent 接收指令後，在遠端環境執行任務，最後將結果回傳給 Client Agent 進行彙整。這與 MCP 協議中的 Client/Server 邏輯非常相似。

(A) 錯誤：通常是由 Client 端（靠近用戶的一方）發起需求，而非由 Remote Agent 主動分派任務給 Client 端。

(B) 錯誤：Agentic AI 的核心價值在於「自主規劃（Autonomy）」。雖然人工可以設定限制，但在 A2A 運作時，通常是由 Client Agent 根據當前狀況動態判斷何時調用 Remote Agent，而非完全依賴人工預設的硬性順序。

(D) 錯誤：雖然「同步處理」在某些並行運算場景會發生，但 A2A 的典型互動是具有因果關係的（請求 $\rightarrow$ 處理 $\rightarrow$ 回報），並非盲目地同時處理。

Client Agent 與 Remote Agent 角色對比

角色	主要職責	類比
Client Agent	任務拆解、結果彙整、與用戶互動。	專案經理 (PM)
Remote Agent	執行特定工具、存取特定數據、專業領域運算。	外部包商 / 專科工程師

解題關鍵：在 Agent 協作中，「Client」代表需求側，「Remote」代表執行側。任務的流向通常是從需求側發往執行側，並由執行側回傳成果。

Question 9

9. 在導入生成式 AI 的應用規劃中，上下文工程（Context Engineering）的核心目的為何？

(A) 縮短模型訓練時間；
(B) 優化提示與上下文；
(C) 增加模型參數數量；
(D) 優化 Fine-tuning 正確率

看解答

Answer

正確答案是 (B) 優化提示與上下文。

這題考驗的是對上下文工程（Context Engineering）定義與範疇的理解。在生成式 AI 的應用中，這是一個旨在提升模型輸出品質的關鍵技術手段。

(B) 為正確答案：

核心定義：上下文工程是指透過對輸入給模型的資訊進行精細化設計、組織與管理，來引導模型產生更精準、更符合需求的結果。

涵蓋範疇：這包括了提示工程（Prompt Engineering）的技巧（如撰寫明確的指令）、檢索增強生成（RAG）的上下文選擇（如挑選最相關的文本片段），以及長上下文的管理（如訊息摘要或快取）。

目的：透過優化這些「外部輸入」，讓模型在不重新訓練的情況下，也能在特定任務上表現出色。

(A) 錯誤：

上下文工程是在模型「推理階段（Inference）」運用的技術，與模型本身的「訓練時間（Training Time）」無關。

(C) 錯誤：

增加參數數量屬於模型架構設計（Architecture Design）或模型預訓練的範疇，上下文工程僅涉及模型如何使用現有的參數來處理輸入。

(D) 錯誤：

微調（Fine-tuning）是透過標籤數據來更新模型權重。雖然好的上下文有助於評估微調效果，但上下文工程的主要目的並非優化微調過程，而是直接在對話中提升模型的理解力。

上下文工程的常見手段

技術手段	具體做法	預期效果
Few-Shot Prompting	提供幾個正確的範例。	讓模型學會特定的輸出格式或風格。
Chain-of-Thought	引導模型寫下思考步驟。	提升模型處理複雜邏輯與數學的能力。
RAG 檢索優化	僅餵入與問題最相關的資訊。	減少噪音干擾，解決模型的「幻覺」問題。

解題關鍵：「上下文（Context）」指的是輸入給模型的環境與資訊，因此相關的工程活動必然是圍繞著「提示（Prompt）」與「輸入內容」的優化。

Question 10

10. 某公司在導入生成式 AI 協助撰寫內部報告時，測試人員刻意在輸入的上下文中放入互相矛盾的資訊（例如：同一位員工在不同段落被描述為「入職三年」與「入職五年」）。在這種情況下，最常見的模型行為會是什麼？

(A) 永遠選擇第一段資訊作為答案依據；
(B) 可能生成幻覺或隨機採信其中一方的內容；
(C) 拒絕回答，並要求提供更一致的輸入；
(D) 自動判斷並只選擇正確的資訊

看解答

Answer

正確答案是 (B) 可能生成幻覺或隨機採信其中一方的內容。

這題考驗的是對大型語言模型（LLM）在處理「資訊衝突（Context Conflict）」時的特性理解。

(B) 為正確答案：

機率導向： LLM 的運作本質是基於機率預測下一個字。當上下文出現矛盾時，模型並沒有內建的「真理檢核器」來判斷哪一個才是事實。

幻覺與隨機性：模型可能會隨機抓取其中一個資訊來回答，或者試圖「調和」這兩個矛盾（例如：寫成入職四年，這就是一種幻覺），甚至在同一個回覆中前後說法不一。

(A) 錯誤：

雖然某些模型可能存在「首位偏誤（Primacy Bias）」，傾向於重視開頭的資訊，但這並非「永遠」如此。模型也可能受到「近因偏誤（Recency Bias）」影響，採信最後看到的資訊。

(C) 錯誤：

除非開發者預先設定了非常嚴格的 Guardrails（防護機制）或檢核邏輯，否則一般的模型通常會「一本正經地胡說八道」，而不會主動發現邏輯矛盾並拒絕回答。

(D) 錯誤：

模型本身無法判斷外部事實的真偽。除非它能連結到可靠的外部資料庫（如透過 MCP 協定查詢人資系統），否則它無法判斷「三年」還是「五年」才是正確的。

LLM 處理衝突資訊的常見挑戰

現象	描述
迷失在中間 (Lost in the Middle)	當關鍵資訊隱藏在長文本中間時，模型較容易忽略或產生錯誤。
幻覺 (Hallucination)	模型在面對矛盾或未知領域時，生成虛假但看似合理的資訊。
偏誤影響 (Bias Influence)	模型可能會受到輸入順序或特定用詞的誘導而偏向某一邊。

解題關鍵：記住 LLM 是「文字續寫機」而非「邏輯驗證機」。面對矛盾時，它最常見的行為就是隨機採信或產生幻覺。

Question 11

11. Agentic AI 在解決方案圖譜（Solution Graph）上尋找最佳解決路徑時，通常會使用什麼樣的搜尋策略？

(A) 使用廣度優先、深度優先或最佳優先等演算法進行探索；
(B) 每一步都隨機選擇動作，反覆嘗試直到找到一條可行路徑；
(C) 只執行事先假定的一條路徑，失敗就停止；
(D) 完全依靠 LLM 一次性推斷最優完整路徑

看解答

Answer

正確答案是 (A) 使用廣度優先、深度優先或最佳優先等演算法進行探索。

這題考察的是 Agentic AI 在處理複雜任務時，如何結合傳統電腦科學的「搜尋演算法」與「大型語言模型（LLM）」來尋找解答。

(A) 為正確答案：

搜尋空間：當 AI 代理將一個複雜問題拆解成多個子任務或步驟時，這些步驟會交織成一個「狀態空間」或「解決方案圖譜」。

策略應用：為了在圖譜中找到最有效率的路徑，代理會運用經典的搜尋策略：

廣度優先 (BFS)：同時探索多種可能的初步方案，確保不漏掉潛在路徑。

深度優先 (DFS)：深入嘗試某一條特定的解決邏輯，直到成功或遇到阻礙為止。

最佳優先 (Best-First) / A：* 結合 LLM 的評估能力，優先嘗試那些看起來「勝算最大」的路徑（這也是 Tree-of-Thought 等技術的核心理念）。

(B) 錯誤：

隨機嘗試（Random Walk）效率極低，無法處理企業級的複雜任務，且不具備代理應有的「規劃（Planning）」特徵。

(C) 錯誤：

這屬於傳統的線性腳本邏輯。Agentic AI 的優點在於具備「自我修正」與「重新規劃」的能力，失敗時會回溯（Backtracking）並嘗試圖譜中的其他路徑。

(D) 錯誤：

一次性推斷（One-shot Inference）難以應對具有多個變數或需要外部反饋的複雜問題。解決方案圖譜的價值就在於它允許「多步推理」與「分段決策」。

AI 代理在圖譜上的搜尋流程

搜尋策略	LLM 的角色	適用場景
廣度探索	產生多個不同的起始想法（Ideation）。	需要多元化方案時（如創意發想）。
深度探索	針對單一目標不斷進行細化與執行（Execution）。	步驟明確但需要高度專注時。
啟發式搜尋	扮演「評論家」，評估各路徑成功的機率。	最常見的 Agentic AI 決策模式。

解題關鍵：解決方案圖譜（Solution Graph）本質上就是一種資料結構，因此對其進行操作時，必然會使用到「搜尋演算法」來優化決策路徑。

Question 12

12. 某企業考慮將開源大型語言模型（GPT-OSS）自行部署在本地伺服器，以取代雲端服務。下列何者最能代表本地部署對企業的實際好處？

(A) 可以達到無運算成本，因為本地部署模型不會產生額外的資源消耗；
(B) 模型的預測能力會比在雲端運行時更精度，因為本地環境更加可靠；
(C) 可確保輸入模型的敏感資料不會傳輸給第三方，提升資料隱私和自主控制；
(D) 以上皆是

看解答

Answer

正確答案是 (C) 可確保輸入模型的敏感資料不會傳輸給第三方，提升資料隱私和自主控制。

這題考驗的是企業在選擇「本地部署（On-premise）」與「雲端服務（Cloud-based）」時的決策考量。

(C) 為正確答案：

核心優勢：本地部署最大的吸引力在於「數據主權」。企業的研發資料、客戶清單或內部合約等敏感資訊，都在企業內部的防火牆內處理，不需上傳到外部雲端供應商（如 OpenAI、Google），這能滿足極高的資訊安全要求與法律合規（如 GDPR 或特定金融法規）。

自主控制：企業可以完全控制模型的更新週期、存取權限，避免雲端服務因改版或服務條款變動而影響現有流程。

(A) 錯誤：

本地部署並非無成本。雖然不需支付雲端訂閱費，但必須承擔硬體設備（高階 GPU 伺服器）、電力、冷卻系統以及後續運維人員的薪資成本。這些通常被稱為資本支出（CAPEX）與營運支出（OPEX）。

(B) 錯誤：

精確度取決於模型本身，而非部署的位置。同一個模型（如 Llama 3）在雲端跑跟在本地跑，輸出的結果是一樣的。甚至雲端供應商往往能提供更強大的運算叢集來加速推理。

(D) 錯誤：

由於 (A) 與 (B) 的敘述明顯有誤，故此選項不成立。

本地部署 vs. 雲端服務

特性	本地部署 (On-premise)	雲端服務 (Cloud)
資料隱私	極高，資料不離場。	存在第三方洩露或訓練風險。
啟動成本	高（需購買昂貴硬體）。	低（按量計費，隨開隨用）。
維護負擔	重（需自行維護硬體與更新）。	輕（供應商負責維護）。
網路依賴	內網可用，受頻寬影響小。	必須連網，受網路品質影響大。

解題關鍵：企業選擇本地部署（尤其是開源模型）最主要的動機永遠是「安全性（Security）」、「隱私性（Privacy）」與「合規性（Compliance）」。

Question 13

13. 關於 GitHub Copilot，下列敘述何者正確？

(A) GitHub Copilot 基於程式碼片段查詢工具，透過後端搜尋大型程式碼資料庫提供建議；
(B) GitHub Copilot 僅適用於 GitHub 上的開源專案，無法在私有程式碼庫或本地環境中提供程式碼補全建議；
(C) GitHub Copilot 利用靜態分析技術分析程式碼，根據邏輯流程推導下一步應寫的程式碼；
(D) GitHub Copilot 由 OpenAI 的 Codex 模型提供技術支援，可即時在開發者編輯程式碼時給出整行或整個函式建議

看解答

Answer

正確答案是 (D) GitHub Copilot 由 OpenAI 的 Codex 模型提供技術支援，可即時在開發者編輯程式碼時給出整行或整個函式建議。

這題考驗的是對目前主流 AI 輔助開發工具（AI Coding Assistant）底層技術與功能特性的理解。

(D) 為正確答案：

技術源頭： GitHub Copilot 最初是與 OpenAI 合作開發，其核心引擎是 Codex（GPT 模型的衍生版本，專門針對程式碼進行大量預訓練）。

生成能力：它不只是搜尋現成程式碼，而是具備「生成式」能力，能根據開發者當下的註解、變數名稱或程式邏輯，即時產出整行或整段函式代碼（Function blocks）。

(A) 錯誤：

GitHub Copilot 的運作方式是「生成」而非「搜尋」。傳統的程式碼片段工具是去資料庫抓現成的程式碼，而 Copilot 是根據訓練過的參數機率直接生成程式碼。

(B) 錯誤：

GitHub Copilot 是作為 IDE（如 VS Code、Visual Studio、JetBrains）的擴充套件運行，無論你在寫的是開源專案還是公司私有的、存放在本地的專案，它都能根據當前編輯器的上下文提供建議。

(C) 錯誤：

靜態分析（Static Analysis）主要是用來檢查語法錯誤、安全性漏洞或程式碼風格。雖然 Copilot 會讀取程式碼，但它是利用「深度學習模型的語意理解」而非傳統的「編譯器靜態分析邏輯」來產出建議。

GitHub Copilot 的核心特點

特性項目	說明
自動補全 (Autocomplete)	預測開發者接下來要打的字詞、語句。
自然語言轉程式碼	只要寫下註解（如：// 寫一個過濾重複數字的函式），它會生成對應代碼。
跨語言支持	支援 Python, JavaScript, TypeScript, Go, Ruby, Java 等數十種主流語言。
多點建議	會提供多種可能的實作方案供開發者切換選擇。

解題關鍵：看到 GitHub Copilot，關鍵字應鎖定在「OpenAI/Codex」、「生成式 AI」以及「即時函式建議」。

Question 14

14. 某電商公司導入 Agentic AI 來處理客服工作。測試發現 Agent 在回答產品 FAQ 時經常出錯，且無法幫客戶修改訂單。這種情況最可能是因為缺少下列哪兩項工具或技術？

(A) API 調用（API Calling）＋任務規劃器（Task Planner）；
(B) 向量資料庫檢索（Vector Retrieval）＋API 調用（API Calling）；
(C) 向量資料庫檢索（Vector Retrieval）＋任務規劃器（Task Planner）；
(D) 任務規劃器（Task Planner）＋溫度參數（Temperature）設定

看解答

Answer

正確答案是 (B) 向量資料庫檢索（Vector Retrieval）＋ API 調用（API Calling）。

這題考驗的是 Agentic AI 的兩大核心能力：知識獲取（Knowledge Acquisition）與行動執行（Action Execution）。

(B) 為正確答案：

解決 FAQ 出錯（向量資料庫檢索）：
FAQ（常見問題）通常涉及公司特定的產品資訊。大型語言模型（LLM）本身的訓練資料可能不包含這些細節，導致其產生「幻覺」而回答錯誤。透過向量資料庫檢索（RAG 技術），Agent 可以從公司內部的知識庫中精準找出正確答案，再進行回答。

解決無法修改訂單（API 調用）：
修改訂單是一個「主動執行」的動作，涉及對後端資料庫的寫入。AI 模型本身無法直接連結資料庫，必須透過 API 調用（Tool Use）來與電商系統進行互動，才能完成修改訂單、查詢物流等實體操作。

(A) 錯誤：

「任務規劃器」雖然重要，但它主要負責「拆解複雜步驟」。題目中提到的兩個問題，核心病灶在於「缺乏外部知識」與「缺乏外部執行權限」。

(C) 錯誤：

雖然包含檢索，但缺少了 API 調用，Agent 依然無法對外部系統（訂單系統）產生任何實質影響。

(D) 錯誤：

「溫度參數（Temperature）」僅能控制 AI 生成文字的隨機性，調整它無法賦予 AI 檢索知識或修改資料的能力。

Agentic AI 的功能組件對照

遇到的問題	缺少的關鍵技術	技術說明
回答錯誤、資訊過時	向量資料庫檢索 (RAG)	讓 AI 能從私有知識庫中「讀取」正確資訊。
無法執行動作（如退貨、改單）	API 調用 (Tool Use)	讓 AI 能與外部軟體、資料庫「互動」。
邏輯混亂、無法處理複雜流程	任務規劃器 (Planner)	讓 AI 能按部就班地執行多步驟任務。

解題關鍵：解決「知識正確性」選檢索（Vector Retrieval）；解決「功能執行力」選 API 調用。

Question 15

15. 某客服自動回應系統希望根據不同客戶群體調整回覆風格。在兼顧即時性與效果的前提下，下列哪一種方案最適合？

(A) 直接微調預訓練模型針對每個客戶群體分別訓練不同風格模型；
(B) 利用控制變量（Control Tokens）或風格標籤在同一模型內動態調整風格；
(C) 利用生成對抗網路（GAN）生成不同風格文本，並透過人工篩選最終答案；
(D) 採用規則式替換方法，替換回覆詞彙以符合不同風格要求。

看解答

Answer

正確答案是 (B) 利用控制變量（Control Tokens）或風格標籤在同一模型內動態調整風格。

這題考驗的是如何在企業應用中，平衡個人化效果與系統維運效率的策略選擇。

(B) 為最佳方案：

兼顧即時性與效果：透過在 Prompt 前端加入特定的「風格標籤」（例如：[專業風格]、[親切風格]），可以讓同一個強大的預訓練模型根據指令變換語氣。

低維運成本：不需要為了 5 種客戶群體就維護 5 個獨立模型，只需要維護一個核心模型，並根據客戶資料（CRM）動態切換標籤即可。這在現代 LLM 應用中是非常成熟且高效的做法。

(A) 錯誤：

成本過高：針對每個群體分別微調（Fine-tuning）獨立模型會消耗極大的運算資源與儲存空間。當客戶群體增加時，系統會變得臃腫且難以維護，不符合「即時性」與經濟效益。

(C) 錯誤：

技術不匹配： GAN 主要用於圖像生成，在文本生成領域（尤其是客服回覆）表現並不穩定。此外，「人工篩選」完全違背了「自動回應系統」的初衷，無法處理大規模的即時需求。

(D) 錯誤：

效果生硬：規則式替換（如把「你」換成「您」）僅能改變詞彙，無法調整句子的結構、語氣與整體氛圍。這種方法產出的文本通常顯得生硬，難以達到真正的「風格調整」效果。

不同風格控制技術對比

方案	靈活性	維護成本	語義自然度
微調 (A)	低（需重新訓練）	極高	高
風格標籤 (B)	極高（動態切換）	低	高
規則替換 (D)	中	極低	低

解題關鍵：當題目要求「兼顧效果與效率」且對象是「不同群體」時，使用「單一模型＋動態標籤/指令」是目前業界的主流標準做法。

Question 16

16. 在建置多代理大型語言模型（Multi-agent LLMs）系統時，如果沒有清楚定義每個代理的任務啟動條件和角色分工，最可能出現什麼問題？

(A) 回覆內容前後不連貫，系統邏輯斷裂；
(B) 不同代理的答案互相衝突，無法判斷最終決策；
(C) 系統陷入無限對話循環，導致資源耗盡；
(D) 多個代理重複做同樣的任務，造成效率低落

看解答

Answer

正確答案是 (D) 多個代理重複做同樣的任務，造成效率低落。

這題考驗的是對於多代理系統（Multi-agent System, MAS）中「協調（Orchestration）」與「角色定義」重要性的理解。

(D) 為正確答案：

冗餘執行：當多個代理人（Agents）的角色邊界模糊且沒有明確的啟動條件時，它們會因為「覺得這件事歸我管」而同時針對同一個任務進行運算。例如，在沒有明確分工的情況下，兩個代理人可能同時都在進行「網路搜尋」或「撰寫同一段程式碼」，這不僅浪費了大量的 Token 運算資源，也會大幅拉長系統的響應時間，導致效率低下。

(A) 錯誤：

前後不連貫通常是「上下文管理（Context Management）」或「狀態傳遞」出現問題，而非單純因為角色定義不清。

(B) 錯誤：

答案衝突是「共識機制」或「衝突解決策略」的缺失。雖然分工不明可能導致衝突，但 (D) 描述的「功能重疊與重複勞動」是缺乏角色分工時最直接且普遍的現象。

(C) 錯誤：

無限循環通常是因為「結束條件（Exit Condition）」設定錯誤或邏輯死鎖（Deadlock），與「任務啟動條件」雖有相關，但多代理系統若角色定義不清，首要問題通常是任務推諉或重複執行，而非循環。

多代理系統的設計關鍵

設計要素	目的	缺乏該要素的後果
角色定義 (Persona)	區分專門領域（如：工程師、評測員）。	(D) 任務執行重疊、效率低。
啟動條件 (Trigger)	決定何時由下一個 Agent 接手。	流程停滯或邏輯失控。
通訊協議 (Protocol)	規範 Agent 之間傳遞資訊的格式。	資訊遺失、無法解析上下文。

解題關鍵：在組織行為學中，「角色不明」導致的最直接後果就是「權責重疊」（多個人做同樣的事）或「權責真空」（沒人做事），在 AI 系統中則體現為運算效率的低落。

Question 17

17. 某公司部署結合 Fine-tuning 與檢索增強生成（RAG）的語言模型系統作為內部文件助理。系統需同時確保回覆語氣一致、能即時查詢每日新增文件、維持效能穩定，並避免頻繁重新訓練。在長期維護與效能平衡下，下列哪一種策略最合適？

(A) 每週重新 Fine-tune 模型，將新文件整合進模型知識，逐步取代 RAG模組；
(B) 完全依靠基礎模型與 RAG，不進行 Fine-tune，僅透過提示設計控制語氣；
(C) 每日進行增量 Fine-tune，讓模型即時學習新文件內容，避免依賴檢索；
(D) 保留語氣相關 Fine-tuning，僅透過檢索系統更新文件內容，不頻繁改動模型

看解答

Answer

正確答案是 (D) 保留語氣相關 Fine-tuning，僅透過檢索系統更新文件內容，不頻繁改動模型。

這題考驗的是如何平衡微調（Fine-tuning）與檢索增強生成（RAG）的各自優勢。在企業級應用中，這兩者的角色分工非常明確：微調負責「風格與形式」，而 RAG 負責「知識與時效」。

(D) 為最佳策略：

分工明確：透過 Fine-tuning 讓模型內化公司的企業文化、品牌語氣或特定的回覆格式（例如固定使用「您好，這裡是...」）。由於語氣通常不會天天變動，因此微調模型後可以長期維持穩定。

即時性：對於「每日新增文件」，RAG 是最佳方案。只需將新文件向量化（Embedding）並存入向量資料庫，模型在查詢時就能即時檢索到最新資訊，完全不需要重新訓練模型。

效能穩定：避免了頻繁訓練的高額運算成本與模型退化的風險。

(A) 與 (C) 錯誤：

成本與技術限制：頻繁（每週或每日）進行 Fine-tuning 在實務上極其昂貴。

時效性不足：即使每日訓練，模型知識仍有落後。且 Fine-tuning 並不適合用來記憶具體的「事實資訊」，模型很容易產生幻覺。

災難性遺忘：頻繁增量訓練可能導致模型原本的通用推理能力受損。

(B) 錯誤：

語氣控制不夠深：雖然 Prompt Engineering 可以控制語氣，但在處理非常複雜、長篇或需要高度一致性的企業風格時，Fine-tuning 的效果通常比單純的提示詞更穩定且深層。

Fine-tuning vs. RAG 的完美平衡 (The Hybrid Approach)

維度	Fine-tuning (微調)	RAG (檢索增強)
擅長任務	調整回覆語氣、學習特定格式。	獲取最新事實、查詢外部文件。
更新頻率	低（數月一次）。	極高（即時更新資料庫）。
資料容量	有限，難以記住海量細節。	幾乎無限，取決於資料庫大小。
透明度	黑箱，無法追溯答案來源。	高，可提供來源文獻引用。

解題關鍵：當需求包含「語氣一致」與「即時查詢新增文件」時，標準答案永遠是：微調控制皮囊（語氣），RAG 提供靈魂（知識）。

Question 18

18. 某客服系統在回覆「訂單取消政策」時，即使生成溫度固定為 0.6，回覆品質仍常出現差異。調查顯示，檢索到的政策內容有時是最新版本，有時則是過時文件，此外 Prompt 約束不足，微調語料也有模糊描述。若要優先改善品質波動，應先解決下列哪一項問題？

(A) 調整溫度參數，降低生成隨機性；
(B) 加強 Prompt 設計，限制模型表達方式；
(C) 優化微調語料，減少含糊描述；
(D) 提升檢索系統品質，確保取得的政策內容正確且最新

看解答

Answer

正確答案是 (D) 提升檢索系統品質，確保取得的政策內容正確且最新。

這題考察的是「垃圾進，垃圾出（Garbage In, Garbage Out）」的原則，特別是在 RAG（檢索增強生成）架構中，當多個環節都出現問題時，應如何判斷「優先順序」。

(D) 為最優先解決方案：

根源問題：題目明確提到檢索到的內容「有時是最新，有時是過時」。這代表模型接收到的「事實基礎（Ground Truth）」本身就是不穩定且錯誤的。

影響力最大：無論你的 Prompt 寫得多完美、語氣微調得多優雅，如果輸入的政策資料是錯的，模型產出的答案就一定是錯的。在處理法規、政策或合約等「事實敏感型」任務時，資訊的正確性與時效性永遠是最高優先級。

(A) 錯誤：

溫度參數（Temperature）影響的是文字的「創造性」或「隨機性」。雖然調低溫度能讓輸出更穩定，但如果輸入的資料本身就是過時的，調低溫度只會讓模型「更穩定地給出錯誤答案」。

(B) 錯誤：

Prompt 工程可以修飾輸出的格式與風格，但無法無中生有產生正確的政策細節，也無法解決檢索系統抓錯文件的問題。

(C) 錯誤：

微調語料的優化屬於長期工程，且主要影響模型的表現風格或特定任務的理解力。相較於「抓錯文件」這種嚴重的知識錯誤，語料模糊的影響順位較後。

RAG 系統品質優化優先級

在實務開發中，當系統表現不穩定時，通常遵循以下檢查順序：

1. 檢索層 (Retrieval) [優先級：最高]：模型有沒有讀到正確、最新的參考資料？
2. 上下文層 (Augmentation)：參考資料是否被完整、無噪音地餵給模型？
3. 生成層 (Generation)：Prompt 是否清晰？溫度設定是否合適？模型微調是否到位？

解題關鍵：「事實錯誤（過時文件）」的殺傷力遠大於「風格波動」。解決 RAG 品質問題，首要任務是確保資料來源（Source of Truth）的純淨與準確。

Question 19

19. 某醫院導入了一套智慧系統，由三個模組構成：語音辨識（ASR） → 語言模型生成（LLM） → 查詢醫療資料庫 API。近期發現部分查詢結果錯誤，例如醫師詢問「術後復健流程」時，系統卻誤判為要查詢「術前注意事項」，因此查詢到錯誤的文件。經檢查已排除語音辨識的錯誤，下列何者最可能是造成查詢錯誤的來源？

(A) 醫療資料庫 API 對應規則設計不清，造成意圖映射模糊；
(B) LLM 的 Prompt 缺乏明確指示，導致語意分類判斷錯誤；
(C) 查詢 API 回傳速度過慢，影響系統處理正確性；
(D) LLM 未經醫療領域微調，難以正確理解專業性詞彙

看解答

Answer

正確答案是 (B) LLM 的 Prompt 缺乏明確指示，導致語意分類判斷錯誤。

這題考驗的是對 AI Agent 工作流（Workflow）中「決策點」的錯誤分析。

在「ASR $\rightarrow$ LLM $\rightarrow$ API」的架構中，LLM 扮演的是「大腦（控制器）」的角色，負責判斷使用者的意圖並決定呼叫哪個 API。

(B) 為正確答案：
意圖識別錯誤：醫師詢問的是「術後」，系統卻判斷為「術前」。在 ASR 已排除錯誤的前提下，代表 LLM 接收到了正確的文字，但在語意理解與分類（Intent Classification）階段出了錯。
Prompt 的重要性： LLM 如何將一段話歸類為特定的 API 參數，完全取決於你給它的 Prompt 指令。如果 Prompt 中沒有明確定義「術前」與「術後」的區分邏輯，或是範例（Few-shot）不足，LLM 就容易產生誤判。這就是典型的「意圖映射」在 AI 推理層面失效。

(A) 錯誤：
API 的「對應規則」通常是固定的（例如輸入 type=post-op 就給術後文件）。如果 LLM 給出的參數是正確的（post-op），但 API 回傳錯誤，那才是 API 設計問題。但本題描述的是「誤判」，這屬於 LLM 的決策失誤。

(C) 錯誤：
API 的「回傳速度」只會影響使用者的等待時間（Latency），不會導致「內容判斷錯誤」。速度慢不代表邏輯會變錯。

(D) 錯誤：
雖然醫療微調能提升理解力，但「術前」與「術後」屬於基礎的邏輯詞彙，一般的強大模型（如 GPT-4 或 Claude 3.5）在具備良好 Prompt 的情況下都能正確分辨。這類判斷錯誤通常優先歸咎於 Prompt 工程的瑕疵，而非模型本身不認識專業詞彙。

AI 客服/助理的決策鏈結分析

步驟	功能	錯誤現象	責任歸屬
1. ASR	語音轉文字	把「術後」聽成「售後」	語音模型
2. LLM	判斷意圖 (B)	把「術後」理解為「術前」	Prompt / NLU
3. API	執行查詢	輸入正確但查無此文件	資料庫 / 後端邏輯

解題關鍵：當輸入文字正確（ASR 沒錯），但最終執行的動作與目標不符時，問題核心通常出在 LLM 的「決策/分類邏輯」，而優化該邏輯最直接手段就是 Prompt 工程。

Question 20

20. 某醫院正在規劃一個 AI 專案，目的是協助醫師從胸腔 X 光影像中判斷是否存在肺炎徵兆，團隊卻誤將生成式 AI 模型運用於影像診斷。下列哪一項最可能成為主要風險？

(A) 模型在生成報告時語句流暢，但僅在文字表達上有差異，對診斷結果沒有重大影響；
(B) 模型若資料不足，僅會降低生成報告的完整性，而非影響判斷病灶的正確性；
(C) 模型偏向生成內容而非分類，但此差異僅影響效率，不會造成誤診風險；
(D) 模型可能生成與實際影像不符的診斷結論，導致誤判並引發醫療與法律風險

看解答

Answer

正確答案是 (D) 模型可能生成與實際影像不符的診斷結論，導致誤判並引發醫療與法律風險。

這題考驗的是對生成式 AI（Generative AI）與判別式/分析式 AI（Discriminative/Analytical AI）應用邊界的理解。在醫療診斷等高風險領域，選錯模型類型會帶來嚴重的後果。

(D) 為正確答案：

生成 vs. 判別：影像診斷（如 X 光片判讀）本質上是一個分類（Classification）或物件偵測（Object Detection）任務。傳統的分析式 AI 會針對影像特徵進行統計判斷。

幻覺風險（Hallucination）：生成式 AI 的核心是「預測下一個字」或「補全內容」。當它被誤用於診斷時，可能會因為語義補全的特性，生成一段看似專業但與實際 X 光影像特徵完全不符的文字（例如影像中沒有肺炎，但模型卻根據機率生成了典型的肺炎描述），這就是醫療領域最危險的「幻覺」現象。

法律與生命安全：這種「誤判」可能導致患者錯過治療黃金期或接受不必要的治療，進而引發嚴重的醫療糾紛與法律責任。

(A)、(B)、(C) 錯誤：

這些選項都低估了生成式 AI 在處理「事實診斷」時的風險。生成式 AI 的問題不只是「語句差異」、「不完整」或「效率低」，而是它具備「無中生有」的特性，在需要極度精確的醫療判讀中，這種特性會直接轉化為誤診風險。

醫療 AI 模型選用對照

任務類型	推薦 AI 類型	運作機制	錯誤風險
影像診斷 (X光、MRI)	判別式/電腦視覺 (CNN)	辨識病灶特徵並分類。	漏看或誤認特徵。
撰寫衛教文章、病歷摘要	生成式 (LLM)	根據上下文生成流暢文字。	幻覺 (生成虛假事實)。

解題關鍵：當 AI 被要求做「判斷真偽」或「精確診斷」時，使用生成式模型的最大死穴就是「生成與事實不符的內容（幻覺）」。

Question 21

21. 某公司開發的智慧車載語音助理，可透過語音辨識（ASR）辨識駕駛語音，再由 LLM 生成回答並查詢車載 API。測試中發現：ASR 對汽車專業術語辨識錯誤率高；LLM 的回覆常不精確；系統回覆延遲雖存在但仍可接受。若目標是「優先提升準確性與回答品質」，下列改進步驟的最合理執行順序為何？
1. 擴充並標註汽車領域語音資料，微調 ASR 模型
2. 微調 LLM 並加入檢索增強（RAG）
3. 優化系統架構，引入批次推論降低延遲
4. 動態調整生成溫度，平衡準確度與多樣性

(A) 1 → 2 → 4 → 3；
(B) 2 → 1 → 3 → 4；
(C) 1 → 3 → 2 → 4；
(D) 3 → 1 → 2 → 4

看解答

Answer

正確答案是 (A) 1 → 2 → 4 → 3。

這題考驗的是在多模態 AI 系統中，面對多個問題時的「改進優先順序」邏輯。核心原則是「先修復輸入（Input），再優化處理（Process），最後才是調優與效率（Tuning & Optimization）」。

第一步：1. 微調 ASR 模型（修復輸入）

理由：這是系統的最前端。題目提到 ASR 對專業術語辨識錯誤率高。如果輸入的文字本身就是錯的（例如將「煞車」聽成「下車」），後端的 LLM 再強、RAG 再精準也無法給出正確答案。因此，優先解決「聽不準」的問題是所有後續品質提升的基礎。

第二步：2. 微調 LLM 並加入 RAG（優化處理）

理由：在確保輸入文字正確後，接下來要解決 LLM 「說不準」的問題。透過 RAG 可以讓 AI 查詢正確的車主手冊或維修資料，微調則能讓語氣與專業性更符合車載場景。這是提升「回答品質」的核心。

第三步：4. 動態調整生成溫度（精細調優）

理由：當 ASR 聽得準、LLM 也有正確知識後，最後再透過調整溫度（Temperature）來微調輸出風格。對於車載助理，通常會降低溫度以追求高度的穩定性與準確度。

第四步：3. 優化系統架構降低延遲（提升效率）

理由：題目明確提到「延遲雖存在但仍可接受」，且目標是「優先提升準確性與回答品質」。因此，降低延遲雖然對使用者體驗有幫助，但在這題的目標設定下，它的優先級是最低的。

AI 系統改進的黃金法則：由前至後

優化層級	對應步驟	核心價值
感知層 (Perception)	1. ASR 優化	確保 AI 「看/聽」到的資訊是正確的。
認知層 (Cognition)	2. RAG/LLM 微調	確保 AI 「思考/理解」的邏輯與知識是正確的。
表現層 (Expression)	4. 參數調優	控制 AI 「說話」的穩定性。
體驗層 (Experience)	3. 降低延遲	讓系統跑得更順、更快。

解題關鍵：解決 AI 問題必須遵循「垃圾進，垃圾出 (GIGO)」原則，輸入端（ASR）的錯誤如果不先解決，後續的優化都是徒勞。

Question 22

22. 一家顧問公司使用生成式 AI 協助撰寫數據分析報告。雖然模型在測試中表現優異，但其生成的報告多半僅遵循固定段落結構，替換數值或關鍵詞即可完成，卻未能展現針對不同專案的多樣化推理與分析。下列何者為造成這種現象的最合理解釋？

(A) 模型在生成過程中缺乏對字體與排版的優化能力，因此無法展現分析邏輯；
(B) 測試資料涵蓋過多統計圖表，導致模型無法專注於文字內容的多樣化表達；
(C) 模型過度依賴訓練語料中的常見報告範式，導致生成結果以樣板化結構取代真正的推理；
(D) 模型因無法正確辨識報告中的頁碼與標題層級，才出現樣板化的結果

看解答

Answer

正確答案是 (C) 模型過度依賴訓練語料中的常見報告範式，導致生成結果以樣板化結構取代真正的推理。

這題考驗的是對大型語言模型（LLM）「機率性預測」與「模式匹配（Pattern Matching）」特性的理解，特別是在處理結構化文件時的表現。

(C) 為最合理的解釋：

模式崩塌與依賴：數據分析報告在訓練語料中（或是在微調資料中）往往有著高度重複的結構（例如：摘要、數據呈現、結論）。當模型發現這種「固定模版」的出現機率極高時，它會傾向於選擇最安全、機率最高的路徑，即「填空式」生成。

缺乏深層推理：雖然模型表面上產生了正確的數值替換，但它本質上是在進行複雜的文字補全，而非真正理解數據背後的因果關係。這導致輸出雖然語法正確，卻顯得千篇一律，缺乏針對特定專案的深度洞察。

(A) 錯誤：

排版非邏輯基礎：字體與排版屬於「表現層（Presentation）」，與模型內部的「分析邏輯」無關。

(B) 錯誤：

圖表並非阻礙：統計圖表（或數據）應該是分析的基礎。模型無法展現多樣化表達，是因為它陷入了文字生成的「安全區（樣板）」，而非因為圖表過多。

(D) 錯誤：

層級識別與內容無關：頁碼與標題層級的辨識屬於「結構解析」問題，這可能會影響報告的外觀美醜，但不會導致模型無法進行「多樣化推理」。

如何突破「樣板化」現象？

在實務應用中（如您在網頁開發與 SEO 優化中所追求的高品質內容生成），若要解決此類問題，通常會採取以下策略：

策略	說明
增加 Temperature (溫度)	稍微提高隨機性，讓模型不總是選擇機率最高的下一個詞。
Few-shot Prompting	提供數個「具備深度分析」而非「填空式」的範例，引導模型模仿推理邏輯。
Chain-of-Thought (CoT)	要求模型在給出結論前，先寫出數據推導的邏輯步驟。
多樣化微調	使用不同風格、結構的分析報告進行微調，打破單一樣板的限制。

解題關鍵：當 AI 表現出「填空化」或「僵化」時，通常是因為它選擇了訓練資料中最常見的機率路徑，導致行為模式化。

Question 23

23. 在應用零樣本提示（Zero-Shot Prompting）時，下列哪一種情境最可能因缺乏示範而失敗，出現語意錯誤或結構錯誤的輸出？

(A) 要求模型判斷一段影評文字的情感傾向；
(B) 要求模型將一段新聞摘要濃縮為一句話；
(C) 要求模型將一段繁體中文翻譯成英文；
(D) 要求模型從表格中擷取所有城市的最高氣溫

看解答

Answer

正確答案是 (D) 要求模型從表格中擷取所有城市的最高氣溫。

這題考驗的是對零樣本提示（Zero-Shot Prompting）侷限性的理解。零樣本是指在不提供任何範例的情況下，直接下令讓模型執行任務。

(D) 為正確答案：

複雜格式與精確性：從表格中擷取特定數據（如「最高氣溫」）涉及對非結構化或半結構化數據的精確解析。表格的呈現方式多變（可能在 Markdown 中，也可能只是純文字排列），模型若沒有範例引導，很難精確判斷哪些數字代表「最高溫」，哪些代表「最低溫」或「平均溫」。

結構錯誤：擷取任務通常需要特定的輸出格式（如 JSON、CSV 或清單）。在 Zero-Shot 情況下，模型極容易漏掉資料、誤判欄位，或是產生不符合預期的輸出結構，導致後續程式無法處理。

(A) 錯誤：

語意直覺強：情感分析（正向/負向）是 LLM 在預訓練階段學得最好的能力之一。即使不給範例，模型通常也能準確判斷影評的情緒。

(B) 錯誤：

通用任務：摘要縮寫是生成式 AI 的核心強項。模型對於「摘要」的概念有很強的通用理解，Zero-Shot 的失敗率相對較低。

(C) 錯誤：

語言對齊：對於繁簡中英轉換等主流語系翻譯，模型在預訓練時已建立了強大的映射關係，Zero-Shot 通常能完成得非常出色。

零樣本 (Zero-Shot) vs. 少樣本 (Few-Shot)

任務類型	Zero-Shot 表現	建議改用 Few-Shot 的原因
通用創作/摘要	優異	除非有特定字數或風格要求。
簡單情感判斷	穩定	除非有極為模糊的中性語境。
數據擷取 (D)	不穩定	需提供範例確保模型理解欄位對應與輸出格式。
複雜邏輯推理	較差	需引導思考步驟 (CoT)。

解題關鍵：「擷取」與「格式化」任務對精確度要求極高，且極度依賴對上下文結構的理解。這類任務在缺乏範例（Zero-Shot）時，最容易出現欄位錯位或資訊遺漏。

Question 24

24. 某保險公司計畫導入生成式 AI 的內部合約查詢系統，協助業務員與法務部門快速解讀保單條款與理賠規範。高層特別強調客戶資料隱私與合規風險控管，即使需要投入較多資源，也必須確保資料不會外洩。在此情況下，下列哪一種策略最符合公司的資料安全與合規優先考量？

(A) 導入開源模型並由 IT 團隊自建，後續再逐步補強隱私與合規控管；
(B) 在需求確認階段即納入法遵與稽核單位，設定準確率 KPI，並透過MVP 驗證成效；
(C) 優先使用雲端大型 API 模型快速部署，並根據使用數據持續調整；
(D) 投入資源自訓並私有化部署 LLM，並同步建立自動化風控機制

看解答

Answer

正確答案是 (D) 投入資源自訓並私有化部署 LLM，並同步建立自動化風控機制。

這題考驗的是在極高安全需求（保險、醫療、金融）下，企業對於數據主權（Data Sovereignty）與風險控管的最佳實踐。

(D) 為正確答案：

私有化部署（On-premise）：這是確保資料「絕對不外洩」的終極手段。對於處理保單條款與理賠規範等敏感資料，將模型部署在公司內部的伺服器或私有雲，可完全隔絕第三方服務商存取資料的風險。

自訓（Self-training）：雖然資源投入大，但能針對保險專業術語與合約邏輯進行深度優化，確保回覆精準且符合公司立場。

自動化風控：同步建立風控機制（如：內容過濾、權限管控），能滿足高層對「合規風險控管」的嚴格要求。

(A) 錯誤：

「逐步補強」在金融與保險業是不可接受的。對於隱私與合規，必須是「設計即安全（Security by Design）」，而非事後才補救。

(B) 錯誤：

這屬於專案管理的流程優化（納入法遵、KPI、MVP），雖然是正確的專案步驟，但並未從技術底層解決題目最在意的「資料不會外洩」物理性限制。

(C) 錯誤：

雲端 API（如 OpenAI, Claude）最大的風險在於資料必須傳輸到外部。即便有企業版協議，對某些保險公司的高層而言，仍存在第三方洩漏或監管合規的疑慮，不符合「確保資料不會外洩」的最優先考量。

保險業 AI 部署的安全考量矩陣

安全維度	私有化部署 (D)	雲端 API (C)	影響評估
數據流向	留在內部防火牆內。	傳輸至外部供應商。	(D) 具備絕對主權。
法律合規	完全符合個資法規。	需檢視跨境傳輸限制。	(D) 降低合規阻力。
資源投入	極高（硬體、維運）。	低（訂閱費）。	題目註明「即使需投入較多資源」。

解題關鍵：當題目強調「資料隱私」、「合規控管」且「不計資源投入」時，選擇「私有化部署（Private Deployment）」永遠是權威答案。

Question 25

25. 某新創公司開發一套圖像描述生成系統，能根據輸入的照片自動產生說明文字。為了讓產生的描述文字能與圖片資訊精準對應，下列哪一種設計思路最關鍵？

(A) 強化語言模型的句法與流暢性，確保生成文字更自然易讀；
(B) 在生成過程中結合圖片特徵與語言建模，讓模型同時利用影像內容與文字資訊；
(C) 調整生成策略（如 Beam Search 或溫度參數），以提升輸出文字的合理性；
(D) 專注於文字序列上下文的建模，只提升文字間的連貫性

看解答

Answer

正確答案是 (B) 在生成過程中結合圖片特徵與語言建模，讓模型同時利用影像內容與文字資訊。

這題考驗的是多模態模型（Multimodal Models）的核心原理，特別是「影像敘述生成（Image Captioning）」的設計邏輯。

(B) 為正確答案：

精準對應的核心：要讓文字精準對應圖片，模型必須具備「跨模態對齊」的能力。這意味著在生成每一個字時，模型的大腦都要同時參考：

影像特徵（Visual Features）：從圖片中提取出的物件、場景、顏色與空間關係（通常由 CNN 或 Vision Transformer 處理）。

語言建模（Language Modeling）：根據已生成的文字推測下一個字，確保語法正確。

注意力機制（Attention Mechanism）：關鍵技術通常是讓模型在生成特定詞彙（如「狗」）時，將注意力集中在圖片中對應的區域，這才是達到「精準對應」的最關鍵設計。

(A) 錯誤：

強化流暢性只能讓句子讀起來像「人話」，但如果沒有與圖片特徵掛鉤，模型可能會產生與圖片無關的漂亮廢話（例如：圖中是一隻貓，模型卻流暢地描述了一隻狗）。

(C) 錯誤：

調整生成策略（如 Beam Search）只是在後端「挑選」機率最高的字詞組合。如果模型底層沒有融合影像資訊，無論怎麼挑選，都無法解決「圖文不符」的根本問題。

(D) 錯誤：

只專注於「文字序列上下文」會讓模型變成單純的語言模型。這會導致模型完全忽視輸入的照片，僅根據文字慣性進行預測，與題目要求「精準對應圖片」的目標背道而馳。

影像描述生成系統 (Image Captioning) 工作流程

組件名稱	負責任務	關鍵作用
影像編碼器 (Encoder)	提取圖片中的高階語義特徵。	讓 AI 「看懂」圖片內容。
文字解碼器 (Decoder)	將特徵轉換為文字序列。	讓 AI 「說出」描述內容。
交叉注意力 (Cross-Attention)	連結影像特徵與文字生成。	確保說出的每個字都對應到圖中對象。

解題關鍵：「跨模態對齊」（影像與文字的融合）是所有多模態任務（如 DALL-E, Sora, GPT-4o）能成功的基石。

Question 26

26. 某電商平台希望生成的商品描述在風格與用詞上保持一致性，但不需要新增專業知識。下列哪種方法最適合？

(A) 擴充語料庫並微調模型，使風格統一；
(B) 增加提示詞複雜度，引導模型風格一致；
(C) 降低生成溫度，以減少隨機性並提升風格一致性；
(D) 使用全連接神經網路對生成結果後期篩選

看解答

Answer

正確答案是 (B) 增加提示詞複雜度，引導模型風格一致。

這題考驗的是如何在不同層次調整生成式 AI 的輸出，特別是針對「風格一致性」且「不需額外專業知識」的情境。

(B) 為最佳方案：

高效與低成本：對於電商平台來說，如果只是要確保回覆語氣（例如：親切、專業、使用特定術語），透過提示工程（Prompt Engineering）或是 Few-shot Prompting（在提示詞中提供 3~5 個標準範例）是最快速且經濟的做法。

靈活性：只要修改提示詞（System Prompt），就能立刻更換整站的描述風格（例如從「清新風」改成「促銷風」），不需要重新訓練模型。

(A) 錯誤：

過度工程（Over-engineering）：微調（Fine-tuning）雖然能統一風格，但過程昂貴且耗時。題目明確提到「不需要新增專業知識」，這意味著基礎模型已有的能力就足夠，使用微調來解決純風格問題在經濟效益上並不划算。

(C) 錯誤：

治標不治本：降低溫度（Temperature）雖然能減少隨機性，讓輸出變得「呆板且重複」，但如果原始提示詞給得不好，模型只會「穩定地生成風格不一致或品質低落的內容」。溫度控制的是多樣性，而非定義風格本身。

(D) 錯誤：

技術誤用：全連接神經網路（FNN）通常用於分類或回歸任務。在生成文字後再用另一個神經網路進行「風格篩選」極其低效，且難以定義篩選準則。

不同層次的風格控制手段

手段	適用情境	優點	缺點
提示工程 (B)	通用的風格規範。	成本極低、即時生效。	對極其細微的風格掌握度較弱。
微調 (A)	深度法律、醫學風格。	風格內化、效果最穩。	成本高、資料準備耗時。
參數調整 (C)	追求答案唯一性。	簡單快速。	可能導致內容重複感過重。

解題關鍵：當需求是「風格一致」且「無須新知識」時，優先考慮 Prompt Engineering（提示工程）。

Question 27

27. 某企業已建置 AI 語音記錄系統，並希望整合生成式 AI 進行「會議即時摘要」功能，下列哪一種策略最能提升摘要的語意品質與使用價值？

(A) 使用語音轉文字模型即時輸出逐字稿並轉入 GPT 摘要；
(B) 將語音逐段切分並建立關鍵字索引，以利摘要模型從中擷取核心內容生成會議重點；
(C) 將語音轉文字後標註發言角色與主題邊界，結合語意分群進行動態摘要；
(D) 將所有語音內容儲存為完整紀錄，提供事後人工摘要比對用

看解答

Answer

正確答案是 (C) 將語音轉文字後標註發言角色與主題邊界，結合語意分群進行動態摘要。

這題考察的是如何將非結構化的語音資料轉化為高品質、具備「語意價值」的生成內容。

(C) 為最佳策略：

發言角色標註 (Diarization)：會議中「誰說了什麼」至關重要。標註發言者能讓摘要區分出決策者、執行者與提問者，避免語意混淆。

主題邊界與語意分群：會議通常包含多個議題。透過主題切割，AI 可以針對每個獨立討論點（而非整塊雜亂的逐字稿）進行精確摘要。這種「分段處理、動態匯總」的方式最能保留原始對話的邏輯脈絡，提升摘要的使用價值。

(A) 錯誤：

資訊過載：直接將原始、未經處理的逐字稿塞給 GPT，會包含大量口頭贅字（呃、那個）、重複表達或無意義的插嘴，導致生成的摘要重點模糊，且容易受限於模型的上下文長度限制。

(B) 錯誤：

缺乏連貫性：關鍵字索引雖然有助於「搜尋」，但若只靠擷取關鍵字來生成摘要，會丟失對話間的因果關係與脈絡（Context），生成的重點可能顯得破碎。

(D) 錯誤：

不具備自動化價值：這只是傳統的紀錄存檔與人工處理，完全沒有發揮生成式 AI 提升效率與品質的潛力。

高品質會議摘要的關鍵技術層次

技術手段	提升的價值	避免的問題
角色識別 (Diarization)	釐清責任歸屬與發言情境。	避免將 A 的建議誤植為 B 的決定。
語意分段 (Segmentation)	建立結構化的議題清單。	避免摘要內容前後跳躍、邏輯混亂。
摘要生成 (Summarization)	濃縮核心觀點與待辦清單。	節省閱讀完整逐字稿的時間。

解題關鍵：提升「語意品質」的關鍵在於資料的結構化處理。「角色」與「主題」是會議資訊中最核心的兩個維度，標註這兩者能大幅提升 AI 生成內容的精確度。

Question 28

28. 某公司正在開發一個智慧客服系統，負責回覆顧客關於退換貨、優惠活動與商品建議等問題。研發團隊嘗試使用不同的提示設計方式來提升模型效能。下列哪一個提示最符合「少樣本提示（Few-Shot Prompting）」的設計原則？

(A) 「請回答顧客詢問：如何申請退貨？」；
(B) 「以下是兩組客服對話範例，請依照相同風格回覆新的顧客問題」；
(C) 「請逐步分析顧客投訴的原因，並依照推理過程生成合適回覆」；
(D) 「請以正式的語氣回覆顧客的提問」

看解答

Answer

正確答案是 (B)「以下是兩組客服對話範例，請依照相同風格回覆新的顧客問題」。

這題考驗的是對各種提示工程（Prompt Engineering）策略的辨識能力。

(B) 為正確答案：

設計原則：少樣本提示（Few-Shot Prompting）的核心特徵在於提供「範例（Examples/Demonstrations）」。透過給予模型幾組「輸入-輸出」的範例，讓模型學習特定的任務格式、回答邏輯或語氣風格。選項 (B) 明確提到提供了「兩組對話範例」，完全符合此定義。

(A) 錯誤：

零樣本提示（Zero-Shot Prompting）：直接下達指令，沒有提供任何範例。模型僅憑藉預訓練時的通用知識來回答。

(C) 錯誤：

鏈狀思考提示（Chain-of-Thought, CoT）：要求模型「逐步分析」或「寫出推理過程」。這旨在引導模型進行邏輯推導，而非強調範例的模仿。

(D) 錯誤：

角色/語氣設定（Persona/Role Prompting）：僅定義模型的角色身分或說話語氣，不涉及具體的範例示範。

常見提示策略對照表

策略名稱	核心特徵	目的
Zero-Shot	直接下指令，無範例。	測試模型通用理解能力。
Few-Shot (B)	提供少數幾個範例。	規範輸出格式、風格或處理複雜邏輯。
Chain-of-Thought (C)	加上「逐步思考」的指令。	解決需要多步推理的數學或邏輯問題。
Role-Play (D)	指定模型為「專業客服」。	調整模型的語氣與專業深度。

解題關鍵：看到「範例（Example）」或「示範」關鍵字，即可判定為 Few-Shot Prompting。

Question 29

29. 某投資公司導入生成式 AI，用於即時分析股市波動並提供市場背景資訊。若希望 AI 能兼顧「即時性」與「可靠性」。下列哪一項設計最能有效提升 AI 在即時股市分析上的表現？

(A) 將 AI 系統連結至公司內部歷史交易資料庫，以便快速調用既有的案例參考；
(B) 調整模型的回應邏輯，讓 AI 優先輸出最新市場行情，而不是完整的背景分析；
(C) 建立與外部即時行情來源同步的查詢模組，確保 AI 能即時擷取最新金融數據；
(D) 增加訓練資料中模擬的金融危機與市場異常案例，以提升 AI 在特殊情境下的表現能力

看解答

Answer

正確答案是 (C) 建立與外部即時行情來源同步的查詢模組，確保 AI 能即時擷取最新金融數據。

這題考驗的是對於 RAG（檢索增強生成）在處理「極高時效性數據」時的應用能力。在股市分析這種秒級變動的場景中，「資料的新鮮度」直接決定了分析的價值。

(C) 為最佳方案：

即時性（Real-time）：大型語言模型（LLM）的訓練資料有其截止日期（Knowledge Cutoff），無法得知「現在」的股價。透過查詢模組連結外部 API（如 Bloomberg、Yahoo Finance 或交易所 API），能讓 AI 獲取當下的數據。

可靠性（Reliability）： AI 不再僅憑記憶中的機率來「預測」股價（避免幻覺），而是根據真實的行情數據進行邏輯分析。這種「外部數據 + LLM 分析能力」的結合是目前金融 AI 應用的主流架構。

(A) 錯誤：

歷史資料庫有助於「歷史回測」或「模式比對」，但無法解決「即時股市分析」所需的新鮮資訊。面對突發的市場波動，歷史數據無法提供當下的背景解釋。

(B) 錯誤：

僅調整回應邏輯（優先輸出行情）並不能改變 AI 知識落後的事實。如果 AI 沒辦法存取即時數據，它輸出的行情依然是過時的。

(D) 錯誤：

增加模擬案例屬於「提升模型的泛化能力」，雖然能讓 AI 在極端情況下更有經驗，但這屬於模型預訓練或微調的範疇，無法解決「即時性」問題。

金融 AI 系統架構：RAG 的即時應用

組件	作用	解決的問題
外部查詢模組 (C)	抓取最新股價、即時新聞、公告。	知識落後、數據時效性。
LLM 核心	分析數據間的因果關係，撰寫報告。	數據太生硬，缺乏人類可讀性。
歷史資料庫 (A)	提供過去類似情況的處理經驗。	缺乏長線脈絡參考。

解題關鍵：當需求包含「即時性」與「可靠數據」時，標準答案必然是透過「外部查詢/檢索（RAG）」來獲取最新資訊。

Question 30

30. 30. 某大型物流公司計畫導入 AI 系統，以改善客服與配送作業的效率。專案團隊規劃了以下四個步驟，請問正確的執行順序為何？
1. 建立符合公司服務流程的 AI 對話邏輯與應答範本，確保顧客體驗一致
2. 明確定義導入 AI 的目標並設定關鍵績效指標（KPI）
3. 蒐集與清理過往客服紀錄與配送相關資料，作為模型訓練素材
4. 評估並選擇合適的 AI 技術供應商或開源方案，確立技術方向與架構

(A) 2 → 3 → 4 → 1；
(B) 3 → 2 → 1 → 4；
(C) 2 → 1 → 3 → 4；
(D) 1 → 4 → 3 → 2

看解答

Answer

正確答案是 (A) 2 → 3 → 4 → 1。

這題考驗的是企業導入 AI 專案時的標準作業流程（SOP）。一個成功的 AI 專案必須遵循「目標導向」與「數據驅動」的原則，由宏觀規劃逐步落實到執行細節。

第一步：2. 明確定義目標並設定 KPI（策略規劃）

理由：這是所有專案的起點。必須先知道要解決什麼問題（例如：降低 20% 客服人力成本、提升配送準點率），才能決定後續需要什麼數據與技術。

第二步：3. 蒐集與清理資料（基礎建設）

理由： AI 的本質是「數據」。在決定技術方案前，必須先評估手邊有多少可用的資料、品質如何。資料的完整性會直接影響到第四步技術方案的選擇（例如：資料量夠大才考慮自訓模型）。

第三步：4. 選擇技術方案或供應商（技術確立）

理由：根據已確定的目標（第一步）與現有的數據狀況（第二步），決定是要買現成的雲端服務、使用開源模型，還是尋找外部系統整合商。

第四步：1. 建立對話邏輯與應答範本（實作部署）

理由：在技術架構與數據都到位後，最後才是針對具體的業務流程（如：退貨流程、包裹查詢）設計對話邏輯與範本。這是最接近使用者的一環，也是最後的落地執行。

企業 AI 導入生命週期

階段	對應步驟	核心任務
1. 規劃期	(2) 定義目標	確立專案價值，設定衡量標準。
2. 準備期	(3) 數據清洗	準備 AI 的「燃料」，確保品質。
3. 選型期	(4) 技術選型	挑選最合適的「引擎」（供應商或模型）。

解題關鍵：記住「先有目標（KPI），後有數據（Data），再選技術（Tech），最後落實流程（Logic）」的邏輯順序。

Question 31

31. 某跨國電商企業導入生成式 AI，協助處理顧客服務請求，並根據顧客歷史訂單提供個人化建議。資安與法遵部門擔心 AI 在回覆時可能洩漏顧客個資，若要在導入初期優先避免觸法風險，下列哪一項措施最符合要求？

(A) 在加密環境下導入完整的顧客訂單與行為資料，並透過嚴格存取控管降低洩漏風險；
(B) 實施資料最小化與去識別化，確保 AI 在訓練與生成過程中不直接處理或暴露敏感個資；
(C) 強化模型的回覆審查流程，透過自動過濾與人工抽查結合，降低個資外洩的機率；
(D) 設定 AI 的角色與回覆範圍，讓其專注於客服相關內容，避免回答其他敏感議題

看解答

Answer

正確答案是 (B) 實施資料最小化與去識別化，確保 AI 在訓練與生成過程中不直接處理或暴露敏感個資。

這題考驗的是對隱私保護設計（Privacy by Design）以及全球個資法規（如 GDPR 或台灣個資法）核心原則的理解。在 AI 專案導入初期，從「源頭」控管資料是最有效的防護手段。

(B) 為最符合要求的措施：

資料最小化（Data Minimization）：指僅蒐集與處理達成特定目的所「必要」的資料。如果 AI 只需要根據「購買品項」推薦商品，就不應讓它接觸到「姓名、身分證字號或詳細地址」。

去識別化（De-identification）：在將資料餵給 AI 之前，先遮蔽或移除能識別特定個人的資訊。這是避免 AI 在生成回覆時不經意「吐出」個資（即洩漏風險）的根本解決之道。

合規優先：法律通常規定，若資料已去識別化至無法回溯特定個人的程度，其處理風險將大幅降低，最能滿足資安與法遵部門的初衷。

(A) 錯誤：

雖然加密與存取控管是資安基礎，但 AI 模型本身具備「記憶」特性。如果將完整個資餵給模型，即便環境加密，模型仍可能在生成過程中產生「幻覺」或受「提示攻擊（Prompt Injection）」而將隱私內容寫在回覆中。

(C) 錯誤：

審查與過濾屬於「事後補救」。在高流量的電商環境下，人工抽查緩不濟急，且自動過濾器（DLP）無法百分之百保證攔截所有變體形式的個資洩漏。

(D) 錯誤：

設定回覆範圍（Persona）雖然能限制 AI 的話題，但無法防止 AI 在「客服範圍內」洩漏個資。例如，顧客詢問「我的訂單狀態」，AI 可能在回覆時順便帶出了未經遮蔽的電話號碼。

AI 隱私保護的層次邏輯

防護策略	作用點	安全等級
資料去識別化 (B)	數據輸入前 (源頭)	極高（法律合規基準）
加密與存取控管 (A)	儲存與傳輸環境	高（基礎建設級）
回覆過濾與審查 (C)	輸出結果後	中（容易被繞過）

解題關鍵：面對「避免觸法」與「隱私風險」，最標準的回答永遠是從資料端（最小化、去識別化、匿名化）下手，而非僅依賴環境控管或產出過濾。

Question 32

32. 某國際銀行導入生成式 AI，用於彙整不同國家金融監管機構的合規規範，建立跨國合規知識庫。由於各國條文表述方式不同，且監管要求具有高度專業性與隱含邏輯，若要確保知識庫在後續查詢與生成報告時能維持正確性與一致性，下列哪一項 AI 能力最為關鍵？

(A) 具備跨語言專業術語對齊與條文語意抽取能力，能正確辨識不同國家規範間的對應與差異；
(B) 能自動最佳化文件檢索效率，縮短跨國法規查詢的延遲時間，提升合規部門使用體驗；
(C) 能將合規文件轉換為多種輸出形式（如簡報、摘要或法規清單），以符合不同決策層級需求；
(D) 具備根據歷史案例生成合規解釋的能力，協助新進員工快速理解法規在實務上的應用

看解答

Answer

正確答案是 (A) 具備跨語言專業術語對齊與條文語意抽取能力，能正確辨識不同國家規範間的對應與差異。

這題的核心情境是「跨國金融監管」與「合規知識庫」。處理各國法規時，最大的挑戰不在於翻譯文字，而在於「語意的一致性」與「專業邏輯的對齊」。

(A) 為最關鍵能力：

專業術語對齊（Term Alignment）：不同國家對同一金融行為可能有不同稱呼（例如：洗錢防制的各國定義差異）。若 AI 不能在底層將這些術語「對齊」，生成的報告就會產生歧義。

語意抽取（Semantic Extraction）：合規條文充滿隱含邏輯，AI 必須能從法律術語中精確抽取出「義務」、「禁止事項」與「處罰條款」，並識別出 A 國與 B 國規範間的衝突或重疊。這是建立「跨國一致性」知識庫的技術基石。

(B) 錯誤：

這屬於「效能（Performance）」優化。雖然能提升體驗，但對於合規這種「容錯率極低」的任務，回覆得快不如回覆得準。

(C) 錯誤：

這屬於「展現層（Presentation）」。將法規轉為簡報是輔助功能，前提是內容必須正確。如果核心語意識別錯誤，再精美的簡報也沒有價值。

(D) 錯誤：

這屬於「知識傳承（Knowledge Transfer）」。根據歷史案例解釋法規對新進員工有幫助，但這無法解決「建立知識庫時如何處理各國條文差異」的根本問題。

建立合規知識庫的技術挑戰

挑戰維度	解決手段 (A)	預期效果
多語言差異	跨語言向量對齊	確保搜尋「Anti-Money Laundering」能找到對應的中文條文。
專業定義歧義	知識圖譜 / 術語抽取	釐清不同監管機構對「合格投資人」定義的微小差別。
隱含邏輯判斷	語意推理與邏輯抽取	自動比對不同國家的合規義務是否存在衝突。

解題關鍵：在「法規/監管」領域，「精確度（Accuracy）」與「邏輯一致性（Consistency）」永遠優先於效率與形式。處理跨國任務時，「跨語言語意對齊」是確保不觸法的核心。

Question 33

33. 在企業導入 MLOps（Machine Learning Operations）的過程中，除了模型部署與維運挑戰外，仍可能面臨其他推動上的困難。下列何者為 No Code 平台最能有效解決的挑戰？

(A) 自動化大量資料的標註與前處理，以降低數據準備成本；
(B) 提升運算基礎設施的可擴展性，以因應大規模服務需求；
(C) 透過可視化建模介面，降低技術門檻並促進跨部門協作；
(D) 提供進階特徵工程能力，優化高維度數據的處理效率

看解答

Answer

正確答案是 (C) 透過可視化建模介面，降低技術門檻並促進跨部門協作。

這題考驗的是對於 No-Code（無程式碼）平台核心價值及其在 MLOps 流程中定位的理解。

(C) 為最佳答案：

降低門檻： No-Code 平台（如 Google Vertex AI Model Builder、Azure ML Studio 等）提供拖拉式的可視化介面，讓不具備深厚 Python 或 R 程式開發能力的「公民資料科學家」（如業務分析師、產品經理）也能參與建模。

促進協作：在 MLOps 流程中，最常見的困難之一是「業務需求」與「技術開發」之間的斷層。No-Code 平台讓非技術部門能直接看懂模型邏輯與實驗流程，大幅降低溝通成本，解決了推動上的「人才短缺」與「跨部門協作」挑戰。

(A) 錯誤：

雖然某些平台包含標註功能，但「自動化大量資料標註」通常需要專門的數據標註工具或主動學習（Active Learning）技術，並非 No-Code 平台最核心的差異化優勢。

(B) 錯誤：

這屬於雲端基礎設施或 Kubernetes（K8s）等 Cloud Native 技術要解決的「擴展性（Scalability）」問題，通常由 DevOps/MLOps 工程師負責，與 No-Code 的介面特性無關。

(D) 錯誤：

「進階特徵工程」往往需要針對特定領域進行複雜的邏輯撰寫。雖然 No-Code 平台提供基本的資料轉換，但對於處理「高維度」或極其複雜的特徵工程，專業的程式開發（Code-based）通常比 No-Code 更具備效率與靈活性。

No-Code 平台在 MLOps 中的定位

挑戰類型	No-Code 平台的解決方案	預期效果
人才缺口	可視化 GUI 建模	讓業務人員也能快速產出模型原型（Prototype）。
溝通斷層	流程圖形式的實驗管理	技術與非技術人員有共同的語言進行討論。
開發速度	預建的算法模組與自動化機器學習 (AutoML)	縮短從想法到模型上線的時間。

解題關鍵：No-Code 的關鍵字永遠是「降低入門門檻」、「可視化（Visualization）」與「非技術人員參與」。

Question 34

34. 某醫療機構計畫導入生成式 AI 協助撰寫病歷摘要。在技術測試階段，為確保系統能安全應用於臨床，最應優先關注下列哪一項指標？

(A) 資料儲存與存取架構的完整性，確保長期運作過程中的數據可追溯性；
(B) 生成內容的醫療準確性與臨床一致性，避免出現錯誤或誤導性資訊；
(C) 模型在不同病例語境下的泛化能力，確保不因個別樣本而偏差；
(D) 系統回應時間的穩定性，以支援醫療場域中可能的即時需求

看解答

Answer

正確答案是 (B) 生成內容的醫療準確性與臨床一致性，避免出現錯誤或誤導性資訊。

這題考驗的是在高風險領域（醫療、生命安全）應用 AI 時的核心價值順序。在臨床實務中，「安全性」與「不傷害（Do No Harm）」永遠是第一優先考量。

(B) 為最應優先關注的指標：

幻覺與誤導風險：生成式 AI 最大的技術缺陷在於可能產生「幻覺（Hallucination）」，即編造不存在的病徵或數據。在病歷摘要中，若模型誤植了藥物劑量、過敏史或診斷結果，將直接導致醫療錯誤，危害患者生命。

臨床一致性：摘要必須與原始病歷事實完全相符（Factuality）。在技術測試階段，若無法確保生成的內容百分之百準確，該系統就無法安全地進入臨床應用。

(A) 錯誤：

這屬於「系統架構與合規（Audit Trail）」層面。雖然對於長期運作和法遵很重要，但若生成的內容本身是錯的，架構再完整也無法保證臨床安全。

(C) 錯誤：

「泛化能力（Generalization）」是指模型處理少見病例的能力。這固然重要，但對於醫療機構而言，優先確保「目前處理的這份摘要是正確的」比「未來能否處理各種奇特病例」更為急迫且關鍵。

(D) 錯誤：

這屬於「效能與可用性（Availability）」。在醫療場域，除非是急診即時監測系統，否則對於撰寫病歷摘要這類任務，準確性（Accuracy）的權重遠高於回應速度（Latency）。

醫療 AI 的評估權重分配

評估維度	關鍵關注點	優先順序
準確性 (Accuracy) (B)	內容是否與事實相符、有無幻覺。	第 1 優先 (安全核心)
隱私與合規 (Privacy/Compliance)	個資去識別化、存取權限。	第 2 優先 (法律底線)
穩定性與泛化 (C, D)	系統不當機、不同科別通用。	第 3 優先 (維運效能)

解題關鍵：在任何涉及「生命安全」的 AI 題目中，「準確性」與「避免錯誤資訊」永遠是技術測試階段的最高優先級。

Question 35

35. 在即時客服系統的效能測試中，若針對延遲測試（Latency Testing）進行評估，下列哪一項指標最能反映系統是否符合用戶即時互動需求？

(A) AI 模型在同一分鐘內可完成的回覆訊息數量；
(B) 客戶從輸入問題到收到第一個完整回應所需的時間；
(C) 客服系統能連續提供服務的運行時長；
(D) AI 產生回答時用詞的多樣性與表達創意程度

看解答

Answer

正確答案是 (B) 客戶從輸入問題到收到第一個完整回應所需的時間。

這題考驗的是對延遲測試（Latency Testing）關鍵指標的理解。在即時客服場景中，用戶的體驗直接取決於「等待感」。

(B) 為正確答案：

定義：這項指標通常被稱為「端到端延遲（End-to-End Latency）」或「首字響應時間（Time to First Token, TTFT）」的延伸。

用戶體驗：在即時對話中，用戶最在意的是發出訊息後多久能看到結果。如果這個時間過長（例如超過 3~5 秒），用戶就會感到焦慮或認為系統當機。因此，這是衡量「即時互動需求」最直接、最重要的指標。

(A) 錯誤：

這屬於「吞吐量（Throughput）」指標。它反映的是系統的處理能力上限（容量），而不是單一用戶感受到的速度（延遲）。

(C) 錯誤：

這屬於「可用性（Availability）」或「穩定性（Stability）」指標。它衡量系統會不會當機，與回覆速度（延遲）無關。

(D) 錯誤：

這屬於「品質（Quality）」或「多樣性（Diversity）」指標。這與系統效能（效能測試）無關，而是模型生成策略（如 Temperature）的評估。

AI 效能測試常見指標對照表

指標名稱	描述	衡量重點
延遲 (Latency) (B)	從請求發出到收到回應的時間。	用戶端等待的「快慢」。
吞吐量 (Throughput) (A)	單位時間內能處理的總請求數。	系統端承載的「多少」。
首字時間 (TTFT)	從請求到模型吐出第一個字的時間。	互動的即時感（流式傳輸）。
可用性 (Availability) (C)	系統正常運行的百分比（如 99.9%）。	系統服務的「穩定」。

解題關鍵：評估「即時互動」時，重點永遠在於「時間（Time）」與「等待感」，即從輸入到輸出的反應速度。

Question 36

36. 某航空公司導入生成式 AI 聲控客服，提供航班與票務查詢。有人員透過惡意提示，試圖讓系統洩漏內部安檢流程。在此情境中，下列何者為降低提示攻擊（Prompt Injection）風險的最佳策略？

(A) 導入輸入檢測與回應審核流程，防止敏感指令被執行；
(B) 限制 AI 可回應的主題範圍，使系統僅回答非敏感的航班與票務查詢，避免處理內部或敏感流程資訊；
(C) 隨機變化回覆內容，讓攻擊者難以預測回應行為以增加攻擊難度；
(D) 擴充與更新航班與票務資料來源，以提升模型的知識正確性與覆蓋率

看解答

Answer

正確答案是 (B) 限制 AI 可回應的主題範圍，使系統僅回答非敏感的航班與票務查詢，避免處理內部或敏感流程資訊。

這題考驗的是對提示注入攻擊（Prompt Injection）防禦策略的理解。這類攻擊的核心在於利用惡意提示詞繞過系統原有的指令，迫使模型執行非預期或敏感的操作。

(B) 為最佳策略：

最小特權原則（Principle of Least Privilege）：這是資訊安全的核心概念。透過「角色定義（System Role/Persona Prompting）」與「範疇限制（Guardrails）」，明確規定模型只能處理「航班與票務」。

阻斷攻擊路徑：當系統被限制在極小的知識與操作範疇內時，即便攻擊者試圖引導模型討論「安檢流程」，模型也會因為該主題不在其「允許回應範圍」內而拒絕回答。這是防止模型偏離任務目標、洩漏無關敏感資訊的最根本手段。

(A) 錯誤：

雖然「輸入檢測」是常見的防禦手段，但提示攻擊的變體極多（例如：角色扮演、催眠、語義混淆），過濾器（Filters）往往難以窮舉所有的惡意指令。相較於 (B) 直接從「邏輯範疇」切斷，(A) 屬於較被動的層次。

(C) 錯誤：

隨機變化內容對「提示注入」幾乎沒有防禦作用。攻擊者的目標是獲取特定資訊（如安檢流程），內容的隨機性反而可能在不經意間暴露出更多不同的內部訊息。

(D) 錯誤：

這屬於提升「知識庫質量」，與「安全性」無關。擴充資料來源反而可能讓模型接觸到更多原本不應對外公開的資訊，若未搭配 (B) 的範疇限制，反而可能增加風險。

提示攻擊 (Prompt Injection) 的三道防線

防線層級	技術手段	效果
邏輯層 (B)	定義系統邊界 (Guardrails)	最強：讓模型知道「哪些絕對不能說」。
過濾層 (A)	輸入與輸出內容偵測 (DLP)	中：攔截已知的敏感關鍵字或模式。
隔離層	採用 RAG（檢索增強生成）	強：限制模型僅能從公開資料中查找，不讀取內部資料。

解題關鍵：對付「越權存取」或「主題偏離」，最有效的策略永遠是「限縮模型的回應範疇（Scope Limitation）」。

Question 37

37. 在機器學習模型的實務應用中，常會出現數據漂移（Data Drift）的情況。此現象主要是指下列哪一種情況？

(A) 訓練時使用的資料分佈，與部署後實際輸入資料的統計特徵隨時間逐漸出現差異，導致模型表現衰退；
(B) 在資料前處理過程中，因特徵刪減或缺失補值不當，造成樣本資訊量下降；
(C) 模型對訓練數據擬合過度，在未知數據上泛化能力不足；
(D) 後端資料庫因欄位定義或結構調整，導致特徵提取流程與原始設計不一致

看解答

Answer

正確答案是 (A) 訓練時使用的資料分佈，與部署後實際輸入資料的統計特徵隨時間逐漸出現差異，導致模型表現衰退。

這題考驗的是對機器學習維運（MLOps）中核心挑戰——數據漂移（Data Drift）的理解。

(A) 為正確答案：

定義：數據漂移是指模型的輸入數據（Input Data）隨時間發生了變化。由於模型是基於「過去」的數據分佈訓練出來的，當「現在」的實際數據統計特徵（如平均值、標準差、類別比例）與訓練集不一致時，模型原有的預測邏輯就會失效，進而導致精確度下降。

常見例子：

消費者行為改變：例如疫情發生後，民眾的購物習慣從線下轉向線上，原本預測實體店面銷量的模型會因數據分佈改變而失準。

環境因素變動：感測器因老化導致讀數偏移，或季節交替影響了用電量數據分佈。

(B) 錯誤：

這描述的是資料預處理（Preprocessing）階段的品質問題或資訊損失，並非指時間維度上的分佈偏移。

(C) 錯誤：

這描述的是過擬合（Overfitting）。過擬合是在訓練階段發生的問題（背答案而非理解邏輯），而數據漂移是部署後的環境變化問題。

(D) 錯誤：

這屬於系統架構或資料工程（Data Engineering）的錯誤，通常稱為「Schema 變更」或「Pipeline 損壞」，雖然會影響模型，但不屬於數據分佈變化的統計學定義。

漂移（Drift）的兩大類型比較

類型	影響對象	描述
數據漂移 (Data Drift) (A)	輸入特徵 (X)	使用者輸入的內容、環境特徵發生了變化。
概念漂移 (Concept Drift)	目標變數 (Y) 與 X 的關係	即使輸入沒變，但「定義」或「因果關係」變了（例如：通膨導致原本「高薪」的數值現在變成「中產」）。

解題關鍵：「數據漂移」的核心特徵是「訓練 vs. 實際輸入」之間的「統計分佈差異」以及隨之而來的「模型衰退」。

Question 38

38. 某銀行導入生成式 AI 放貸審核系統，用於分析申貸人條件並生成初步審核意見。測試過程中發現，模型對不同族群的核准率存在顯著差異，可能引發演算法偏見問題。為降低此風險，下列哪一項措施最合適？

(A) 提升模型運算速度與效能，以確保在大量申請中快速回應；
(B) 全面移除與申貸人身份相關的敏感屬性，避免模型因變數影響而產生偏差；
(C) 導入資料與結果的公平性檢測流程，並依合規規範調整模型或決策邏輯；
(D) 減少訓練樣本數量，降低偏見被放大的可能性

看解答

Answer

正確答案是 (C) 導入資料與結果的公平性檢測流程，並依合規規範調整模型或決策邏輯。

這題考驗的是對 AI 倫理與演算法公平性（Algorithmic Fairness）的理解。在金融放貸等涉及權益分配的敏感領域，防止歧視是合規的核心。

(C) 為最合適措施：

主動監測：公平性檢測（Fairness Auditing）能透過統計指標（如：差異性衝擊 Disparate Impact）量化偏見程度。

合規調整：發現偏差後，必須根據金融合規規範（如台灣的「金融業運用 AI 指引」或國際法規）回頭調整訓練數據、加權邏輯或決策閾值，這是從流程面解決偏見問題的標準做法。

(B) 錯誤：

代理變數風險（Proxy Variables）：僅移除「性別、族群」等敏感屬性通常無法解決偏見。因為模型可能透過其他欄位（如：居住地郵遞區號、消費習慣、學歷）推論出隱藏的族群特徵，進而產生「隱形歧視」。這種做法被稱為「盲目公平」，在實務上效果有限。

(A) 錯誤：

效能與速度屬於「維運指標」，與「公平性或倫理風險」無關。跑得更快的模型只會更快地產生偏見。

(D) 錯誤：

減少樣本通常會導致模型精確度下降，且樣本不足反而可能讓既有的少數族群特徵被誤讀或忽視，導致偏見更加嚴重。增加「多樣化且平衡」的樣本才是正確方向。

AI 公平性管理架構

策略維度	實施方法	目的
數據端	重新取樣或數據增廣。	確保訓練集中各族群比例均衡。
模型端 (C)	公平性約束演算法。	在訓練過程中加入公平性損失函數。
結果端 (C)	事後統計檢測與調整。	確保不同族群的核准率（Acceptance Rate）符合合規比例。

解題關鍵：解決「演算法偏見（Bias）」的標準應對策略是執行「公平性檢測（Fairness Testing）」並進行「合規邏輯調整」。

Question 39

39. 在提示工程（Prompt Engineering）的應用中，Chain-of-Thought（CoT）與 Tree of Thoughts（ToT）各適用於不同的推理情境，請問以下兩個情境，分別最適合採用哪一種方法？
情境一：電商公司開發客服助理，用來協助客戶查詢退款流程與相關規範
情境二：活動策劃團隊使用 AI 協助規劃多場跨部門行銷活動，需要同時考量預算、場地、時程與人力資源，並比較不同方案的可行性。

(A) 情境一採用 CoT，情境二採用 ToT；
(B) 情境一採用 ToT，情境二採用 CoT；
(C) 情境一與情境二都適合 CoT；
(D) 情境一與情境二都適合 ToT

看解答

Answer

正確答案是 (A) 情境一採用 CoT，情境二採用 ToT。

這題考驗的是對兩種進階提示策略 —— 鏈狀思考（Chain-of-Thought, CoT）與思維樹（Tree of Thoughts, ToT）適用場景的深度理解。

情境一：採用 CoT（Chain-of-Thought）

任務特性：查詢退款流程屬於「線性邏輯」。模型只需要按照步驟（第一步確認訂單、第二步填寫表格、第三步等待審核）逐步推導即可得出結論。

CoT 的優勢：透過「請逐步思考」的指令，引導模型將複雜問題分解為連續的邏輯步驟，非常適合這類有固定流程、因果關係明確的任務。

情境二：採用 ToT（Tree of Thoughts）

任務特性：策劃跨部門活動涉及「多路徑決策」與「優化求解」。需要同時考量預算、場地等多個限制變數，且存在多種可能的方案。

ToT 的優勢： ToT 允許模型在每個決策點產生多個「想法」（思維分支），並對這些分支進行評估、回溯（Backtracking）或比較。這就像是在腦中畫出一棵決策樹，探索不同的可能性並選擇最佳路徑，最適合需要「方案比較」與「複雜多維度規劃」的情境。

CoT vs. ToT 技術特點對照表

比較維度	Chain-of-Thought (CoT)	Tree of Thoughts (ToT)
思考路徑	單一、線性的路徑。	多重、分叉的樹狀結構。
核心機制	逐步推理 (Step-by-step)。	產生多個想法 $\rightarrow$ 評估 $\rightarrow$ 搜索。
適用場景	簡單數學題、標準作業流程 (SOP)。	創意寫作、複雜規劃、數獨、策略開發。
複雜度	較低，單次推論即可完成。	較高，通常需要多次推論與評估。

解題關鍵：
CoT 像是一條「直線」，帶你從起點走到終點（適合 SOP 流程）。
ToT 像是一棵「樹」，在每個路口探索不同方向並挑選最好的（適合方案比較與多變數規劃）。

Question 40

40. 在生成式 AI 的提示工程中，Graph Prompting 在處理複雜關係資料時，為何通常比 Chain-of-Thought（CoT）更有效？

(A) Graph Prompting 幾乎不需要推理，只依靠圖結構即可得出結論；
(B) Graph Prompting 僅需單次提示，即可避免多輪推理的誤差累積；
(C) Graph Prompting 的生成速度通常更快，因此效率更高；
(D) Graph Prompting 能捕捉非線性結構與上下文關聯，適合處理網絡化資訊

看解答

Answer

正確答案是 (D) Graph Prompting 能捕捉非線性結構與上下文關聯，適合處理網絡化資訊。

這題考驗的是對於進階提示架構在處理不同「資訊結構」時的辨析能力。

(D) 為正確答案：
結構上的差異： Chain-of-Thought (CoT) 本質上是「線性」的，它擅長處理「因為 A $\rightarrow$ 所以 B $\rightarrow$ 所以 C」這種具備前後因果關係的任務。
捕捉複雜性：然而，許多現實世界的問題（如社交網路、知識圖譜、生物分子結構或法律關係）是「非線性」的網絡結構。Graph Prompting 透過將實體（Entity）設為節點、關係（Relation）設為邊，能有效引導模型理解多對多的複雜關聯。
上下文關聯：它能讓模型同時考量多個維度的交叉影響，而不僅僅是單一條線的邏輯，因此在處理「網絡化」資訊時，比 CoT 更能精準還原真實世界的複雜邏輯。

(A) 錯誤：Graph Prompting 仍然需要模型進行高度的推理。圖結構只是提供了一種更適合該任務的「導引架構」，而非取代推理過程。

(B) 錯誤：Graph Prompting 往往比 CoT 更複雜。在某些實作中（例如需要檢索知識圖譜），它可能涉及多步驟的節點探索與聚合，並不一定能「避免誤差累積」，重點在於它處理的是不同維度的資訊。

(C) 錯誤：由於 Graph Prompting 需要處理節點與邊的複雜拓樸關係，其 Token 消耗與運算複雜度通常比線性的 CoT 更高，因此生成速度通常較慢，而非更快。

推理策略與資訊結構對應表

提示策略	資訊結構	隱喻	最佳應用範例
CoT	線性 (Linear)	一條線	數學計算、SOP 流程說明。
ToT	階層/樹狀 (Hierarchical)	一棵樹	方案擇優、多路徑決策規劃。
Graph Prompting	網狀 (Networked)	一張網	人物關係圖分析、供應鏈關聯、知識圖譜推理。

解題關鍵：看到「Graph」就要聯想到「非線性（Non-linear）」、「關聯性（Relationships）」與「網狀結構（Network）」。

Question 41

41. 在少樣本提示（Few-shot Prompting）僅能提供 1–2 個範例的情況下，若遇到領域偏移（Domain Shift），下列何者為模型最可能面臨的核心挑戰？

(A) 範例數量過少，無法涵蓋新領域的多樣性，導致模型泛化不足；
(B) 範例表徵有限，模型容易依賴單一樣本特性而降低適應力；
(C) 範例覆蓋不足，使模型難以抽取跨領域的穩定模式；
(D) 範例資訊過於稀缺，模型缺乏應對不同輸入情境的能力

看解答

Answer

正確答案是 (C) 範例覆蓋不足，使模型難以抽取跨領域的穩定模式。

這題考驗的是對於少樣本學習（Few-shot Learning）在面對領域偏移（Domain Shift）時的深層限制。

(C) 為最核心的挑戰：

領域偏移的本質：所謂「領域偏移」，是指測試數據的分布（如專業術語、語境、邏輯結構）與提示詞中所提供的範例分布不一致。

穩定模式的缺失：當僅能提供 1–2 個範例時，模型接收到的「特徵信號」極其微弱。在原本熟悉的領域，模型可以依靠預訓練的強大記憶來補足；但在新領域（Domain Shift），這 1–2 個範例不足以讓模型識別出該領域的「不變特徵（Invariant Features）」或「穩定邏輯模式」，導致模型無法將範例中的邏輯正確遷移到新任務中。

(A) 錯誤：

這描述的是一般的「泛化（Generalization）」問題。雖然範例少會導致泛化不足，但在領域偏移的情境下，問題不在於「涵蓋多樣性」，而在於範例與目標領域之間的「邏輯斷層」。

(B) 錯誤：

「依賴單一樣本特性」較傾向於描述「過擬合（Overfitting）」於特定範例，這會導致風格僵化，但不一定是處理領域偏移時最根本的「模式抽取」失敗問題。

(D) 錯誤：

「資訊稀缺」與「缺乏應對能力」的表述較為籠統，未能精確切中領域偏移中關於「特徵分布改變」與「模式對齊」的技術核心。

少樣本提示 (Few-shot) 的局限性分析

現象	影響	核心困難點
樣本稀缺 (1-2個)	資訊增益低。	無法提供足夠的統計顯著性。
領域偏移 (Domain Shift)	範例與任務語境不符。	模型無法建立範例與新領域間的正確映射。
綜合影響 (C)	推理邏輯崩塌。	模型難以從有限範例中「抽取出」適用於新領域的通用規則。

解題關鍵：面對「領域偏移」，模型最需要的是找到不同領域間的「共同模式」。當範例極少時，這種「穩定模式的抽取」就會變得極其困難。

Question 42

42. 某金融機構導入檢索增強生成（Retrieval-Augmented Generation,RAG）模型，用於客服文件查詢與自動回覆。由於大型模型運算成本過高，若考慮引入知識蒸餾（Knowledge Distillation, KD）技術，下列何者為帶來的主要效益？

(A) 讓小型模型學習大型模型的知識，在降低運算成本的同時維持檢索與生成品質；
(B) 只能應用於語音或影像辨識，無法提升文字檢索生成效能；
(C) 因為 RAG 已有檢索機制，因此無需額外蒸餾知識；
(D) 僅能依賴特定 API 供應商才能使用，無法在自建模型中實現

看解答

Answer

正確答案是 (A) 讓小型模型學習大型模型的知識，在降低運算成本的同時維持檢索與生成品質。

這題考驗的是對知識蒸餾（Knowledge Distillation, KD）技術核心原理及其在企業應用中價值的理解。

(A) 為正確答案：

核心原理：知識蒸餾是一種模型壓縮技術。它讓一個較小、較輕量化的模型（稱為學生模型 Student）去模仿一個預訓練好的、體積龐大且準確度高的模型（稱為教師模型 Teacher）的輸出行為。

主要效益：

降低成本：學生模型參數較少，推論速度快且消耗顯存低，能大幅減少伺服器開銷。

品質維持：透過學習教師模型的「軟標籤（Soft Labels）」，學生模型能學到比單純從原始數據中更豐富的特徵與邏輯，使得效能遠優於直接訓練的小模型。

RAG 場景下的應用：在金融客服中，可以用大型 LLM（如 GPT-4 或大型 Llama）作為老師，蒸餾出一個專門處理金融文件、性能接近但運行極快的小模型（如 7B 以下的模型），完美兼顧效能與成本。

(B) 錯誤：

知識蒸餾是機器學習的通用技術。它最早雖然在電腦視覺（CV）領域廣為人知，但在自然語言處理（NLP）領域（如 DistilBERT, TinyBERT）同樣極為成熟且常用。

(C) 錯誤：

誤解技術關係： RAG 解決的是「知識即時性與幻覺」問題（外掛知識庫）；知識蒸餾解決的是「運算效率與成本」問題（引擎輕量化）。兩者可以並行不悖：一個輕量化的「蒸餾模型」依然可以搭配 RAG 框架來讀取外部文件。

(D) 錯誤：

知識蒸餾完全可以在私有化部署（On-premise）或自建模型中實現。事實上，許多企業為了擺脫對昂貴 API 的依賴，會選擇用大型 API 模型當老師，蒸餾出屬於自己的私有小模型。

知識蒸餾 (Knowledge Distillation) 的師生架構

角色	特點	作用
教師模型 (Teacher)	體積大、精度高、算力消耗大。	提供高品質的預測結果與邏輯。
學生模型 (Student)	體積小、推論快、算力消耗低。	模仿老師的輸出，追求「小而強」。
蒸餾過程	學習「機率分佈」而非僅是正確答案。	讓學生模型掌握老師的「思考細節」。

解題關鍵：看到「知識蒸餾」，關鍵字就是「大教小」、「模型壓縮」、「降低成本」與「維持品質」。

Question 43

43. 在評估大型語言模型，例如 7B、13B、175B 參數規模時，模型規模對基準測試（Benchmark）結果的影響，下列哪一種說法最為恰當？

(A) 小模型在正確調整下能超越大模型，因此模型大小並不重要；
(B) 大模型在多數情境下表現較好，但在特定任務上略遜於小模型；
(C) 模型規模與基準測試結果完全無關，影響主要來自測試設計；
(D) 模型越大，Benchmark 結果可能提升，但幅度取決於訓練數據品質與資源配置

看解答

Answer

正確答案是 (D) 模型越大，Benchmark 結果可能提升，但幅度取決於訓練數據品質與資源配置。

這題考驗的是對於模型擴展定律（Scaling Laws）與影響模型表現因素的綜合理解。

(D) 為最恰當的說法：

規模效應（Scaling Effect）：根據研究，增加模型參數（從 7B 到 175B）通常能提升模型處理複雜邏輯、知識儲存與湧現能力（Emergent Abilities），進而在基準測試（如 MMLU、GSM8K）中取得更高分。

非唯一變數：雖然「大」通常更好，但並非絕對。訓練數據的品質（Data Quality）、使用的 Token 數量（Compute-Optimal）以及訓練策略（如資源配置與對齊技術）會極大程度影響最終表現。例如，一個經過高品質數據訓練的 70B 模型，表現完全可能超越一個訓練不足或數據充滿雜訊的 175B 模型。

(A) 錯誤：

雖然微調（Fine-tuning）能讓小模型在「特定、單一」任務中表現亮眼，但在衡量通用能力的「基準測試」中，小模型受限於參數容量，很難在所有維度上全面超越結構領先的大模型。模型大小依然是決定能力上限的核心因素。

(B) 錯誤：

這個敘述過於籠統且存在誤導。在「多數情境」下大模型表現較好是事實，但說大模型「在特定任務上略遜於小模型」並非普遍規律。除非小模型是針對該特定任務進行了深度專業化微調（Domain-specific），否則在大數據集的基準測試下，大模型通常具有壓倒性優勢。

(C) 錯誤：

模型規模與測試結果具備強相關性（Log-linear relationship）。雖然測試設計（如 Prompt 的選擇）會影響分數，但模型規模帶來的能力差異是本質上的。

模型規模 vs. 表現的關鍵維度

維度	小模型 (如 7B/8B)	大模型 (如 175B+)	影響因素
通用知識	較有限，易產生幻覺。	博學，能處理跨領域問題。	參數規模 (Capacity)
推理能力	基礎邏輯尚可，多步推理弱。	強大，具備複雜邏輯推演。	訓練數據量及模型深度
部署成本	低，可單機運行。	極高，需大量 GPU 集群。	硬體資源配置
邊際效益	增長明顯。	增長隨規模擴大而放緩。	資源配置效率

解題關鍵：「規模（Scale）」是效能的基石，但「數據品質（Quality）」與「訓練資源（Resources）」決定了規模能否轉化為真正的 Benchmark 優勢。

Question 44

44. 在 AI 應用設計中，Model Context Protocol（MCP）與檢索增強生成（RAG）都能擴展模型的能力，但兩者的核心差異主要為下列何者？

(A) MCP 擴展模型工具，但主要用於補足訓練資料不足；
(B) MCP 能標準化連接資源，但仍需依賴向量資料庫；
(C) RAG 常用於擴展知識庫內容，而 MCP 更著重於動態工具與 API 呼叫的整合；
(D) RAG 透過統一協議，提升回答相關性

看解答

Answer

正確答案是 (C) RAG 常用於擴展知識庫內容，而 MCP 更著重於動態工具與 API 呼叫的整合。

這題考驗的是對 Model Context Protocol (MCP) 與 Retrieval-Augmented Generation (RAG) 這兩項擴展 AI 能力技術的本質區別。

RAG (檢索增強生成)：專注於「知識」

核心功能： RAG 的目的是讓模型能夠存取其訓練資料之外的「靜態」或「私有」知識。

運作方式：當用戶提問時，系統先從向量資料庫中檢索相關的文件片段（如 PDF、公司規章、產品手冊），再將這些片段餵給 AI 進行彙整生成。

類比：就像是給 AI 一本參考書，讓它邊翻書邊回答問題。

MCP (模型上下文協定)：專注於「行動與連結」

核心功能： MCP 是由 Anthropic 等公司推動的開放標準，旨在解決 AI 難以與各種資料源（如 GitHub、Google Drive、Slack、本地資料庫）直接溝通的問題。

運作方式：它提供一個統一的通訊協定，讓 AI 能透過伺服器動態地呼叫 API、讀取實時數據或執行特定工具，而不需要為每個資料來源寫死一套連接程式。

類比：就像是給 AI 一組「萬用插頭」與「遙控器」，讓它能直接操作不同的機器或讀取儀表板。

選項辨析：

(A) 錯誤： MCP 的目的不是補足訓練資料不足（那是 RAG 或微調的工作），而是提供標準化的介面來使用工具。

(B) 錯誤： MCP 的優點正是「去中心化」，它不需要將所有資料都存進向量資料庫，而是可以直接讀取原始資料源。

(D) 錯誤：敘述顛倒，透過統一協議（Protocol）來整合資源的是 MCP，而非 RAG。

MCP vs. RAG 核心差異對照表

維度	檢索增強生成 (RAG)	模型上下文協定 (MCP)
主要目的	擴展模型的「知識邊界」。	擴展模型的「工具與連結能力」。
處理數據類型	大多為非結構化的靜態文檔。	多樣化的動態資料、API 與系統工具。
核心組件	向量資料庫 (Vector DB)、Embedding。	MCP 伺服器 (Server) 與客戶端 (Client)。
主要場景	企業知識庫、法規查詢、病歷摘要。	開發工具整合、即時數據調用、自動化流程。

解題關鍵：看到 RAG 關鍵字是「知識/文件」；看到 MCP 關鍵字是「統一協議/API/工具整合」。

Question 45

45. 下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中，涵蓋人文、科學與社會科學等領域，而非專門用於數學推理或中文專業知識？

(A) MMLU；
(B) GSM8K；
(C) MATH；
(D) C-Eval

看解答

Answer

正確答案是 (A) MMLU。

這題考驗的是對於常見大型語言模型基準測試（Benchmark）及其評估範疇的辨析能力。

(A) MMLU (Massive Multitask Language Understanding) 為正確答案：

設計目標：這是目前衡量 LLM 綜合知識能力最具代表性的指標。

涵蓋範疇：包含 57 個主題，廣泛覆蓋了人文、科學、社會科學、STEM（科學、技術、工程、數學）以及其他專業領域。

測驗性質：它是為了測試模型在廣泛知識背景下的「多任務理解能力」，而非單一學科的深度推理。

(B) GSM8K (Grade School Math 8K) 錯誤：

專門用途：這是由 OpenAI 發布的資料集，專門用於測試模型在「小學程度」數學應用題上的推理能力。

(C) MATH 錯誤：

專門用途：這是針對「競賽等級」難度的數學問題集，包含代數、微積分等高難度數學推理。

(D) C-Eval 錯誤：

專門用途：雖然它也是多領域綜合測試，但它的核心特點在於「中文專業知識」（涵蓋了中國公務員考試、醫師執照等中文語境考題）。題目中明確排除「專門用於中文專業知識」，故不選。

常見基準測試對照表

基準測試名稱	評估核心重點	語言環境
MMLU (A)	多領域綜合知識（人文、社科、科學等）	英文為主
GSM8K (B)	基礎數學多步推理（小學程度）	英文
MATH (C)	高階數學推理（高中、大學競賽程度）	英文
C-Eval (D)	中文語境下的多學科專業知識	中文

解題關鍵：看到「多領域、多任務」且涵蓋「人文、社會科學」等關鍵字，首選指標即為 MMLU。

Question 46

46. 某智慧工廠導入生成式 AI，協助產線工程師即時產生維修指引與操作建議。下列哪一項並非團隊在系統設計中加入 Guardrails（防護機制）的主要目的？

(A) 檢查工程師輸入內容，避免觸發錯誤或危險需求；
(B) 過濾與驗證 AI 輸出的維修指引，確保符合安全標準；
(C) 確保生成的操作建議符合法規與產業安全規範；
(D) 完整重建並追蹤 AI 模型的全部推理過程

看解答

Answer

正確答案是 (D) 完整重建並追蹤 AI 模型的全部推理過程。

這題考驗的是對於 Guardrails（防護機制）在 AI 系統設計中核心功能的理解。

(D) 為正確答案（並非主要目的）：

定義：「完整重建並追蹤推理過程」通常屬於可解釋性 AI（Explainable AI, XAI）或模型可追溯性（Traceability/Logging）的範疇。

區別： Guardrails 的核心任務是「攔截」與「過濾」不當資訊，而不是記錄模型「為什麼」會這樣想。雖然追蹤過程對除錯很重要，但它不是防護機制（Guardrails）的主要定義功能。

(A) 屬於主要目的（輸入過濾）：

Input Guardrails：檢查使用者的 Prompt，避免「提示注入攻擊」或輸入了違反安全操作的非法指令。

(B) 屬於主要目的（輸出過濾）：

Output Guardrails：在回覆傳遞給工程師前進行檢查。在工廠環境中，若 AI 產出的指引包含危險動作（如：未斷電即維修），防護機制必須能偵測並阻斷該內容輸出。

(C) 屬於主要目的（合規性）：

領域約束：確保 AI 不會給出違反勞基法、工安法規或 ISO 產業標準的建議，這是智慧工廠應用中極為關鍵的合規防線。

AI Guardrails 的核心功能模型

防護方向	具體行動	目的
輸入端 (Input)	偵測敏感詞、惡意代碼、非任務指令。	防止模型被誤導或攻擊。
處理中 (Processing)	檢索內容校驗（RAG Check）。	確保模型參考的是正確的維修手冊。
輸出端 (Output)	幻覺偵測、事實核查、安全性檢查。	確保使用者收到的資訊是安全且正確的。

解題關鍵：Guardrails 的作用像是「護欄」，重點在於「安全（Safety）」與「合規（Compliance）」。而「追蹤推理過程」則像是「黑盒子記錄器」，屬於審計與分析範疇。

Question 47

47. 某顧問公司導入生成式 AI，協助團隊快速檢索並摘要長篇的法規文件。為了改善檢索結果常出現不相關或過於分散內容的問題，下列何者為團隊決定對文件進行文本切分（Chunking）的主要目的？

(A) 讓模型在回答時能加快推理速度；
(B) 提高檢索相關性與降低長上下文噪音；
(C) 降低系統記憶體和硬體資源的負擔；
(D) 使模型在生成回覆時更具創造性與多樣化

看解答

Answer

正確答案是 (B) 提高檢索相關性與降低長上下文噪音。

這題考驗的是檢索增強生成（RAG）流程中，文本切分（Chunking）策略對檢索品質的關鍵影響。

(B) 為主要目的：

提高相關性：長篇法規文件（如數百頁的法條）通常包含多個主題。如果不切分而直接檢索，模型很難定位到具體的某個法條。將文件切分為適當大小的區塊（Chunks），能確保檢索系統（如向量資料庫）精確找到與問題最相關的段落。

降低噪音：若將整份文件或過長的片段餵給模型，其中包含大量無關的文字（噪音），會干擾模型提取關鍵資訊，甚至導致模型忽略真正的答案。精準的切分能讓模型只處理「乾淨且高度相關」的內容。

(A) 錯誤：

切分文本主要是為了優化「檢索品質」。雖然處理較短的文本區塊可能略微減少模型的 Token 處理量，但這並非切分的首要技術目的。

(C) 錯誤：

這屬於系統架構優化的範疇。切分雖然能減少單次輸入的 Token 數，但切分後的索引管理反而會增加向量資料庫的存儲負擔，因此並非為了降低「硬體資源負擔」。

(D) 錯誤：

切分是為了讓 AI 回答得更「準確」且「有根據（Fact-based）」，這與「創造性」或「多樣化」是相反的目標。

RAG 流程中的文本切分 (Chunking)

切分策略	描述	優點
長度切分	固定字數（如每 500 字一塊）。	實作簡單，適合結構不明顯的文檔。
語意切分	根據段落、標題或法律條號切分。	最適合法規文件，能保持邏輯完整性。
重疊切分 (Overlap)	相鄰區塊保留一部分重複內容。	防止關鍵資訊在切分點被切斷，確保上下文銜接。

解題關鍵：在 RAG 中，「切分」的核心價值始終圍繞著「檢索精準度」與「上下文品質」。

Question 48

48. 某開發團隊在建置企業內部知識檢索系統時，選擇採用多向量檢索器（Multi-vector Retriever），下列何者為協助提升系統查詢的完整性與精準度的主要方式？

(A) 支援同時處理多種資訊表示，提升跨文本型態的檢索效果；
(B) 透過多向量壓縮與共享權重方式，降低檢索過程的運算與儲存成本；
(C) 以切分並過濾文件片段，減少上下文長度帶來的 Token 負擔；
(D) 透過調整生成階段的溫度參數，使模型在回覆時更穩定一致

看解答

Answer

正確答案是 (A) 支援同時處理多種資訊表示，提升跨文本型態的檢索效果。

這題考驗的是對於多向量檢索器（Multi-vector Retriever）在技術實務中如何優化檢索增強生成（RAG）品質的理解。

(A) 為主要方式：

核心原理：傳統的檢索器通常將一個文本區塊（Chunk）轉換為單一的向量（Vector）。然而，多向量檢索器允許針對同一份文件儲存多個不同的向量表示。

提升完整性與精準度：它可以為同一份文檔建立不同的「視角」，例如：

摘要向量：捕捉文件的核心大意。

假設性問題向量：預測使用者可能會問的問題，並以此進行匹配。

原始片段向量：保留細節資訊。

跨型態優勢：這種方式特別擅長處理非單一純文字的內容。例如，在處理包含圖表、表格或複雜結構的企業文件時，能透過不同的向量表徵，讓系統無論面對模糊的摘要查詢還是具體的細節查詢，都能精準命中目標。

(B) 錯誤：

多向量檢索器因為儲存了更多的向量數據，通常會增加儲存成本與檢索負擔，而非降低成本。降低成本通常是透過「向量壓縮（Vector Quantization）」或「知識蒸餾」來達成。

(C) 錯誤：

這描述的是一般的文本切分（Chunking）策略，而非多向量檢索器特有的機制。雖然兩者常搭配使用，但多向量檢索器的重點在於「一對多」的向量映射，而不是單純減少 Token 負擔。

(D) 錯誤：

調整溫度參數（Temperature）屬於生成階段（Generation）的控制，而多向量檢索器作用於檢索階段（Retrieval），兩者位於 RAG 流程的不同階段。

傳統檢索 vs. 多向量檢索比較

特性	傳統檢索 (Standard)	多向量檢索 (Multi-vector)
映射關係	一個區塊 $\rightarrow$ 一個向量	一個區塊 $\rightarrow$ 多個不同用途的向量
檢索精準度	受限於單一特徵提取	高，能從多維度（摘要、問題、內容）匹配
適用場景	結構簡單的純文字	複雜文件、跨文本型態、多樣化查詢需求
系統負擔	較低	較高（需管理更多向量索引）

解題關鍵：「多向量（Multi-vector）」的技術優勢在於提供「多種資訊表示」，從而解決單一向量無法完整捕捉文件複雜特徵的問題。

Question 49

49. 在 Agentic AI 的架構中，解決方案圖譜（Solution Graph）常被用來輔助代理的任務執行，其主要作用為何？

(A) 透過圖形結構完全取代大型語言模型的推理，讓代理只依靠圖演算法完成任務；
(B) 僅用於保存代理的輸出結果，方便後續檢視與審計，而不影響實際推理流程；
(C) 將代理限制在既定流程內，避免其產生偏離設計腳本的行為；
(D) 作為代理在執行過程中的參考框架，用於組織決策步驟並支援任務推理

看解答

Answer

正確答案是 (D) 作為代理在執行過程中的參考框架，用於組織決策步驟並支援任務推理。

這題考驗的是對於 Agentic AI（代理式 AI）進階架構中解決方案圖譜（Solution Graph）核心功能的理解。

(D) 為正確答案：

參考框架：在複雜的代理任務中，AI 不再只是單次輸入輸出，而是一個具備「規劃、執行、反思」循環的實體。解決方案圖譜就像是 AI 的「戰略地圖」，將原本混亂的思考過程組織成具備邏輯關係的節點與路徑。

組織決策與推理：代理（Agent）可以根據圖譜來判斷當前處於任務的哪一個階段，哪些路徑是已知的可行解，哪些則是死路。這能大幅提升代理在處理「長程、多步驟」任務時的成功率與邏輯一致性。

(A) 錯誤：

Agentic AI 的核心仍然是大型語言模型（LLM）的推理能力。解決方案圖譜是為了「輔助」與「增強」LLM 的推論，而非完全「取代」它。

(B) 錯誤：

這描述的是單純的「日誌（Logging）」或「審計（Auditing）」功能。解決方案圖譜在代理執行過程中會動態影響決策，具有實質的引導作用，而非僅供事後檢視。

(C) 錯誤：

這描述的是傳統的「腳本式機器人」或「嚴格限制的 Guardrails」。Agentic AI 的特性之一是具備自主性（Autonomy），解決方案圖譜提供的是靈活的「框架」而非死板的「腳本」。

Agentic AI 中常見的輔助結構

結構名稱	核心功能	比喻
解決方案圖譜 (Solution Graph)	組織任務路徑與決策依據。	導航地圖。
規劃模組 (Planner)	將大目標分解為小任務。	專案經理。
工具庫 (Toolbox/Skills)	讓 AI 具備調用外部 API 的能力。	工具箱。
反思機制 (Reflexion)	自我檢查輸出是否正確。	自我檢核表。

解題關鍵：「圖譜（Graph）」的作用通常在於「組織（Organize）」與「結構化（Structure）」複雜資訊。在代理架構中，它是用來輔助「任務執行」的「參考框架」。

Question 50

50. 小明想開發一個部落格寫作工具，讓用戶輸入文章開頭後，系統自動幫忙寫出後續內容，例如輸入「今天去了台北木柵動物園...」，系統就能續寫。若要實現這樣的功能，最適合選擇下列哪一類任務？

(A) 序列到序列建模（Sequence-to-Sequence Modeling），透過輸入序列產生新的輸出序列；
(B) 遮罩語言建模（Masked Language Modeling），補齊文字中缺失的詞語或片段；
(C) 生成式語言建模（Text Generation），依據上下文持續產生新的內容；
(D) 文本分類（Text Classification），針對輸入文本判斷情感、主題或標籤

看解答

Answer

正確答案是 (C) 生成式語言建模（Text Generation），依據上下文持續產生新的內容。

這題考驗的是對不同自然語言處理（NLP）任務類型的理解，特別是針對「續寫」這一行為的技術對應。

(C) 為正確答案：

核心功能：生成式語言建模（如 GPT 系列）的運作原理是根據已有的上文（Context），預測下一個最可能出現的字或詞（Next Token Prediction），並不斷重複此過程。

場景對應：小明的需求是「輸入開頭、寫出後續」，這正是 Text Generation 的典型應用場景。系統會根據「今天去了台北木柵動物園...」這個 Prompt，持續產生後續的段落內容。

(A) 錯誤：

序列到序列（Seq2Seq）：雖然也是產生序列，但它通常是指將一種形式的序列「轉換」為另一種。常見於翻譯（英文轉中文）或摘要（長文轉短文）。雖然續寫也可以看作廣義的 Seq2Seq，但在分類上，Text Generation 更能精準描述「接龍續寫」的本質。

(B) 錯誤：

遮罩語言建模（MLM）：這是 BERT 等模型常用的訓練方式，重點在於「填空」。它會挖掉句子中間的字（例如：今天去了台北[MASK]動物園），讓模型猜測缺失的部分，不適合用來產生開放式的長篇續寫。

(D) 錯誤：

文本分類：這是判斷輸入內容的類別（例如：這是遊記還是食譜？是正面還是負面評價？），輸出的是「標籤」而非「後續文章」。

常見 NLP 任務類型比較

任務類型	核心邏輯	典型應用場景
生成式建模 (C)	預測下一個字 (Next Token)	文章續寫、聊天機器人、創意寫作。
遮罩建模 (B)	補齊中間的空缺 (Fill-in-the-blanks)	語法修正、語意理解、實體辨識。
序列到序列 (A)	輸入 A 序列 $\rightarrow$ 輸出 B 序列	機器翻譯、自動摘要、格式轉換。
文本分類 (D)	判斷類別 (Labeling)	垃圾郵件過濾、情感分析。

解題關鍵：看到「續寫內容」、「自動寫出後續」，關鍵字即為生成（Generation）。

特性	傳統檢索 (Standard)	多向量檢索 (Multi-vector)
映射關係	一個區塊 \(\rightarrow\) 一個向量	一個區塊 \(\rightarrow\) 多個不同用途的向量
檢索精準度	受限於單一特徵提取	高，能從多維度（摘要、問題、內容）匹配
適用場景	結構簡單的純文字	複雜文件、跨文本型態、多樣化查詢需求
系統負擔	較低	較高（需管理更多向量索引）