[ blog · comparison ]12 min read

API Web Search tốt nhất cho AI Agent năm 2026 (So sánh)

Sarah ChoyĐăng ngày 29 tháng 5, 202612 phút đọc

Bing Search ngừng hoạt động năm 2025 và cả chục API tìm kiếm thuần agent lao vào thay thế nó. Đây là bản đồ thực tế, cập nhật về việc ai trả về cái gì, ai tính phí ra sao và nên nối cái nào vào agent của bạn.

Tóm tắt

•Thị trường chia làm hai: các API tìm kiếm thuần agent (Exa, Tavily, Linkup, Parallel, API Pick) trả về văn bản sạch, đã xếp hạng và sẵn sàng cho LLM, và các API SERP scraping (Serper, SerpApi) trả về kết quả Google thô để bạn tự làm sạch.
•Microsoft cho Bing Search API ngừng hoạt động vào ngày 11 tháng 8 năm 2025 — lý do đơn lẻ lớn nhất khiến các đội chọn lại nhà cung cấp tìm kiếm trong năm 2026.
•Các endpoint "answer" (Perplexity Sonar, Brave Answers, Exa /answer) đóng gói một lời gọi LLM vào trong tìm kiếm nên tốn kém hơn; các endpoint tìm kiếm thuần trả về nhanh hơn và để bạn kiểm soát mô hình.
•Giá niêm yết công bố năm 2026 tập trung quanh mức 5–10 đô la cho mỗi 1.000 lượt tìm kiếm với kết quả thô; tìm kiếm tích hợp trong mô hình (OpenAI, Anthropic) và Bing grounding nằm ở mức 10–35 đô la cho mỗi 1.000 lượt.
•Với tool calling của agent theo kiểu trả tiền theo mức dùng và chỉ tính phí khi thành công, API Pick Web Search có giá 15 credit (~0,015 đô la) mỗi lệnh gọi, không có mức sàn hằng tháng.

Vì sao danh sách này trông khác so với một năm trước

Hai điều đã tái định hình thị trường API Web Search giữa năm 2025 và 2026. Thứ nhất, Microsoft cho các Bing Search API ngừng hoạt động vào ngày 11 tháng 8 năm 2025 — con ngựa thồ thầm lặng đứng sau một phần khổng lồ các pipeline grounding LLM — và thay thế nó bằng Grounding with Bing Search bên trong Azure AI Foundry, vốn không phải một API cắm-là-chạy và tính phí khoảng 35 đô la cho mỗi 1.000 giao dịch. Chỉ sau một đêm, hàng nghìn đội cần một nhà cung cấp mới. Thứ hai, một làn sóng startup tìm kiếm thuần agent gọi vốn nghiêm túc — vòng Series B 85 triệu đô la của Exa ở mức định giá ~700 triệu đô la, vòng 100 triệu đô la của Parallel, vòng seed của Linkup — và tung ra các API được thiết kế cho mô hình ngôn ngữ chứ không phải cho con người.

Kết quả là một thị trường chia gọn thành hai phe, và quyết định đầu tiên bạn đưa ra là bạn thuộc phe nào:

Tìm kiếm thuần agent (Exa, Tavily, Linkup, Parallel, Valyu, API Pick): bạn gửi một truy vấn và nhận về một danh sách ngắn đã xếp hạng gồm tiêu đề, URL và các snippet văn bản sạch — đôi khi là một câu trả lời hoàn chỉnh — đã được định hình sẵn cho một cửa sổ ngữ cảnh.
SERP scraping (Serper, SerpApi): bạn nhận JSON thô của một trang kết quả Google và tự chạy phần làm sạch, xếp hạng và định hình snippet của mình.

Bên dưới là bản đồ thực tế. Giá và hạn ngạch thay đổi nhanh — mọi con số ở đây là giá niêm yết năm 2026 và bạn nên xác nhận trên trang giá của từng nhà cung cấp trước khi tích hợp.

Các ứng viên, mỗi cái gói gọn trong một đoạn

Exa

"Công cụ tìm kiếm dành cho AI." Exa vận hành chỉ mục dựa trên embedding của riêng nó và cung cấp các chế độ thần kinh, từ khóa và auto, cộng với /contents, /answer, /findSimilar, một endpoint tác vụ bất đồng bộ /research và trình xây danh sách Websets. Mạnh nhất khi sự tương đồng về chủ đề quan trọng hơn độ tươi mới thô. Giá niêm yết vào khoảng 7 đô la cho mỗi 1.000 lượt tìm kiếm kèm nội dung; một bậc miễn phí 1.000 yêu cầu/tháng hạ thấp rào cản để dùng thử.

Tavily

Lớp truy cập web thuần agent — /search, /extract, /crawl, /map, và một endpoint mới hơn /research. Một lệnh gọi trả về các snippet sẵn sàng cho LLM cùng một câu trả lời được sinh ra tùy chọn. Nó lớn lên bên trong hệ sinh thái LangChain và đi kèm một máy chủ MCP chính thức. Được Nebius mua lại với giá 275 triệu đô la vào tháng 2 năm 2026; thương hiệu vẫn tiếp tục. Dựa trên credit: một lượt tìm kiếm basic là 1 credit, advanced là 2, với một bậc miễn phí 1.000 credit/tháng.

Perplexity Sonar

Không phải một API kết quả thô — Sonar trả về một câu trả lời hoàn chỉnh, có trích dẫn. Các mô hình như sonar và sonar-pro tính phí thành hai phần: chi phí token cộng một khoản phí tìm kiếm theo mỗi yêu cầu, thay đổi theo lượng ngữ cảnh web bạn kéo về. Tốt nhất khi bạn muốn câu trả lời của mô hình, không phải các liên kết, và bạn vui lòng để Perplexity chọn nguồn.

Linkup

Một API tìm kiếm mới hơn, độc lập, tập trung vào các câu trả lời có nguồn, với chế độ standard và deep cùng một chiêu đáng chú ý: trả tiền theo mỗi yêu cầu qua vi thanh toán x402 / USDC, để một agent tự trị có thể trả tiền mà không cần tài khoản con người. Nó tự định vị rõ ràng là một giải pháp thay thế Bing API.

Parallel

Được xây từ đầu cho agent bởi cựu CEO Twitter Parag Agrawal. Bạn cho nó một mục tiêu ngữ nghĩa và nó trả về các trích đoạn đã nén, phù hợp về token; Task API đồng hành trả về dữ liệu có cấu trúc đã được xác thực. Giá theo mỗi yêu cầu (một bậc tìm kiếm Base khoảng 4 đô la cho mỗi 1.000), định vị dẫn dắt bởi benchmark.

Brave Search API

Một trong số ít các chỉ mục toàn cầu thực sự độc lập — không phải một bản sao của Google hay Bing — với một endpoint LLM Context chuyên dụng cho grounding. Giá niêm yết khoảng 5 đô la cho mỗi 1.000 yêu cầu. Brave đã bỏ bậc miễn phí của mình vào năm 2025 và chuyển mọi người sang tính phí theo đồng hồ đo, đó là lý do nó xuất hiện trên mọi danh sách "giải pháp thay thế Bing".

Serper

Cách rẻ nhất để lấy JSON SERP Google thô ở quy mô lớn — khoảng 0,30–1 đô la cho mỗi 1.000 truy vấn tùy khối lượng. Lớp định hình cho LLM thì bạn tự lo. Tuyệt vời nếu bạn đã vận hành một trình trích xuất nội dung; là công việc ẩn nếu chưa.

API Pick Web Search

Tìm kiếm ngữ nghĩa trả tiền theo mức dùng, được định hình cho tool calling. POST /api/search/web trả về tối đa 10 kết quả đã xếp hạng — tiêu đề, URL và một snippet đã được làm sạch trước — với các bộ lọc tùy chọn country_code và start_date/end_date. 15 credit mỗi lệnh gọi (5 đô la mua 5.000 credit, ≈ 0,015 đô la), credit không bao giờ hết hạn, và bạn chỉ bị tính phí khi HTTP 200.

So sánh cạnh nhau

Giá niêm yết và định vị năm 2026, được đơn giản hóa để so sánh. Hãy xác nhận giá và hạn ngạch hiện tại trên trang giá của từng nhà cung cấp trước khi tích hợp — vài nhà cung cấp tính phí trên nhiều trục (theo kết quả, theo token, theo tác vụ).

	Exa	Tavily	Perplexity Sonar	Brave	Serper	API Pick
Phe	Thuần agent (chỉ mục thần kinh)	Thuần agent (truy cập web)	Cỗ máy trả lời	Chỉ mục độc lập	SERP scraping	Thuần agent (tool calling)
Trả về	URL đã xếp hạng + nội dung/highlight	Snippet đã xếp hạng + câu trả lời tùy chọn	Câu trả lời hoàn chỉnh có trích dẫn	Kết quả web + LLM Context	JSON SERP Google thô	Tiêu đề đã xếp hạng + URL + snippet sạch
Giá niêm yết / 1k (2026)	~7 đô la (tìm kiếm + nội dung)	~8 đô la basic / ~16 đô la advanced	~5–14 đô la + token	~5 đô la	~0,30–1 đô la	15 credit/lệnh gọi (~15 đô la/1k)
Bậc miễn phí	1k yêu cầu/tháng	1k credit/tháng	Credit dùng thử	5 đô la/tháng credit	2,5k một lần	Credit miễn phí để bắt đầu
Tính phí khi thất bại?	Tùy	Tùy	Tùy	Tùy	Theo truy vấn	Không — chỉ HTTP 200
Endpoint tool-schema	—	—	—	—	—	Có — /api/search/web/tool-schema
Phù hợp nhất	Khám phá ngữ nghĩa	RAG được lưu trữ / chat	Câu trả lời trích dẫn cắm-là-chạy	Grounding độc lập	Pipeline SERP tùy chỉnh	Tool calling của agent, không mức sàn

Cách chọn: một cây quyết định ngắn

Trả lời những câu này theo thứ tự và bạn sẽ nhanh chóng đáp xuống đúng phe.

Bạn muốn liên kết hay một câu trả lời? Nếu bạn muốn một câu trả lời hoàn chỉnh, có trích dẫn và vui lòng để nhà cung cấp chọn nguồn, hãy dùng Perplexity Sonar (hoặc một endpoint /answer ). Nếu bạn muốn kiểm soát mô hình của mình đọc những nguồn nào, hãy dùng một API tìm kiếm và chạy mô hình của riêng bạn.
Bạn có cần SERP thô không? Nếu pipeline của bạn thực sự cần trang kết quả đầy đủ của Google — knowledge panel, địa điểm, thứ hạng chính xác — hãy dùng Serper hoặc SerpApi và dự trù ngân sách cho bước làm sạch của riêng bạn.
Sự tương đồng có quan trọng hơn độ tươi mới không? "Tìm cho tôi thêm các trang giống trang này" là sân nhà của Exa, nhờ xếp hạng thần kinh trên chỉ mục của riêng nó.
Lưu lượng của bạn có bùng nổ theo đợt hay ngân sách theo kiểu trả tiền theo mức dùng? Nếu bạn đang tạo prototype, chạy các công việc research theo lô, hoặc xây các agent thử lại khi gặp lỗi tạm thời, một mô hình theo mỗi lệnh gọi với việc chỉ tính phí khi thành công (API Pick) tránh trả một mức sàn hằng tháng và tránh trả tiền cho các lần thử lại.

Việc tích hợp thực sự trông như thế nào

Việc tích hợp ít ma sát nhất là khi bạn dán một tool schema và bỏ qua lớp bọc. Hầu hết các API này để bạn tự viết tay định nghĩa công cụ JSON; API Pick công bố cả hai hình dạng:

# Returns an OpenAI function definition AND a Claude tool-use definition
curl https://www.apipick.com/api/search/web/tool-schema

Nối nó vào một vòng lặp tool-use của Claude khi đó chỉ là ba dòng:

import anthropic, requests

schema = requests.get("https://www.apipick.com/api/search/web/tool-schema").json()
client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    tools=[schema["claude"]],
    messages=[{"role": "user", "content": "What shipped in agent search this week?"}],
)

Một phản hồi thuần agent điển hình đủ nhỏ để rơi thẳng vào một khối tool_result:

{
  "results": [
    {
      "title": "Nebius acquires Tavily to add agentic search",
      "url": "https://nebius.com/newsroom/...",
      "snippet": "Nebius announced an agreement to acquire Tavily, adding\nagentic web search to its AI cloud platform."
    }
    /* …more */
  ],
  "result_count": 5,
  "credits_used": 15,
  "remaining_credits": 985
}

Điều không ai tính vào giá: các lệnh gọi thất bại và các lần thử lại

Agent thử lại. Một research agent tỏa ra mười lượt tìm kiếm sẽ gặp phải các lỗi 429 và 502 tạm thời, và một vòng lặp ngây thơ chạy lại chúng. Trên một nhà cung cấp tính phí theo truy vấn, mỗi lần thử lại tốn tiền. Trên một gói thuê bao, mỗi lần thử lại đốt credit đã bao gồm nhanh hơn mức dashboard của bạn gợi ý. Mô hình duy nhất bỏ qua các lần thử lại là tính phí chỉ khi thành công — bạn trả cho HTTP 200, không phải cho ba lần hết thời gian trước đó. Với lưu lượng agent bùng nổ theo đợt, điều này thường là một khoản tiết kiệm thực tế lớn hơn cả giá theo mỗi lệnh gọi được nêu ở tít lớn.

Điều mà không API nào trong số này làm

Không API Web Search nào trả lời một cách đáng tin cậy câu "mọi tài liệu từ tên miền này kể từ 2019" — để có phạm vi phủ lưu trữ sâu, bạn vẫn phải ghép tìm kiếm với một crawler tập trung hoặc một tập dữ liệu chuyên biệt theo miền. Không cái nào khử trùng lặp hoàn hảo các URL gần như giống hệt nhau. Và không cái nào khắc phục được vấn đề gốc của một nguồn lỗi thời hoặc có thẩm quyền thấp; đánh giá chất lượng nguồn là một quyết định mà agent của bạn vẫn phải đưa ra. Hãy xem API tìm kiếm như nguyên thủy truy hồi, chứ không phải toàn bộ bộ não.

Chọn nhanh

Tốt nhất cho: khám phá ngữ nghĩa / theo sự tương đồng

Chọn Exa. Xếp hạng thần kinh trên chỉ mục của riêng nó là luận điểm cốt lõi, và một bậc miễn phí hằng tháng khiến nó dễ dùng thử.

Tốt nhất cho: RAG được lưu trữ với một câu trả lời đóng gói tùy chọn

Chọn Tavily. Một lệnh gọi, sẵn sàng cho LLM, tích hợp sâu với LangChain và MCP.

Tốt nhất cho: một câu trả lời hoàn chỉnh có trích dẫn mà không cần điều phối

Chọn Perplexity Sonar. Nó trả về câu trả lời; bạn bỏ qua vòng lặp agent.

Tốt nhất cho: một chỉ mục độc lập làm giải pháp thay thế Bing

Chọn Brave Search API. Thực sự độc lập, với một endpoint LLM Context chuyên dụng.

Tốt nhất cho: SERP Google thô giá rẻ mà bạn sẽ tự làm sạch

Chọn Serper. Chi phí theo mỗi truy vấn thấp nhất; bạn tự lo lớp định hình.

Tốt nhất cho: tool calling của agent, giá theo mỗi lệnh gọi minh bạch, không mức sàn hằng tháng

Chọn API Pick. Các snippet đã định hình sẵn, sẵn sàng cho LLM, bộ lọc quốc gia và ngày, trả tiền theo mức dùng, tính phí chỉ khi thành công, các tool schema sẵn sàng để dán. Dùng thử Web Search →

Câu hỏi thường gặp

API Web Search tốt nhất cho AI agent năm 2026 là gì?

Không có cái tốt nhất duy nhất — điều đó tùy thuộc vào thứ bạn muốn nhận về. Để khám phá thần kinh/ngữ nghĩa trên một chỉ mục riêng, Exa mạnh nhất. Để có một kết quả RAG sẵn sàng cho LLM chỉ trong một lệnh gọi, kèm tùy chọn đóng gói câu trả lời, Tavily phù hợp. Để có một câu trả lời hoàn chỉnh có trích dẫn, hãy dùng Perplexity Sonar. Để có kết quả Google thô mà bạn tự làm sạch, Serper rẻ nhất. Để tool calling của agent theo kiểu trả tiền theo mức dùng với các snippet JSON đã định hình sẵn, bộ lọc quốc gia/ngày và chỉ tính phí khi HTTP 200, API Pick Web Search là lựa chọn không ràng buộc gần nhất, ở mức 15 credit (~0,015 đô la) mỗi lệnh gọi.

Vì sao mọi người bắt đầu đổi API tìm kiếm trong giai đoạn 2025–2026?

Microsoft cho Bing Search API ngừng hoạt động vào ngày 11 tháng 8 năm 2025, gỡ bỏ các endpoint vốn cung cấp năng lượng cho một phần lớn các pipeline grounding LLM. Sản phẩm thay thế, "Grounding with Bing Search" bên trong Azure AI Foundry, không phải một API cắm-là-chạy và tính phí khoảng 35 đô la cho mỗi 1.000 giao dịch. Việc ngừng hoạt động đó đẩy các lập trình viên hướng tới những chỉ mục độc lập (Brave) và các startup thuần agent (Exa, Tavily, Linkup, Parallel), và là chất xúc tác chính đằng sau làn sóng chọn lại của năm 2026.

Sự khác biệt giữa một API tìm kiếm thuần agent và một SERP API là gì?

Một SERP API (Serper, SerpApi) trả về JSON thô của một trang kết quả Google — liên kết tự nhiên, knowledge panel, quảng cáo — đúng như một con người sẽ nhìn thấy, và bạn tự chạy phần làm sạch cùng xếp hạng. Một API tìm kiếm thuần agent (Exa, Tavily, Linkup, API Pick) trả về một danh sách ngắn đã xếp hạng gồm tiêu đề, URL và các snippet văn bản đã được làm sạch trước, có kích thước vừa với một cửa sổ ngữ cảnh, nên nó rơi thẳng vào một vòng lặp function-calling mà không cần bộ phân tích SERP.

Các API Web Search tốn bao nhiêu cho mỗi 1.000 lệnh gọi trong năm 2026?

Giá niêm yết công bố khác nhau, vì vậy hãy luôn xác nhận trên trang của nhà cung cấp, nhưng như một bản đồ 2026 sơ bộ: Brave ~5 đô la, Tavily ~8 đô la (basic) / ~16 đô la (advanced) theo kiểu trả tiền theo mức dùng, Exa ~7 đô la (tìm kiếm kèm nội dung), Perplexity Sonar ~5–14 đô la cộng token, Parallel ~4–9 đô la, Serper ~0,30–1 đô la cho mỗi 1.000 truy vấn thô, và tìm kiếm web tích hợp của OpenAI/Anthropic ~10 đô la. API Pick Web Search là 15 credit mỗi lệnh gọi ở mức 5 đô la / 5.000 credit (~0,015 đô la), chỉ bị trừ khi thành công.

Các API tìm kiếm này có hoạt động với OpenAI function calling và Claude tool use không?

Có. Tất cả đều phơi bày JSON-in / JSON-out, nên bất kỳ cái nào cũng có thể được bọc thành một hàm công cụ. Điểm khác biệt là độ ma sát: API Pick công bố một schema dùng ngay tại GET /api/search/web/tool-schema, trả về cả một định nghĩa hàm OpenAI lẫn một định nghĩa tool-use của Claude, nên bạn dán vào thay vì tự viết tay JSON.

API tìm kiếm nào là giải pháp thay thế Bing Search API tốt nhất?

Điều đó tùy thuộc vào việc bạn từng dùng Bing để làm gì. Đối với một chỉ mục toàn cầu độc lập gần với tinh thần của Bing nhất, Brave Search API là sự thay thế tự nhiên. Riêng cho LLM grounding, Tavily, Exa, Linkup và API Pick trả về văn bản đã được định hình sẵn cho một mô hình, điều mà Bing chưa bao giờ làm. Nếu bạn muốn tránh việc thiết lập theo từng dự án của Azure và một mức sàn hằng tháng, API Pick là một giải pháp cắm-là-chạy theo kiểu trả tiền theo mức dùng.

Các API dùng trong bài viết này

Tìm kiếm Web

Tìm kiếm web ngữ nghĩa thời gian thực được xây dựng cho LLM tool calling. Trả về tiêu đề, URL và đoạn trích sạch đã xếp hạng, định hình sẵn cho agent tiêu thụ. Hỗ trợ lọc theo quốc gia và ngày.

Tìm kiếm Tin tức

Tìm kiếm tin tức thời gian thực trên các hãng tin lớn. Lọc theo khoảng ngày và quốc gia cho truy vấn nhạy cảm về thời gian. Xây dựng cho bản tin buổi sáng, agent tin tức thị trường và pipeline RAG.

Trích xuất nội dung URL

Trích xuất nội dung sạch, dễ đọc từ tối đa 25 URL mỗi lượt gọi. Loại bỏ quảng cáo, điều hướng và mã rác; trả về văn bản dạng markdown sẵn sàng cho LLM. 2 credit mỗi URL.

Viết bởi

Sarah Choy

CEO, API Pick

Sarah Choy là CEO của API Pick. Cô viết về việc xây dựng các API sẵn sàng cho production cho AI agent và quy trình LLM.