Các loại AI hiện tại — Tổng quan cho developer

Trang chủ

Các loại AI hiện tại — Tổng quan cho developer

AI (Artificial Intelligence) đang thay đổi cách chúng ta xây dựng phần mềm. Bài viết này tổng hợp các loại AI phổ biến hiện tại và góc nhìn thực tế cho developer.

1. Large Language Models (LLM)

LLM là mô hình xử lý ngôn ngữ tự nhiên (NLP) với hàng tỷ tham số, được train trên lượng văn bản khổng lồ.

  • Đại diện: GPT-4, Claude, Gemini, Llama, Mistral…
  • Dùng để: Chatbot, code assistant (Cursor, Copilot), dịch, tóm tắt, Q&A, RAG.
  • API phổ biến: OpenAI, Anthropic, Google AI, OpenAI-compatible (OpenRouter, vLLM).

Với fullstack (NestJS + React), bạn có thể gọi LLM qua REST/SSE để: gợi ý code, sinh nội dung, phân loại, extract thông tin từ text.

2. Computer Vision (CV)

AI nhìn và xử lý ảnh/video.

  • Bài toán: Phân loại ảnh, object detection, segmentation, nhận diện khuôn mặt, OCR.
  • Mô hình/API: OpenAI Vision, Google Cloud Vision, Claude với image input, mô hình open-source (YOLO, SAM).
  • Ứng dụng: Moderation nội dung, kiểm tra chất lượng, form tự điền từ ảnh, AR.

Trong app React có thể upload ảnh → gửi API Vision → nhận label hoặc description.

3. Generative AI — Text, Image, Audio

Generative AI tạo ra nội dung mới từ prompt hoặc dữ liệu đầu vào.

LoạiVí dụAPI / Công cụ
TextViết bài, code, emailGPT-4, Claude, Gemini (đã nằm trong LLM)
ImageDALL·E, Midjourney, Stable DiffusionOpenAI Images, Replicate, Stability AI
AudioTTS, STT, nhạc, clone giọngElevenLabs, OpenAI Whisper, Speech-to-Text
VideoSora, Runway, PikaCác API đang mở dần

Backend NestJS có thể làm layer gọi các API này, cache kết quả, queue job sinh nội dung.

4. AI Agents & Automation

Agent là hệ thống dùng LLM + công cụ (tools) để tự lên kế hoạch và thực hiện nhiệm vụ.

  • Luồng: User request → LLM quyết định bước → gọi tool (search, code, API) → lặp đến khi xong.
  • Framework: LangChain, LlamaIndex, CrewAI, OpenAI Assistants API.
  • Use case: Tự động research, support ticket, đặt lịch, phân tích dữ liệu.

Có thể xây agent trong NestJS (queue + worker) gọi LLM và các service khác.

5. Embeddings & RAG

  • Embeddings: Vector biểu diễn text/ảnh, dùng để so sánh độ tương đồng (semantic search).
  • RAG (Retrieval-Augmented Generation): Lấy tài liệu liên quan (qua embedding + vector DB) rồi đưa vào context của LLM để trả lời chính xác hơn.

Stack thường gặp: OpenAI/Cohere embeddings + Pinecone, Weaviate, pgvector (PostgreSQL). Rất hợp khi bạn cần “hỏi đáp trên tài liệu riêng” hoặc chatbot có kiến thức nội bộ.

6. Các loại AI khác đáng chú ý

  • Speech-to-Text / Text-to-Speech: Whisper, ElevenLabs, Google Speech — tích hợp vào app hỗ trợ giọng nói.
  • Recommendation: Thuật toán gợi ý (collaborative filtering, content-based) — dù không phải “LLM” nhưng vẫn là AI/ML quan trọng trong sản phẩm.
  • Code models: Mô hình train riêng cho code (Codex, StarCoder, Code Llama) — nền tảng của Copilot, Cursor.

Kết luận

Tóm lại, với developer hiện tại:

  1. LLM — trung tâm của hầu hết sản phẩm AI (chat, code, RAG).
  2. Computer Vision — khi bài toán là ảnh/video.
  3. Generative (image/audio) — khi cần tạo nội dung đa phương tiện.
  4. Agents — khi cần AI “tự làm nhiều bước” thay vì một lần gọi API.
  5. Embeddings + RAG — khi cần AI “hiểu” dữ liệu riêng của bạn.

Chọn loại AI phù hợp với bài toán và stack (NestJS, React, TypeScript) sẽ giúp bạn ship nhanh và dễ bảo trì hơn.