DEV Community 3h ago

Top AI Papers on Hugging Face - 2026-06-25

1) Qwen-AgentWorld: Language World Models for General Agents

Paper: 2606.24597
GitHub: https://github.com/QwenLM/Qwen-AgentWorld

Bài toán
Các AI agent hiện nay thường học và hành động trực tiếp trên môi trường thật hoặc môi trường giả lập hẹp. Vấn đề là cách này tốn chi phí, khó mở rộng, khó bao phủ nhiều domain và đặc biệt khó huấn luyện cho các tác vụ dài hơi.

Ý tưởng
Qwen-AgentWorld xây dựng một language world model: thay vì mô phỏng thế giới bằng engine vật lý hay simulator chuyên biệt, hệ thống dùng ngôn ngữ để biểu diễn trạng thái, chuyển trạng thái và phần thưởng. Nói ngắn gọn, agent có thể “tưởng tượng” môi trường qua text rồi học cách hành động trong môi trường đó.

Điểm mới
Điểm đáng chú ý là paper đẩy khái niệm world model cho agent tổng quát lên quy mô rộng hơn nhiều domain. Họ kết hợp:

Mô hình hóa state transition bằng ngôn ngữ
Suy luận kiểu next-state prediction
Huấn luyện bằng agentic reinforcement learning với cơ chế reward lai giữa rubric và rule

Ứng dụng thực tế
Hướng này rất phù hợp cho:

AI assistant biết lập kế hoạch dài hạn
Tác tử tự động thao tác web/app
Huấn luyện agent trong các bài toán mà mô phỏng truyền thống khó xây dựng

Nếu thành công ở quy mô lớn, đây có thể là nền móng cho các agent “tự diễn tập trước khi làm thật”.

2) Are We Ready For An Agent-Native Memory System?

Paper: 2606.24775
GitHub: https://github.com/OpenDataBox/MemoryData

Bài toán
Agent hiện đại không chỉ cần context ngắn trong cửa sổ prompt, mà còn cần bộ nhớ dài hạn: nhớ người dùng là ai, việc nào đã làm, thông tin nào quan trọng, khi nào cần cập nhật hay quên đi. Vấn đề là ta vẫn thiếu một cách đánh giá hệ thống memory thật bài bản.

Ý tưởng
Paper tiếp cận memory cho agent như một bài toán quản trị dữ liệu. Họ chia bộ nhớ thành các khâu: lưu trữ/biểu diễn, trích xuất, truy hồi và định tuyến, bảo trì/cập nhật. Sau đó, paper đánh giá các khâu này dưới nhiều workload khác nhau.

Điểm mới
Điểm mới lớn nhất không nằm ở việc đề xuất một thuật toán memory duy nhất, mà ở việc xây dựng khung đánh giá có hệ thống cho “agent-native memory systems”. Các tiêu chí như:

representation fidelity
retrieval precision
update correctness
long-horizon stability
cost-performance trade-off

giúp cộng đồng nhìn memory không còn là “gắn thêm vector DB là xong”.

Ứng dụng thực tế
Rất hữu ích cho:

Personal AI assistant
Customer support agent
Copilot doanh nghiệp cần nhớ lịch sử công việc, preference và policy

Đây là paper đáng đọc với bất kỳ ai đang xây agent production.

3) NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Paper: 2606.24530
GitHub: https://github.com/FrontisAI/NatureBench

Bài toán
Các benchmark coding hiện nay chủ yếu kiểm tra khả năng hoàn thành task kỹ thuật. Nhưng câu hỏi khó hơn là: AI coding agent có thể hỗ trợ khám phá khoa học thật không?

Ý tưởng
NatureBench tạo một benchmark gồm 90 tác vụ khoa học liên ngành, lấy cảm hứng từ các bài báo thuộc họ Nature. Mục tiêu không chỉ là “reproduce code”, mà là kiểm tra liệu agent có thể chạm đến mức khám phá hay ít nhất là tái hiện phương pháp ở chuẩn rất cao.

Điểm mới
Paper chạm đúng một khoảng trống lớn: thay vì benchmark coding thông thường, họ benchmark scientific discovery workflow. Kết quả cho thấy agent hiện tại chủ yếu mạnh ở dịch phương pháp thành code hơn là tạo ra tri thức mới. Nói cách khác, agent vẫn giống một “kỹ sư triển khai rất giỏi” hơn là “nhà khoa học sáng tạo”.

Ứng dụng thực tế
Paper này quan trọng với:

Lab nghiên cứu muốn dùng AI để tăng tốc khoa học
Startup làm AI for science
Đội ngũ xây coding agent chuyên cho nghiên cứu

Nó giúp đặt kỳ vọng đúng: AI hiện hỗ trợ khoa học tốt ở lớp thực thi và tái hiện, nhưng chưa thật sự thay thế bước đột phá ý tưởng.

4) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Paper: 2606.26058
GitHub: https://github.com/HKUST-C4G/DomainShuttle

Bài toán
Text-to-video hiện tiến rất nhanh, nhưng khi yêu cầu tạo video có chủ thể cụ thể từ ảnh tham chiếu, mô hình thường gặp hai lỗi: không giữ được danh tính/chủ thể, hoặc chỉ hoạt động tốt trong domain hẹp.

Ý tưởng
DomainShuttle hướng đến subject-driven text-to-video trong open domain. Hệ thống dùng cơ chế modeling theo domain để xử lý tốt cả tình huống cùng domain lẫn cross-domain.

Điểm mới
Các thành phần đáng chú ý gồm:

domain-aware AdaLN
Video-Reference DualRoPE
Cross-Pair Consistent Loss

Nói đơn giản, paper cố gắng khiến mô hình hiểu rõ hơn mối liên hệ giữa: token ảnh tham chiếu, token video sinh ra, và ngữ cảnh domain.

Ứng dụng thực tế
Ứng dụng rất rõ ràng trong:

Quảng cáo cá nhân hóa
Video marketing
Sáng tạo nội dung với nhân vật/brand ambassador nhất quán
Previsualization cho studio

Đây là hướng có tiềm năng thương mại mạnh vì “giữ đúng chủ thể” là nhu cầu cực lớn trong sản xuất nội dung.

5) MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Paper: 2606.19926
GitHub: https://github.com/kwai/MemGUI-Agent

Bài toán
Mobile GUI agent thường thất bại ở các tác vụ dài nhiều bước: đặt vé, mua hàng, cấu hình app, điền form dài... Lý do là agent mất ngữ cảnh và không biết thông tin nào cần giữ lại qua nhiều màn hình.

Ý tưởng
MemGUI-Agent đề xuất proactive context management với cơ chế Context-as-Action (ConAct). Tức là quản lý context không còn là phần bị động trong prompt, mà trở thành một phần của chuỗi hành động.

Điểm mới
Paper đưa vào các trường context có cấu trúc như:

folded action history
folded UI state
recent step record

Điểm hay là memory/context được quản trị rõ ràng hơn thay vì nhồi toàn bộ lịch sử vào prompt.

Ứng dụng thực tế
Rất thực tế cho:

Trợ lý thao tác điện thoại
Accessibility tools
Tự động hóa tác vụ mobile cho doanh nghiệp
Kiểm thử ứng dụng

Đây là một bước quan trọng nếu muốn có “AI dùng điện thoại thay người” thật sự đáng tin.

6) ShutterMuse: Capture-Time Photography Guidance with MLLMs

Paper: 2606.25763
GitHub: https://github.com/lijayuTnT/ShutterMuse

Bài toán
Hầu hết AI chỉnh ảnh hiện nay hoạt động sau khi chụp. Nhưng với nhiếp ảnh, giá trị lớn hơn nhiều nằm ở việc hướng dẫn ngay lúc bấm máy: bố cục ra sao, chủ thể nên tạo dáng thế nào.

Ý tưởng
ShutterMuse xây benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ:

Composition guidance cho người chụp
Pose recommendation cho người được chụp

Điểm mới
Paper kết hợp hai vai trò vốn tách rời: hướng dẫn phía photographer, hướng dẫn phía subject. Ngoài supervised fine-tuning, họ còn dùng reinforcement fine-tuning để tăng chất lượng hướng dẫn thẩm mỹ.

Ứng dụng thực tế
Khá rõ cho:

App camera thông minh
Trợ lý chụp ảnh trên điện thoại
Thương mại điện tử, du lịch, wedding, social content

Nếu tích hợp tốt, đây có thể là “copilot nhiếp ảnh” thời gian thực.

7) Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Paper: 2606.25041
Project: https://wan-streamer.com/

Bài toán
Nhiều mô hình multimodal mạnh nhưng phản hồi chậm, không phù hợp với tương tác thời gian thực như gọi video, livestream, hay trợ lý giọng nói có nhìn hình.

Ý tưởng
Wan-Streamer xây mô hình nền tảng audio-visual-text theo kiểu streaming end-to-end, dùng causal attention để xử lý dữ liệu đến liên tục với độ trễ thấp.

Điểm mới
Các điểm kỹ thuật nổi bật:

block-causal attention
causal encoder/decoder
multimodal token scheduling

Mục tiêu là hợp nhất nhiều modality nhưng vẫn giữ trải nghiệm realtime.

Ứng dụng thực tế
Rất hứa hẹn cho:

Trợ lý video call
AI livestream host
Robot hội thoại nhìn-nghe-nói
Lớp học/họp trực tuyến có AI đồng hành

Đây là hướng then chốt nếu muốn AI thực sự “sống trong dòng thời gian thực”.

8) Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

Paper: 2606.15932
GitHub: https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Bài toán
“Code intelligence” không còn chỉ là từ mô tả ngôn ngữ sinh code. Ngày càng nhiều bài toán đòi hỏi AI hiểu hình ảnh, GUI, biểu đồ, sơ đồ, rồi mới sinh hoặc phân tích code.

Ý tưởng
Đây là một bài survey hệ thống hóa lĩnh vực multimodal code intelligence: từ GUI, scientific visualization, structured graphics cho đến các framework kiểm chứng kết quả.

Điểm mới
Giá trị chính nằm ở việc paper không chỉ liệt kê công trình mà còn nhấn mạnh hướng đi tương lai:

verifiable agent traces
multi-signal validation
multi-state verification
Kiểm tra khả năng chuyển giao liên nhiệm vụ

Ứng dụng thực tế
Hữu ích cho:

Người làm AI coding
Team xây GUI agent
Startup làm “ảnh/sơ đồ thành ứng dụng”

Đây là bài đọc nền tảng để hiểu nơi thị trường code agent sẽ đi tiếp.

9) AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

Paper: 2606.23449
GitHub: https://github.com/aohp-os/aohp

Bài toán
Phần lớn agent hiện chạy “trên” hệ điều hành chứ chưa được hệ điều hành xem như thực thể hạng nhất. Điều này làm hạn chế khả năng cá nhân hóa, hiệu quả thực thi và kiểm soát bảo mật.

Ý tưởng
AOHP xây một framework ở mức OS-level, dựa trên Android, để agent trở thành thành phần native của hệ điều hành.

Điểm mới
Điểm mới là góc nhìn agent-native operating system. Paper không chỉ tối ưu completion rate hay token cost, mà còn đưa ra cơ chế:

personalized service composition
efficient agent interface
secure information flow

Ứng dụng thực tế
Nếu phát triển tốt, đây là nền móng cho:

Smartphone có agent hệ thống
Enterprise device management với AI
Môi trường di động nơi AI có quyền năng lớn nhưng vẫn tuân thủ policy

Đây là hướng rất đáng chú ý vì agent tương lai có thể không còn là app, mà là lớp hạ tầng của OS.

10) Improved Large Language Diffusion Models

Paper: 2606.25331

Bài toán
Mô hình ngôn ngữ hiện nay chủ yếu theo kiểu autoregressive: sinh token trái sang phải. Cách này hiệu quả nhưng có giới hạn về song song hóa và đôi khi hạn chế khả năng khai thác ngữ cảnh hai chiều.

Ý tưởng
Paper theo đuổi masked diffusion language model với fully bidirectional attention. Thay vì sinh tuần tự hoàn toàn, mô hình dần tinh chỉnh chuỗi token qua nhiều bước khử nhiễu.

Điểm mới
Điểm đáng chú ý là mô hình diffusion ngôn ngữ ở đây đạt kết quả cạnh tranh, thậm chí vượt AR trên một số benchmark như:

BBH
ARC-Challenge
MATH
HumanEval

Ngoài ra còn có:

variable-length generation
Cơ chế confidence-based scoring

Ứng dụng thực tế
Dù còn sớm, hướng này có thể hữu ích cho:

Sinh văn bản cần chỉnh sửa toàn cục
Code generation cần nhất quán dài hạn
Hệ thống nơi ta muốn cân bằng giữa chất lượng và chiến lược sinh song song

Nó cũng nhắc cộng đồng rằng tương lai của LLM có thể không chỉ thuộc về kiến trúc autoregressive.

Kết luận: 3 xu hướng lớn rút ra từ top paper hôm nay

Agent đang trở thành trung tâm
Các paper như Qwen-AgentWorld, MemGUI-Agent, AOHP, và nghiên cứu về agent-native memory cho thấy trọng tâm đã dịch chuyển từ “mô hình biết nói” sang “mô hình biết làm”.
Memory và hạ tầng quan trọng không kém model
Ngày càng rõ rằng để agent hữu ích ngoài đời thực, chỉ tăng kích thước mô hình là chưa đủ. Cần: memory đúng nghĩa, OS/harness phù hợp, benchmark phản ánh việc thật.
Multimodal AI đang tiến tới thời gian thực và hành động thực tế
Từ ShutterMuse đến Wan-Streamer và DomainShuttle, AI đa phương thức không còn chỉ để demo đẹp, mà đang tiến vào các kịch bản dùng được ngay: quay/chụp, giao tiếp trực tiếp, tạo nội dung sản xuất.

Nếu phải chọn một thông điệp chung của top paper hôm nay, thì đó là: Kỷ nguyên tiếp theo của AI không chỉ là “hiểu và sinh”, mà là “nhớ, mô phỏng, hành động và tương tác theo thời gian thực”.

Read on DEV Community ↗ ← Back to News