DEV Community 2h ago

Top AI Papers on Hugging Face - 2026-07-05

Hôm nay, danh sách paper được cộng đồng Hugging Face upvote nhiều nhất cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ mô hình lớn thuần túy sang hệ thống có cấu trúc hơn - có bộ nhớ, có benchmark chuyên biệt, có routing, có rubric đánh giá, và có cách tăng tốc suy luận mà không cần train lại.

Trong bài viết này, mình sẽ tóm lược 10 paper theo 4 góc nhìn cho mỗi paper:

Bài toán
Ý tưởng
Điểm mới
Ứng dụng thực tế

1) Program-as-Weights: A Programming Paradigm for Fuzzy Functions

Paper: 2607.02512
GitHub: https://github.com/programasweights/programasweights-python
Project: https://programasweights.com/

Bài toán

Rất nhiều tác vụ AI hiện nay được mô tả tốt bằng ngôn ngữ tự nhiên nhưng lại khó viết thành chương trình cứng. Ví dụ: “lọc email hơi giống spam”, “xếp mức độ lịch sự của phản hồi”, hay “đánh giá xem đoạn mô tả có hợp với phong cách thương hiệu không”. Đây là các fuzzy functions - hàm không có ranh giới logic rõ ràng. Cách làm phổ biến hiện nay là gọi foundation model trực tiếp mỗi lần suy luận. Nhưng cách đó tốn chi phí, độ trễ cao, phụ thuộc server và khó triển khai cục bộ.

Ý tưởng

Paper đề xuất một paradigma mới: Program-as-Weights. Thay vì mỗi lần chạy lại hỏi mô hình lớn, hệ thống dùng một compiler model để “biên dịch” đặc tả ngôn ngữ tự nhiên thành một neural artifact nhỏ gọn. Artifact này sau đó được thực thi bởi một interpreter model đã đóng băng tham số. Nói đơn giản: ta “biến đặc tả thành trọng số”, rồi chạy artifact như một chương trình thần kinh nhẹ.

Điểm mới

Điểm mới quan trọng là xem trọng số mô hình như một dạng biểu diễn chương trình, thay vì chỉ là nơi lưu kiến thức. Điều này khác với prompt engineering hay fine-tuning truyền thống:

Không cần huấn luyện lại toàn bộ mô hình
Có artifact nhỏ, hiệu quả về bộ nhớ
Hỗ trợ suy luận cục bộ nhanh hơn
Mở ra hướng xây tool AI có thể “compile” specification thành module chạy được

Ứng dụng thực tế

Rất phù hợp với:

Bộ lọc nội dung
Phân loại cảm xúc / thái độ
Chính sách moderation theo ngữ cảnh riêng
Tool builder cho doanh nghiệp cần logic mềm nhưng chạy local

Đây là một hướng thú vị nếu bạn muốn xây AI agent hoặc ứng dụng AI on-device mà không phụ thuộc LLM lớn ở runtime.

2) AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

Paper: 2607.02255
GitHub: https://github.com/AlayaLab/AgenticSTS
Project: https://alayalab.github.io/AgenticSTS/

Bài toán

LLM agent thường thất bại trong các nhiệm vụ dài hạn vì bộ nhớ kém: quên trạng thái cũ, truy xuất sai thông tin, prompt ngày càng phình to, và khó phân tích lỗi nằm ở đâu.

Ý tưởng

Paper xây dựng một testbed bounded-memory: thay vì nhồi toàn bộ lịch sử vào context, agent dùng một cơ chế typed retrieval để truy xuất đúng mảnh thông tin cần thiết và lắp ráp lại prompt mới cho mỗi bước. Nói cách khác, bộ nhớ được tách thành các lớp rõ ràng, và prompt được xem như một sản phẩm được “assemble” từ dữ liệu nhớ có cấu trúc.

Điểm mới

Đóng góp lớn nhất là paper không chỉ đề xuất agent tốt hơn, mà còn tạo ra môi trường để phân tích từng thành phần bộ nhớ một cách cô lập. Điều này cực kỳ quan trọng vì hiện nay nhiều hệ agent cải thiện nhưng không ai biết thực ra cải thiện đến từ đâu. Benchmark liên quan đến các tác vụ chiến lược dài hạn như game, giúp đo các kỹ năng như:

Lập kế hoạch dài hạn
Ghi nhớ điều kiện
Suy luận có điều kiện
Cập nhật chiến lược theo trạng thái mới

Ứng dụng thực tế

Phù hợp để thiết kế:

Personal assistant có trí nhớ dài hạn
Coding agent nhiều bước
Game agent / simulation agent
Workflow agent cho doanh nghiệp

Nếu bạn đang làm AI agent, đây là paper đáng chú ý vì nó biến “memory” từ khái niệm mơ hồ thành thứ có thể benchmark được.

3) EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

Paper: 2607.02440

Bài toán

Một kỳ vọng lớn ở autonomous agent là khả năng tự cải tiến policy qua tương tác và phản hồi từ môi trường. Nhưng hiện chưa rõ agent có thật sự biết “tiến hóa” policy tốt dần hay chỉ sửa ngẫu nhiên.

Ý tưởng

EvoPolicyGym tạo ra một môi trường đánh giá nơi agent được phép chỉnh sửa policy lặp đi lặp lại trong một ngân sách hữu hạn. Hệ thống theo dõi tác động của từng lần chỉnh sửa và cung cấp chẩn đoán ở mức trajectory.

Điểm mới

Paper nhấn mạnh rằng thành công của policy evolution không chỉ phụ thuộc vào mô hình ngôn ngữ mạnh, mà còn cần:

Cơ chế chỉnh sửa phù hợp với từng tác vụ
Phản hồi đủ informative
Chiến lược refinement dưới ràng buộc ngân sách

Nói ngắn gọn: “agent tự sửa mình” khó hơn nhiều so với tưởng tượng.

Ứng dụng thực tế

Hữu ích cho:

Agent tối ưu quy trình tự động
Robot policy editing
AI scientist / self-improving systems
Hệ thống ra quyết định tương tác

4) PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

Paper: 2606.28322
GitHub: https://github.com/M1chaelPeng/PerceptionRubrics
Project: https://weiyana.github.io/PerceptionRubrics/

Bài toán

Benchmark multimodal hiện nay thường cho điểm cao nhưng lại không phản ánh đúng cảm nhận của con người trong thế giới thực. Có những lỗi mô hình làm sai rất rõ với người dùng nhưng benchmark không phạt đủ mạnh.

Ý tưởng

PerceptionRubrics đề xuất một framework đánh giá dựa trên rubric chi tiết, chia bài toán thành các tiêu chí nguyên tử và dùng cơ chế gated scoring để đảm bảo các lỗi “must-right” được xử lý nghiêm túc.

Điểm mới

Điểm sáng của paper là thay vì chỉ hỏi “mô hình đúng bao nhiêu phần trăm?”, họ hỏi:

Mô hình sai ở loại lỗi nào?
Lỗi đó có nghiêm trọng với người dùng không?
Benchmark hiện tại đang bỏ sót những failure mode nào?

Khái niệm như Reliability Gap, Must-Right, Easy-Wrong rất hữu ích để nhìn ra khoảng cách giữa điểm benchmark và chất lượng cảm nhận thực tế.

Ứng dụng thực tế

Rất thực tiễn cho:

Đánh giá VLM/VQA trong sản phẩm
Kiểm thử captioning, visual QA, multimodal assistant
Xây bộ tiêu chí QA nội bộ sát người dùng

5) Morphing into Hybrid Attention Models

Paper: 2606.30562
GitHub: https://github.com/LanDisen/FlashMorph

Bài toán

Transformer full attention rất mạnh nhưng chi phí cao khi xử lý ngữ cảnh dài. Linear attention rẻ hơn nhưng thường giảm chất lượng. Vấn đề là: làm sao chuyển mô hình sang hybrid attention mà mất ít hiệu năng nhất?

Ý tưởng

Paper đề xuất FlashMorph, xem việc chọn layer nào giữ full attention, layer nào chuyển sang linear attention là một bài toán tối ưu dưới ràng buộc ngân sách.

Điểm mới

Thay vì thay toàn bộ kiến trúc một cách cứng nhắc, paper dùng:

Mô hình “morphable” layerwise gates
Regularization để ổn định quá trình tuyến tính hóa
Distillation trên logits

Cách tiếp cận này thực dụng hơn hẳn: giữ chất lượng ở nơi cần thiết, tiết kiệm chi phí ở nơi có thể.

Ứng dụng thực tế

Rất phù hợp với:

Phục vụ mô hình context dài
Giảm chi phí inference cho chatbot tài liệu dài
Chuyển đổi mô hình hiện có sang dạng tiết kiệm hơn

6) Multi-Resolution Flow Matching: Training-Free Diffusion Acceleration via Staged Sampling

Paper: 2607.01642
GitHub: https://github.com/Xingyu-Zheng/MrFlow

Bài toán

Mô hình sinh ảnh kiểu diffusion/flow matching cho chất lượng tốt nhưng suy luận chậm, đặc biệt ở độ phân giải cao.

Ý tưởng

MrFlow tăng tốc theo cách rất thực dụng: sinh ảnh ở độ phân giải thấp trước, sau đó dùng super-resolution trong pixel space và bổ sung noise injection để khôi phục chi tiết, tất cả theo pipeline staged sampling.

Điểm mới

Điểm hấp dẫn nhất là không cần train lại và không cần sửa đổi runtime quá nhiều. Tác giả tận dụng thực tế rằng chi phí tính toán tăng theo số token/pixel, nên giảm độ phân giải ở giai đoạn đầu mang lại lợi ích rất lớn.

Ứng dụng thực tế

Hữu ích cho:

Text-to-image tốc độ cao
Preview generation
Triển khai mô hình sinh ảnh trên hạ tầng hạn chế
Hệ thống cần nhiều ảnh nháp nhanh trước khi render bản cuối

7) AgenticDataBench: A Comprehensive Benchmark for Data Agents

Paper: 2607.01647
GitHub: https://github.com/AgenticDataBench/AgenticDataBench
Project: https://agenticdatabench.github.io

Bài toán

“Data agent” đang là xu hướng nóng: agent làm EDA, làm sạch dữ liệu, vẽ biểu đồ, chọn mô hình, giải thích kết quả. Nhưng benchmark cho nhóm tác vụ này còn rời rạc.

Ý tưởng

AgenticDataBench xây dựng một benchmark toàn diện cho data science workflows, phủ nhiều domain, nhiều loại nhiệm vụ, và gắn nhãn kỹ năng chi tiết.

Điểm mới

Paper không chỉ gom task lại, mà còn cố gắng đảm bảo:

Độ phủ domain tốt
Task sát thực tế
Annotation ở mức kỹ năng
Metric phản ánh năng lực vận hành dữ liệu chứ không chỉ QA thuần túy

Đây là bước cần thiết để đánh giá agent làm dữ liệu một cách nghiêm túc.

Ứng dụng thực tế

Rất giá trị cho:

Đội ngũ xây copilot cho analyst
Benchmark AI hỗ trợ BI / analytics
Đánh giá agent viết code pandas / SQL / visualization

8) ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

Paper: 2607.00466

Bài toán

Trong hệ thống phục vụ MoE quy mô lớn, đặc biệt khi prefill và decode bị tách rời, decode có thể trở thành nút nghẽn vì việc truy cập expert và cache không tối ưu.

Ý tưởng

ELDR là một cơ chế decode routing nhận biết expert locality. Nó dự đoán expert nào sẽ được kích hoạt và điều hướng request sao cho tận dụng tốt hơn cache và vị trí expert.

Điểm mới

Thay vì xem routing decode như bước đơn giản sau prefill, paper xem đây là một bài toán tối ưu hệ thống riêng. Các kỹ thuật như:

Signature cache locality-band routing
Dự đoán expert activation

Giúp giảm độ trễ token đầu ra.

Ứng dụng thực tế

Rất phù hợp với:

Serving MoE ở production
Hệ thống inference phân tách prefill/decode
Tối ưu TPOT và throughput cho LLM lớn

9) Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

Paper: 2607.00248

Bài toán

Nhiều mô hình mạnh trên benchmark nhưng yếu khi gặp long-tail knowledge, chỉ dẫn phức tạp, và các tình huống đời thực nhiều nhiễu.

Ý tưởng

Seed2.0 trình bày model card tập trung vào mục tiêu tiến gần hơn tới “real-world complexity”: cải thiện reasoning, hiểu hình ảnh, khả năng search, và độ bền trước yêu cầu phức hợp.

Điểm mới

Dù là model card hơn là paper kỹ thuật thuần túy, điểm đáng chú ý là cách nhóm tác giả đặt vấn đề đánh giá dựa trên nhu cầu người dùng thực tế, thay vì chỉ săn điểm benchmark chuẩn.

Ứng dụng thực tế

Có ý nghĩa cho:

Đánh giá readiness của foundation model
Xây assistant đa năng
Theo dõi tiến bộ mô hình ở các năng lực khó benchmark truyền thống

10) Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

Paper: 2607.00461

Bài toán

Trong multimodal reasoning, một hướng tiếp cận là để mô hình suy luận trên latent continuous space thay vì chỉ dùng token rời rạc. Tuy nhiên, cách train thường gặp vấn đề train-inference mismatch và thậm chí bị answer leakage.

Ý tưởng

Paper đề xuất Asymmetric Mutual Variational Learning, dùng huấn luyện biến phân hai chiều để hiệu chỉnh giữa posterior và prior, giảm lệch phân phối giữa giai đoạn train và suy luận.

Điểm mới

Đóng góp chính là cơ chế bidirectional calibration với cả forward và reverse KL divergence.

Read on DEV Community ↗ ← Back to News

Top AI Papers on Hugging Face - 2026-07-05

1) Program-as-Weights: A Programming Paradigm for Fuzzy Functions

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

2) AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

3) EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

4) PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

5) Morphing into Hybrid Attention Models

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

6) Multi-Resolution Flow Matching: Training-Free Diffusion Acceleration via Staged Sampling

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

7) AgenticDataBench: A Comprehensive Benchmark for Data Agents

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

8) ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

9) Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

Bài toán

Ý tưởng

Điểm mới

Ứng dụng thực tế

10) Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

Bài toán

Ý tưởng

Điểm mới

Comments