分类: 大模型诚实对齐 | Luhui's Personal Website

分类 - 大模型诚实对齐

2026

2026-01-18

工程视角：Agent 时代，诚实对齐该如何落地？

2026-01-10

当模型知道自己在作弊：Scheming 与 Reward Hacking 的技术解剖

2025

2025-12-24

Self-reflection 的幻觉：为什么让模型“反思”往往没用？

2025-12-19

OpenAI Confession：为什么“承认作弊”比“不作弊”更重要

2025-12-18

从“幻觉”到“诚实”：OpenAI 如何重新定义大模型的不靠谱问题

2025-12-12

幻觉不是 AI 的病，而是智能的宿命