对于个人利用生成式AI创作以及目前AI Agent包括LLM无法进行深度创作的分析,现阶段的高质量人机互作应该是基于深度交流的沟通而不是单方面的表达与要求
前言
注意:
本文所有仅为个人观点。以下所探讨的是基于超长文本创作得出的一般性结论,因此短篇内容的结果可能并不符合即将在下面展开的内容。另外,利用AI改写与扩写不在文章讨论范围以内。
本文不会探究概念性的本质去证明一些什么,而是通过在实际的应用中总结出来的经验或方法论去尝试获得一些理论,并在将来的深度人机互作中提供些许指导。
介绍
在深度尝试LLM(大语言模型)进行长文本式创作后,包括但不限于一本发布在番茄的20万字长篇小说——这并不是简单的要求GPT(主要使用)直接进行输出。
笔者对现阶段LLM以及AI Agent(即LLM + Planning + Memory + Tools)的认识有所丰富。
本文旨在对个人使用LLM进行创作经验的总结以为后续利用更加完善的工具进行深度创作提供指导,且分享一些拙见。
概念认识
下面是一些术语:
Token:是衡量大模型推理算力的单位,单词、标点、数字、符号等字符都可作为一个Token,就像电力按“度”计费、流量按“G”计费一样。
Prompt Engineering:是指通过精心设计输入的提示(prompt)来引导大语言模型生成所需的输出。对于LLM,输入的提示往往会直接影响模型的响应。
KPI:即关键绩效指标(Key Performance Indicators),是衡量业务流程效果的一种量化指标,它帮助组织了解是否达到了其业务目标。
我为何创作
我的创作灵感来源于阅读《局外人》与《百年孤独》后,想尝试着脱离传统的荒诞小说的魔幻色彩,将现实世界戏剧化并结合现在比较有趣的规则怪诞类型的网络文学。
不得不承认规则怪诞本身就是荒诞荒谬的延申,但网络文学更侧重于一种爽快感。
加缪笔下的默尔索与他开创的荒诞文学令人着迷。加缪眼中的人生荒诞感是人对世界的主观感受。
因此,我就尝试在以上二者间结合,将这种感受衍生出主角眼中客观存在的规则怪诞。
奈何笔者现阶段在主观与客观并存的因素下(深感遗憾),没有进行自主的深度创作。
我最终亏待了意愿,满足了虚无缥缈的灵感,利用AI创作。
我是如何创作的
Prompt在创作中作为一个重要角色。这是经过多次迭代后的prompt(将我想要写作的内容结构化输入,在多次沟通改进后的汇总结果),算得上一份大纲。
在我要求gpt将其全部记忆确保不会因为上下文长度的限制而使它忘记前文在写什么,就开始了每一章的写作。
接下来我并没有完全放任情节的走向。相反,每一章我都在对它进行指导,规划情节的走向。
我在创作中遇到了什么问题
- 无法控制情节走向,尽管我试图通过prompt提醒它
就好像你在教导一个孩子如何走路,牵着他往北走,他却拉着你往西北或东北走,越来越偏,你还拉不动。
大语言模型的这种趋向平均的特性似乎是与生俱来的局限,这是由它的自监督和自回归的学习机制导致的:一个 token 与另一个 token 共现的频率就是最具引导性的 KPI,那些容易造成不和的(divisive)token 难逃被平均化的命运。
- 无法控制地出现很不舒服的叙述(在这之后每当看到这样的叙述我就知道是AI写的)
笔者认为简单来说就是模糊性与不确定性。
这并不是因为prompt可能会使输出的概率更倾向于某个词语的输出,可能恰恰因为这种不确定性,是来自于大量趋于平均化的数据,使得奖励模型得到的评分更高。
他不知道这句话意味着什么,但他隐约觉得,自己的生活正在被某种不可见的规则改变着。
他突然意识到,自己似乎已经身处某种游戏之中,而规则从未被真正说明过。
他明白,自己已无退路,而每一步棋,都将引领他走向更深的谜团。
他抬头看着街道尽头,眼神中透露出一种新的决心。
他知道,无论规则如何荒谬,他必须找到这条路的尽头。
- 无可避免的割裂感(具体表现在章节之间)
每一章节的末尾总是通过前文的不确定性语言结尾,而导致下一章的开头经常从莫名其妙的叙述开始。
我试图通过prompt优化文章的连贯性,但效果甚微。
- 强烈的使命感与极其正确的价值观(这并不是说这不好)
这倒是可以理解,在模型公布之前的微调阶段,对于回答进行规范与约束是必要的。
但在长文本创作中,更多的文字加强了输出文字趋于正确价值观概率的表现,这导致文章风格在中后期的表现令人汗颜与疲劳。
- 词汇贫瘠或者说是趋同化严重
比如每一章的标题,如“现实的裂痕”“裂痕之中”“裂痕之外”“镜中裂缝”“裂缝之间”(ʅ(´◔౪◔)ʃ)。
尽管这些标题不是连在一起的,但也好不到哪去了。
用词问题不仅体现在标题上,正文的问题同样不小,不具体展开了。
在我的prompt中包括(多样性Perplexity衡量文本的复杂程度,反映词汇的丰富性和不可预测性。更高的多样性表示内容更加多变并且更难预测),但这一要求并没有被执行贯彻。
具体原因大概也是长文本的创作导致记忆的丢失。
但我也试图通过频繁的prompt提高文本质量,但这让大模型认为我的要求更新,导致它不按照最初的记忆而遵循新提出的要求。
也就是这样一次次的沟通,我逐渐拉不动这个孩子了。
为什么会出现这些问题
显而易见的是通过简单的输入“请你为我创作一篇能够获得诺贝尔文学奖的作品”这不够现实也是不可能的,甚至在遥远的未来也永远不可能。
为什么?
关于理解
这是LLM本身的局限:它并不是在创作,并没有真正的像人类一样去理解。
——这里所说的理解,广义上我们这样定义它:(只是表面去阐述而不涉及生物学等)我从你的输入(语言)中得到了特定的符号,这些符号是对于现实世界具体事物的抽象认知;
这些符号之间存在某种逻辑关系,我作为人类能够将这些符号组合起来,能够解读出你想要传达的信息;
符号之间的逻辑关系帮助我构建起了一个意义框架,是我能够理解话语的深层含义;
在此基础上,我会解码意义、情感共鸣、联想记忆、推理判断、进行规划、决策行动、反馈调整。
嗯?不对,这不就是AI Agent(LLM + Planning + Memory + Tools)了吗?的确,Agent就是以这样的逻辑去被提出并构建出来的。
但是,有一个重要的词语被忽略了——“符号“。
符号
符号是人类对现实世界的抽象映射,它不只是单纯的标记,还承载了情感、文化背景、历史语境等多维度的信息。
我们在处理符号时,不仅关注其表层含义,还会关联个人记忆、经验和情感,从而形成深层次的理解与创造力。
例如,“苹果”作为符号,对于AI是某种模式匹配,但对于我们,感官上的体验出现在脑中。
局限
LLM的符号处理基于统计和概率模型,它在某种程度上“模仿”了符号与符号之间的逻辑关系,但无法真正”理解“符号背后的情感与文化深意。
AI在生成内容时无法对符号赋予原创的情感与深度,它并不能将“苹果”与个人的感官体验关联。
关于奖励
这里我们并不讨论模型发布前训练阶段中的奖励模型阶段,而是在与用户对话的上下文文本中。
在对话中,LLM会根据反馈(无论是显式的还是隐式的)来动态调整其回答,内部实施一种“奖励模型“(并不是LLM构建流程中的Reward Modeling),其中正面的反馈被视为“奖励”,鼓励模型在未来的对话中复现类似的行为。
而在沟通交流中,包括prompt中出现的带有反馈性的词语在我们并没有察觉的情况下会影响这个“奖励模型”,进而在未来的对话中出现出乎意料的回答。
另一方面,长文本的字数更是会强化这一限制。
与AI共创
我们不得不承认现在的AI仍处于起步阶段,但它的潜力不可小觑。
也许,从底层逻辑来看,LLM依赖于庞大的数据和统计模型,输出基于概率,而非真正的认知。然而,人类的行为是否完全基于绝对客观的认知?我们的语言、决策和行为同样受限于经验、情感和文化背景。正如我们尚未全面理解自己的大脑,AI技术的背后也有许多尚待探索的“黑箱”。
人类的直觉、创造力和情感仍是现阶段的优势,但未来AI可能通过模型逐步模拟这些特质。尽管AI无法真正感受情感,但它已经能在许多场景中模仿并生成情感化的内容。我们与AI的合作不仅仅是技术工具的使用,更是对深度交流的探索。
基于当前对LLM的掌握,我们可以通过清晰明确的Prompt设计,与AI展开深度对话,将其视为一个创作伙伴。在艺术、文学、科学甚至哲学领域,AI提供了新的可能性,它的作用不是取代人类,而是扩展我们的思维疆界。借助AI,我们能够更高效地整理信息,突破传统创作的界限,同时通过与其互动发现自身思维的盲点。
未来的共创,需要我们在技术与人性之间找到平衡。如何在AI生成内容中保持主题的一致性和个性化表达?这不仅关乎技术,更关乎我们对核心理念的坚持与把握。
共创的美妙之处在于,AI既是工具,也是伙伴,帮助我们探索未知,赋予创作更大的可能性。
如果你想和我交流,请加我: