悬赏已过期 后悬赏过期

ChatGPT是怎样工作的?

邀请:
ChatGPT是怎样工作的?


📌1. ChatGPT怎么”说话”?
想象你在写一封邮件,每次只能看到前面已经写好的内容,然后猜下一个词应该是什么。ChatGPT就是这样工作的——它每次只生成一个词(专业术语叫token)。
比如当你输入”人工智能最大的优势是它的能力去…”,ChatGPT会在大脑里(实际是神经网络)计算出一个概率表:
“学习” 4.5%
“预测” 3.5%
“理解” 3.1%
“适应” 2.9%
但这里有个精妙的设计——它不会总选概率最高的那个词。 就像一个优秀的作家,如果每次都选最”安全”的词汇,文章会变得枯燥乏味。所以ChatGPT有个”温度”旋钮,让它偶尔”冒险”选择那些概率稍低但更有趣的词,这就是为什么它的回答总是富有变化。


📌2. 为什么不能简单地靠”死记硬背”?
早期研究人员尝试过最简单的方法——统计词语的搭配规律。比如记录”the”后面最常跟”a”或”of”,这叫做n-gram模型。听起来不错?
问题在于组合爆炸。英语常用词汇约4万个,如果要记录所有两个词的组合,就有16亿种可能;三个词的组合?60万亿种;如果是20个词的句子,可能性比宇宙中的原子数量还多。
这就像你想学做菜,不可能记住所有食材的所有组合方式,而是要掌握烹饪的”原理”——火候、调味的规律。神经网络就是ChatGPT学到的这种”语言烹饪原理”。


📌3. 什么是”模型”,它和死记硬背有什么区别?
17世纪伽利略做落体实验时面临同样的问题:他可以测量从10米、20米、30米落下的时间,记录成一张表。但如果要知道15.7米的情况呢?难道要重新实验?
聪明的做法是找到规律: h=½gt²。这个公式就是一个模型——用少量参数(重力加速度g)就能预测无限种情况。
ChatGPT的神经网络也是这个逻辑,但复杂得多——它有1750亿个”旋钮”(权重参数),通过这些旋钮的精细调节,学会了人类语言的内在规律。这就像一架超级复杂的乐器,1750亿个琴键协同工作,奏出流畅的语言交响曲。


📌4. 神经网络内部到底在”想”什么?
这是最令人着迷也最神秘的部分。以图像识别为例,研究人员发现:
第一层神经元学会识别边缘、简单线条
中间层开始识别”猫耳朵””眼睛轮廓”等复杂特征
深层则形成抽象概念,比如”猫的姿态”
但诡异的是——这些特征都是神经网络自己发现的,没人教它什么是”猫耳朵”。就像一个孩子自己总结出”有四条腿、会喵喵叫的是猫”,但说不清具体怎么判断的。
Wolfram(Wolfram Alpha创始人)把这比作”吸引子”效应:神经网络把输入空间划分成无数个区域,相似的输入会被”吸引”到同一个输出。这也解释了为什么ChatGPT偶尔会”一本正经地胡说八道”——某些输入恰好落在了错误的”吸引区域”。


📌5. 训练ChatGPT就像爬1750亿维的山?
训练神经网络的核心是梯度下降——想象你在一座大山上蒙着眼睛找最低点:
摸摸周围的坡度,找到最陡的下坡方向
朝那个方向走一小步
重复这个过程,最终到达山谷
但ChatGPT的”山”是1750亿维的!人类完全无法想象这种空间。更反直觉的是,2011年深度学习革命发现:参数越多,这座”山”反而越容易爬——因为高维空间中局部最低点(陷阱)反而变少了,就像在一张平面纸上容易有坑洼,但把纸揉成高维空间后,大多数”坑”都被展平了。


📌6. 为什么需要”嵌入”这个魔法?
计算机只认识数字,怎么让它理解”猫”和”狗”更像,”猫”和”汽车”不像?
ChatGPT的解决方案是嵌入(Embedding):把每个词变成一个12,288维的向量(一串数字)。这听起来抽象,但结果很美妙:
“国王”-“男人”+”女人” ≈ “女王”
“巴黎”和”法国”的距离 ≈ “东京”和”日本”的距离
神经网络在训练中自己发现了这些语义关系,把它们编码进了这个高维”意义空间”。当你看到可视化图时会震撼:所有动物聚成一团,水果聚成另一团,情感词汇又是一团——这是机器自己发现的人类知识地图。


📌7. “注意力机制”为什么是革命性的?
传统神经网络有个致命问题:处理长文本时会”失忆”。读到第100个词时,已经忘了第1个词是什么。
Transformer的注意力机制彻底改变了这一点。想象你在读一句话:”小明把书放在桌子上,然后掉了下来。” 要理解”它”指什么,你的眼睛会自动回顾前文——注意力机制就是在模拟这个过程。
ChatGPT有96个”注意力头”,像96双眼睛同时工作:
有的专注于语法关系(主谓宾)
有的追踪指代关系(它、他、这)
有的捕捉长距离依赖(段落开头和结尾的呼应)
这96双眼睛协同工作,让ChatGPT能”记住”并理解长达几千字的对话。


📌8. 人类反馈到底改变了什么?
最初的GPT只是个”续写机器”——给它”从前有座山”,它可能续写”山上有座庙,庙里有个老和尚…”但也可能续写一些无意义或有害的内容。
人类反馈强化学习(RLHF)是让ChatGPT变得”懂事”的关键:
人类评估员给大量回答打分
训练一个”品味模型”学习人类偏好
用这个模型继续调教ChatGPT
神奇的是,只需要几万个人类打分样本,就能显著改善模型在数十亿对话中的表现。这就像父母只需纠正孩子几次”不许骂人”,孩子就能在各种场景下懂礼貌——ChatGPT学到的不是死规则,而是背后的价值取向。


📌9. 为什么ChatGPT会数学题却算不对?
这是Wolfram提出的核心洞察:计算不可简化性
有些问题必须一步一步算,没有捷径。比如计算578×943,你必须按照乘法法则一位一位算。ChatGPT的问题是——它没有”草稿纸”,每个token只过一遍神经网络,不能反复迭代计算。
它擅长的是人类语言,因为语言恰好不是计算不可简化的。”今天天气真好”的下一句,不需要复杂运算,只需要理解语境和常识。这也解释了为什么ChatGPT能写诗、讲故事、做摘要,却在复杂推理上会犯低级错误。


📌10. ChatGPT真的”理解”语言吗?
这是最哲学的问题。Wolfram给出了一个微妙的答案:
ChatGPT没有”世界模型”——它不知道重力是什么、水为什么往低处流。它只是一个超级复杂的统计模式匹配机器,通过1750亿个参数,记住了”人类通常会怎么接话”。
但神奇之处在于:人类语言本身就编码了世界知识。当人类说”苹果从树上掉下来”,这句话的语法结构、词汇选择,已经暗含了重力、因果关系等概念。ChatGPT通过学习数十亿句话的模式,间接学到了这些知识。
这就像一个从未离开过图书馆的人,只通过阅读就能对世界侃侃而谈。Ta确实没有亲身经历,但语言作为人类文明的结晶,已经携带了足够多的智慧。

终极答案:ChatGPT是人类语言规律的一面镜子。它的成功不是因为AI有多聪明,而是因为揭示了一个深刻真相——人类语言,这个看似无限复杂的系统,实际上有着可学习的统计结构。而Transformer架构,恰好是提取这种结构的完美工具。这既是AI的胜利,也是对人类语言本质的一次科学验证。



您的回答

回答

默认排序 时间排序
图片审查中...
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索