免费素材网站可商用,做网站如何网站考虑优化,犀牛云网站建设,wordpress move导入数据用脑补而不是重传对有损传输进行纠错 后#xff0c;有朋友评论#xff1a; 可现代的图像压缩、数据编码已经很大程度上把可以脑补的空间从传输载荷中沥干了——完美编码下所传输的数据是近乎噪声的没有任何特点的分布。在这个框架下#xff0c;被压缩的载荷如果随便丢了一点…用脑补而不是重传对有损传输进行纠错 后有朋友评论 可现代的图像压缩、数据编码已经很大程度上把可以脑补的空间从传输载荷中沥干了——完美编码下所传输的数据是近乎噪声的没有任何特点的分布。在这个框架下被压缩的载荷如果随便丢了一点什么、就缺缺实实损失了没法复原并且大段落的信息。这也是为什么一直要期待以tcp模拟无损传输媒介的原因。 随人工智能渐进我们必须能够设想 ai 间的通信方式。即将到来的海量交互的万物互联时代传统 tcp/ip 方式显然无法满足需求(主要是不带柔性的最短路径优先算法和不带柔性的可靠传输协议)作为一个例子知乎上一个问题特别有代表性我也给出了一个回答把 14 亿中国人都拉到一个微信群里在技术上能实现吗
今天在技术之外的语言学层面谈谈这个问题看看作为人类我们如何解决相互交流的通信问题可以此类比模拟人的心智的人工智能仍有希望重走相同的路。
通信的核心是编码对人类而言编码即语言和文字。对比两种代表性的语文中文和英文的诉诸对象很多事实其实就在眼前。
中文作为象形文字代表其实物可追溯到商代甲骨文(我出生在甲骨文故乡我老婆母亲的外公主持过 1930 年代甲骨文挖掘工作)而英文作为字母文字代表其实物可追溯到克里特岛和伯罗奔尼撒岛的爱琴文明(业余研究了 25 年有余)甲骨文和线形文字的不同起源背景可见两种文字不同的核心本质。
甲骨文主要用于占卜。在东亚大陆并没有大的地缘隔离各地区(比如当时的河南山东陕西)无论在地貌还是物产上相差无几物质同类没有太大的物资交换所必需的交流动机因此甲骨文记载的文字并不直接用于交流。果真用于占卜激励并取悦国王国王供养的祭司阶层主观上并不希望平民掌握这种文字从而垄断这种文字的解释权为自身获益。
至少在最初甲骨上的象形文字以记录为主交流为辅助。
线形文字完全不同它诞生于地中海文明圈这块地方从近东腓尼基人据点经过塞浦路斯克里特岛伯罗奔尼撒岛希腊半岛西西里岛亚平宁半岛一直到迦太基角几乎都是地理隔离的它们在物质上很依赖其它地方商业交流甚至掠夺战争是常态交流成为硬需求。线形文字以简单的线形笔划替代复杂的符号表示简单音节满足了地中海文明圈的需求。
至少在最初线形文字以交流为主辅助记录但他们也可能用另外的文字进行记录。
这篇文章不专门讲历史对甲骨文和线形文字的年代以及此后发生的事情不详述只需知道最终甲骨文变成了汉字而线形文字变成了英文(以及很多别的字母文字)但它们几乎都没有丢掉其产生时的背景动机足足影响了后续文明 3000 多年。
语音侧重交流而字型侧重记录商业和占卜捡其所需分别选择了字母文字和象形文字。可是事后看先人们这种懵懂选择的合理性到底在哪
中文汉字是压缩率非常高的文字我们能看到的关于中文的缺点在压缩率方面都是它的优点。
汉字听到写不出来看到却又不会读有个段子一个老外向中国朋友抱怨说自己学了好几年中文听说完全没问题就是不能读写中国朋友告诉它别担心中国人中有超过一半(显然保守了)的人跟你一样。
汉字符号复杂难以记忆这不是汉字难读写的根本汉字难读写的根本在于读音和字型对不上汉字的听说和读写系统是独立发展的一音多字一字多音对于一个没有中国文化背景的外国人很难在字音和字型之间总能做出正确的对应。即便是中国人介绍自己名字时也必须人工对应比如 “我叫山鸡xx 的鸡”。
另一个有趣的例子“我蒙泽于他”如果单独学习过 “蒙” 和 “泽”理解它们分别是 “盖上”“潮湿” 的意思这句话对于学习者而言就是 “我被他的潮湿覆盖” 而 “蒙泽” 只是一种比喻语没有背景完全不知道很多中国人自己也不懂什么是 “蒙泽”。绝大多数任何组合词都有这问题比如 “开水”“雪耻”“生存”“熟识”单看每一个字的含义和组合词的含义大相径庭。
和学习英文时单词量越大越上道不同学习中文时孤立汉字学得越多可能越糊涂。
学习中文有个前置就是先学背景文化知识获得一种汉字环境的共识如果没有背景知识作为解压缩汉字的共识与段子里老外说他 “听说完全没问题” 不同听说也会很费劲。
当听到 “经理” 这个词它指什么解压缩后它可能是 “经络纹理”“经营管理”“经世明理”“经常被修理”…
在不能保证每个人发音一致的客观情况下(注意这里要涉及有损传输了)当你错听了一个汉字或者听漏了一个汉字由于汉字的孤立字型对应单音节发音会丢失很多的意义载体。仍以 “经理” 举例读作 “jing li”如果没有听到 “jing”或者听到了发音不准的 “jin li”几乎没有任何手段将其纠错恢复成 “jing li 经理”也许你会误解为八杆子打不着的 “锦鲤”。
每个汉字的二维结构编码对应一个单音节在听说过程中丢失一个音节就丢失一个汉字而一个汉字可能包含有非常核心的含义比如上述的 “蒙泽”如果错听成 “蒙灰” 会怎样“我被他的潮湿覆盖” 显然是错的但 “我被他的灰尘覆盖” 可能就对了。
汉字是很不适合做有损传输的人与人之间的语言交流其实就是一个有损传输环境一个例子是东北人和广东人写同样的汉字但说起话来却互相完全听不懂在这个例子中方言可以理解为对方之于自己方言的不准确发音。
但汉字非常适合记录存储二维方块字空间压缩非常紧凑读音脱离字型在别处并不在记录中。现代出土的古籍读音虽然可能早就不同但仍能识别大意紧凑的代价就是丢失了读音但这看起来并无所谓。
把中文的例子反过来看英文。自然语言的交流必须诉诸听说这是英文的优势。其中两点非常重要一维多音节编码提供了单词冗余屈折语法提供了句法冗余。
英文的特点是听到就能写出来看到就能读出来。由于英文的一个单词对应多个音节听错或听漏一个音节也可以从其它音节中将其恢复同样拼写错一个字母也很容易从其它字母中恢复。比如 “anderson”即使看到 “andersoX”也可以恢复为 “an de sen”如果汉字 “安德森” 缺了 “森”就无法区分 “安德森”“安德烈”“安德鲁” 了。
作为屈折语的英文存在变格时态语态在读音上有连读规则都对 “纠错恢复” 提供了依据比如哪些结构前后必须是哪些结构哪些词前后必须是哪些词语法上很严格但在读音上却很松散这些特点和作为孤立语的中文汉字完全不同汉字与此相反语法很松散读音很严格这意味着即使印度人和日本人用英文交流丝毫无障碍而两个不同的地方的人用中文几乎无法交流(感谢普通话吧)。
事情总守恒英文自带纠错能力非常适合交流但因为它的一维多音节编码不太紧凑对于存储而言却有些浪费同样一本书中文版可以很薄英文版却很厚。
屈折语即使对于存储英文在传输和存储之间的权衡也有迹可循。
和哈夫曼编码的思想类似在屈折语的语言自然进化过程中常用单词倾向于用更少的音节编码以降低听说读写开销但另一方面更少的音节意味着冗余度降低而越常用的单词误码概率越高因此对于常用词不能太长易读写也不能太短易纠错。
对于孤立语由于单音节构词书写系统和读音很容易分离到两条独立路径单音节字型不断被压缩进新的含义而读音系统却独自走上类似屈折语的道路这个从汉字的 “象形”“会意”“假借”“形声” 四阶段发展路径中可见一斑如今我们看各地方言特别是南方方言和北方的晋语安阳片与屈折语的听说系统非常类似念出来都是 “一嘟噜一串儿”。
不管英文还是中文方言对于交流都选择了屈折语的听说系统。
我不知道在后来的历史发展历程东亚大陆更多非易失但不易得的硬质读写介质对语言文字的影响有多大但如果在公元前 2000 年就有了易失且易造的纸我想汉字也会走上屈折语的道路因为此时即便对于存储的误码率也不低了。有一点很明确目前的考古学和语言学研究已经表明在更早的二里头文化时期中国人早期的语言确实是屈折语文字显然是后来的事。
人类文明最自然的交流方式就是使用多音节词的屈折语进行交流。
语言诉诸交流也就是传输强冗余纠错文字诉诸记录也就是存储强压缩。
但传输和存储对于介质而言是一回事信息都要在时间和空间小心翼翼地通过介质。因此压缩还是冗余这是一个权衡的结果。
回到计算机网络点一下题。
为了降低空间占用如朋友的评论所说现代编码算法已经榨干了可用的任何纠错空间包括不限于 unicode(utf8)jpeg以及几乎所有现代音视频编码于是只能为这些编码构建一个无损的底层传输信道比如使用 tcp 传输即使有编码承认自己容忍有损传输但显然这种有损并不是严格的比如某些 “关键帧” 丢了还是要重传。显然这并不是自然的方式特别是目的是为了交互而不是为了拷贝时。
终点是存储介质的编码方案强调压缩没毛病这种场景一般具有守护然而终点是对端的交互编码方案却必须强调冗余。
我们无法想象人工智能之间使用 tcp 或有约束的 udp 作为交互协议会怎样海量流量会不会炸崩整个网络。但显然现如今编码方案的交互代价很高为一个比特的误码重传一个 mtu 的数据代价太大在海量终端交互的极端场景中这种方式将使网络在实时性约束下彻底不可用。
在压缩为核心的编码内核之下包括 fec 在内的任何缓解措施都是辅助自然的方案是从编码中纠错而不是从协议中纠错我们目前的 fec 更多强调 “大声喊”而不是 “从意义中恢复缺失的部分”这种 fec 显然不是语言学层面的 fec它只是协议的附带。
自然的方案需要在流量和纠错能力之间权衡纠错能力越强的编码越长我们不应该去赌错误不会发生或者小概率发生而去构建无损信道然后在这个无损信道上传输不需要纠错的短编码反过来我们应该接受信道有损的普遍性从而去选择一个稍微长但又不很长的编码介于中文和英文之间就像我们的祖先曾经做过的那样。
浙江温州皮鞋湿下雨进水不会胖。