新思路的操作系统结构【强人工智能吧】

　　本文是《词汇不是语言交流的最基本元素》的续篇。

　　　相关主题：
　　《看不清搞语言处理的路数》https://tieba.baidu.com/p/5480864961
　　《建议改变一下自然语言处理的思路》https://tieba.baidu.com/p/5498750982
　　《处理自然语言的新思路》https://tieba.baidu.com/p/5504518607
　　《词汇不是语言交流的最基本元素》https://tieba.baidu.com/p/5510036301

　　１３、处理“意思”需要系统有几个数据库。
　　我们前面只出了，语言交流应该以从输入语句中提取“意思”。并给出了大脑或智能系统在遇到三种不同情况时，提取“意思”的不同方法。
　　据此，我们便可以得出语言处理和语言理解新思路的编程方案，这个方案也可以叫做“提取‘意思’算法”。我们分几个小课题一一讨论这个“提取‘意思’算法”。首先我们要讨论的是，在智能系统中要编入的三个数据库。
　　这三个数据库都是人编数据库，由程序员编好放入智能系统之中。它们分别是“‘意思’句型数据库”、“不完整‘意思’询问数据库”和“复杂语句疑问数据库”。前面的讨论已经指出，这些数据库所用语句很少。因此，编写这三个数据库并不困难。
　　在‘意思’句型数据库”中，主要是给出以“是”字为核心的主系表结构，有主动宾结构，由表示方位、处所的结构等几类语句，智能系统可以依据该数据库的句型，从输入语言中检索到所传达的意思。
　　在“不完整‘意思’询问数据库”中，主要是给出输入语言“意思”不完整时，需要提问用的语句。它们中有以“什么是”为核心的疑问句，有以“怎么样”为核心的疑问句，有关于方位（从哪儿，到哪儿）、处所（在哪里）等疑问语句，
　　在“复杂语句疑问数据库”中，基本就是“这几个字传递什么‘意思’？”、“这个词汇传递什么‘意思’？”等这样几个疑问语句。
　　当然，处理语言的智能系统还需要建立一些有关语言的数据库，不过它们都可以用“自编程算法”的自编数据库能力自建，不属于程序员的工作范围。

　　１４、提取“意思”的小程序。
　　由以前的讨论我们可以看出，处理语言的程序主要由几个提取“意思”的小程序构成。
　　提取“意思”的程序，其工作是对输入语言进行检索。对不能构成完整“意思”的输入语言，通过提出疑问，获得外界的补充输入。对能构成完整“意思”的输入语言，则进行接收，同时即能理解。对“意思”较多的复杂语句，先用完整“意思”检索程序，检索出主要“意思”，然后再用对其它成分渐次提出疑问的方式，继续提取其它成分的“意思”。
　　以上一共是三类处理方式。组成这些操作的小程序分别是：从输入语言检索“意思”程序，检查输入“意思”是否完整程序，启动系统内提问程序，启动对复杂语句其它成分提问程序。系统内按一定顺序罗列输入语言意思程序。
　　这些小程序或者互相搭配，或者重复运行，构成提取“意思”的自编程序。

　　１５、“处理语言系统”的“知识库”。
　　我们在第十二段（https://tieba.baidu.com/p/5510036301《词汇不是语言交流的最基本元素》）中指出，还要从输入语言中找出此次语言交流的重点，智能系统能否做到这一点，由智能系统内部的“知识库”决定。在这个数据库中保存着系统以前获得的知识。
　　这个“知识库”基本是由智能系统在学习语言、处理语言过程中自己为自己建立的。编好一个智能系统，它最初可能一点知识都没有，因此它处理语言的能力会很低下。但是智能系统可以进行学习，用学习到的知识建成“知识库”。具体办法是把从语言交流中获得的知识，分门别类的保存在一个数据库中。
　　在这个数据库中保存的基本是以简单语句为形式的“意思”。也就是说，知识库中保存的是一些具有完整信息的简单语句。因此“知识库”的体量不会很小。
　　由于一个智能系统的“知识库”会变得越来越大，因此它中间要分成很多门类。每个门类都有目录引导，目录可以分成几级设置（也就是分成大目录、中目录、小目录、小小目录等若干级），智能系统在检索知识时，可以依靠目录的引导，进行快速检索。
　　为了加快对“知识库”的检索，在知识库中还会保存一些知识的提纲、大意，它们与目录一样可以指示出知识的保存位置，同时给出简明扼要的知识梗概。

　　又由于“知识库”很大，因此采用完全自建的方式，会耗费很多系统调试时间，因此我们可以在智能系统编制初期，人为地构造一个“知识库”。该知识库不必面面俱到，以智能系统开始运行时，能够完成一些调用知识的工作为标准。人为地构造一个面面俱到的“知识库”，既不现实，又要耗费很多编程人员的精力。好在此时系统的自建“知识库”功能仍然保持。没有考虑到的那些知识，由自建功能补充进系统就可以了。因此，即便使用人为的、不完备的“知识库”，系统仍可以通过自建完善“知识库”。

　　１６、“处理语言系统”的“词汇库”。
　　为了输出语句的需要，处理语言的智能系统，还要有一个“词汇库”。“词汇库”与传统的“分词库”有很大的不同，它不是为输入语句分词而设置的数据库。它的任务有两个，第一个是在遇到复杂的输入语句时，“词汇库”用来解释修饰词汇的“意思”。协助系统从输入语句中提取更多的意思。第二个任务是用来造句，生成输出语句。
　　从内容上看，“词汇库”类似于人们使用的词典，它按顺序排列词汇，并给出每个词汇的解释。但是它没有词典那么完备、复杂。它只给出一些词汇的常用用法。
　　“词汇库”也是智能系统在学习过程中自建的，因此它要有一些程序支持“词汇库”的建设、补充、修改。为了减少处理语言系统的工作量，我们也可以像“知识库”一样，为系统预置一个“词汇库”，但是这个“词汇库”也不要特别完备。不足之处可以有系统的自建功能补充、修改，使之日趋完善。

　　１７、“处理语言系统”的“工作库”。
　　我们前面说过，智能系统在提取输入语言的“意思”以后，要对多个“意思”做出罗列，以便对主要“意思”作进一步提取。我们把这个罗列多个“意思”的数据库，叫做“工作库”。显然，为了更好地了解语境，更好地提取关键“意思”，这个“工作库”不能设置的太小，太小了影响分析资料的保存。但是也不宜过大，太大了会减缓系统的工作速度。
　　在语言处理的工作库中，可以保存从多个语句中提取的“意思”，以便再进一步提取重点“意思”时分析语境，分析对话人情绪，以及对话人精神状态。

　　从“工作库”中各个“意思”的罗列情况，智能系统也可以分析出输入语言的性质。
　　如果，输入语言是文本，其分布必然没有给智能系统留出回答的机会。此时便可根据这个特点断定输入的是文本。对于文本输入，智能系统要调用内部消化机制处理。即智能系统在对输入文本产生异议、疑问后，可提出问题，但是系统提出的问题别指望输入方做出回答，要从系统的“知识库”、“经验库”中找出答案。也可能是从前后文中找出答案。
　　如果输入的对话人的语言，势必给你留一些回答、插嘴的机会，系统便可根据这一特点适时做出回答。
　　如果系统遇到一个喜欢长篇大论，不给接收语言这回答机会的对话者。他的语言与文本语言没什么差别，即可看作是文本语言处理。

　　１８、“处理语言系统”的“经验库”。
　　经验与知识都是智能系统的资料，但是它们不同。知识是供系统分析语言用的，经验是供系统自编程序用的。
　　智能系统进行语言处理过程中，将会积累下在什么场合使用什么程序，效率最高，效果最好。这些资料就被记录在经验库中。在原有程序不足以处理新出现的语言现象时，智能系统要自己为自己编写程序。编写程序的依据就保存在“经验库”中。编写出的程序也需要与“经验库”的经验进行比较，用以选择出最好的自编程序。
　　“经验库”也可以有两种自建方式。第一种是纯自建数据库，用自建数据库机制，从无到有的自建“经验库”。第二种是混合方式。先由程序工作者编写一个不完备的“经验库”。在系统工作中，再由自建数据库机制对“经验库”进行添加、修改。

　　１９、思维参与语言处理。
　　新思路中的语言处理系统，并不能独立工作。它要与思维机制相互配合。
　　在前面我们已经指出，在智能系统接受“意思”，提取全部“意思”以后，要把全部“意思”罗列成“意思”序列，然后通过分析找出主要“意思”。当智能系统接受一批语句以后，要把各个主要“意思”排列成主要“意思”序列，再进行分析，概括出主要意思的小结。
　　继续，当智能系统做出一批小结以后，要把各个小结排列成小结序列，在进行分析后，总结出小结们的提纲。
　　这里，罗列、分析、概括、总结，就是一系列思维操作，而且是非逻辑思维操作。这就是思维参与语言处理的过程。
　　进而，智能系统还要对主要“意思”序列进行逻辑分析，找出输入语言内含的逻辑关系。从而使逻辑思维操作也参与到语言处理之中。
　　思维机制的结构，我已经另文介绍过了。它是一个由十几个基本思维操作组成的复杂思维系统。思维对语言处理的参与，就是把思维系统（又叫思维机制）和语言处理系统（又叫语言机制），设计为一个整体的智能系统。让两个机制在整体系统里相互配合。

　　２０、小程序带大数据库结构。
　　按照新思路构建的语言处理智能系统，有一个很大的特点，就是其数据库非常庞大。它需要那么多个数据库去协助工作，必定要占用很大的内存空间。
　　而且，这个系统在关机时还要把内存中的数据，保存入外存设备，以保证这些数据不会消失。而保存在外存设备中的数据，会随着自建数据库的扩张，而不断增大，最后形成一些比内存庞大得多的外存数据库。
　　开机后，这个处理语言的系统还要把外存中的数据，按不同数据库的设置，调入内存。而当外存容量大于内存可使用空间后，就要有计划的、分批的从外存调入数据，以保证语言处理系统的正常工作。
　　这样，这个语言处理系统的程序部分不会太大，而其数据库占用的内、外存空间都会很大。而且系统还要能根据需要，自动地交换内存与外存间的数据。
　　对于这样的程序结构，如何解决好小程序带大数据的问题就显得十分重要。

　　２１、运行程序的数据化特征。
　　由于本思路的程序采用“自编程算法”，因此它就具有“自编程算法”的程序特征：也就是运行程序的数据化。
　　什么是运行程序的数据化？就是在该智能系统中绝大多数运行程序保存在系统的数据库（它叫做“程序库”）中，而且这些运行程序是以数据的形式保存的。
　　一般程序系统的运行程序是用计算机高级语言编写的，从广义上讲，这些程序在系统中也是数据，但是它们不是一般意义的数据，而是高级计算机语言。而且它们要与系统工作平台配合，才能运行，因此它们保存系统运行平台上，而不保存于智能系统之中。并且是由系统运行平台按编写要求依次运行。因此这样的智能系统不需要自己设置“程序库”，也不必保存数据化程序。
　　而在“自编程算法”中，除去基本的“小程序”（小函数）用高级计算机语言编写外，其它的运行程序，是智能系统自编的程序，它们是“小程序”的各种组合，它们的运行由智能系统控制。从自编程序的结构看，它们是“小程序”的各种组合，是一些小程序的函数名。因此它们仅仅是一些字符型数据。这样，自编程序编写好以后，就要以小程序的函数名的形式，形成一组组的数据。而这些自编程序不归系统平台管理，而由“自编程算法”的母程序管理，因此智能系统里一定要专门设置程序库，以便在程序库中保存自编成功的程序，并由程序可中调用这些数据，使它们成为可运行程序。
　　自编程序的形成、保存、调用由“自编程算法”的母程序复杂控制。控制细节见其它有关“自编程算法”的文章。

日	一	二	三	四	五	六

新思路的操作系统结构

扫二维码下载贴吧客户端