了解AI中的Pre-training、Transformer 与商业数据的关系

人工智能检索涵盖了人类与机器之间的语音问答和文字提问的答案反馈,以及深入到世界的各个大型信息检索工具。Google和OpenAI的ChatGPT是其中最典型的代表,尽管它们有着不同的检索模式和商业目的,但它们都是人工智能检索,其核心都依赖Transformer在人工网络中的应用。

Transformer最初应用于计算机自然语言机械翻译。它成功的以数据统计为基础,采用文本的顺序作为路径,通过结合语言和统计概率来实现自动翻译。简单来说,假设我们有一段文字,如果起始词是“今天”,接下来的内容可能与时间、天气或者骑行等有关,而与时间相关联的可能是光,与光相关联的可能是爱因斯坦、接下来就跟相对论、宇宙等有关,而宇宙又关联了太阳又关联了相对论等等。在非人工智能时代,机器可以通过文章中文字之间的距离来计算这些文字之间的相关性,并通过多个相关性文字来确定对应的文字内容。

可是我们人类能够提出千奇百怪的问题,即使对同一个问题,人们可能会用不同的问法。那么,如何理解人类那些能清晰表达的问题、以及那些表达不清的问题,包括同一问题的不同问法呢?这就需要人工智能来提供答案。

人工智能是通过模拟人脑神经网络对信息的处理过程而开发的数据处理数学模型,也被称为“大规模语言模型”,简称大模型。其工作方式是尽可能利用最多的数据,通过Transformer的数据管理处理数据来生成答案。为了能够迅速提供问题答案和检索结果,在神经网络中采用了“机器学习”,也就是Pre-training,通过统计概率编辑可能的数据,所以,在网络系统中已经存在动态的语言逻辑关系和顺序。因此,当人类提出一个问题时,需要通过千万台计算机进行千亿次计算,才能给出智能答案。

人工智能答案的质量由神经网络规模和网络中存在的数据质量决定。在这其中,神经网络是Transformer的取材路径,其规模越大,取材范围就越广泛。网络中的数据是人工智能提供答案的基础材料,数据质量主要体现在真理性、客观性以及相关性上,数据的真理性和客观性决定答案的正确性,相关性则决定了答案的准确性。

数据的相关性决定了数据之间的距离、距离大小可以通过矢量运算完成,具体来说,就是考虑数据的长度和方向,数据的方向是由起始数据和不同关联数据形成的不同方向,其夹角的余弦值便反映了数据矢量的相关性,余弦值越小,表示句子的相关性越大( =|a| x| b| x )

自然语言与数据相关性是人工智能采用数据的优势条件,数据在神经网络中位置决定了transformer 以及Pre-training使用其的先后顺序,在人机对话的商业问答中,不论是语音提问还是文字请求,商业机会只给那些参与其中的数据,因此,商业数据对企业而言是何等重要!


中国和泰国签署互免持普通护照人员签证协定

2024-01-29   来源: 新华网

新华社北京1月28日电,据外交部“领事直通车”微信公众号消息,1月28日,中华人民共和国政府和泰王国政府代表在泰国曼谷签署《中华人民共和国政府与泰王国政府关于互免持普通护照人员签证协定》。协定将于2024年3月1日正式生效。届时,中方持公务普通护照、普通护照人员和泰方持普通护照人员,可免签入境对方国家单次停留不超过30日(每180日累计停留不超过90日)。入境对方国家从事工作、学习、新闻报道、定居等须事先批准的活动以及拟在对方国家停留超过30日的,须在入境对方国家前办妥相应签证。

2024-02-19
文字新闻