无码网址破解成人三级片国产|日韩欧美自拍两女肉丝丝袜|日本成人在线播放|韩国精品视频久久|国产日韩欧美中文另类|97成人免费午夜大片在线观看|青青草无码成人AV片|一级二级三级手机在线观看|a视频在线观看亚洲日韩|A片网站电视电影

400-608-2558 029-86698003

新聞資訊

從行業(yè)動(dòng)態(tài)到技術(shù)實(shí)踐,洞察趨勢(shì)所向
美林?jǐn)?shù)據(jù)技術(shù)專家團(tuán)隊(duì)|智能問(wèn)答技術(shù)及其應(yīng)用、批注、修訂、圖源標(biāo)注
發(fā)布時(shí)間:2021-12-16 瀏覽數(shù):320次
        自Turing于1950年在其經(jīng)典論文中提出“圖靈測(cè)試”以來(lái),問(wèn)答機(jī)器人的發(fā)展藍(lán)圖和目標(biāo)便得以明確。而作為問(wèn)答機(jī)器人的核心,智能問(wèn)答技術(shù)的發(fā)展一直備受人們關(guān)注。
        早期的智能問(wèn)答技術(shù)主要基于問(wèn)答庫(kù)中維護(hù)的模板,然后采用模糊匹配的方式給出問(wèn)題的答案,對(duì)語(yǔ)義分析和用戶意圖理解的程度還不深。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,智能問(wèn)答技術(shù)也取得了長(zhǎng)足的進(jìn)步,并在諸如搜索、智能客服、智能家居等領(lǐng)域落地應(yīng)用,且取得了不錯(cuò)的效果。
本文首先簡(jiǎn)要介紹當(dāng)前智能問(wèn)答的技術(shù)架構(gòu),然后重點(diǎn)對(duì)其中涉及到的關(guān)鍵技術(shù)、適用場(chǎng)景與優(yōu)缺點(diǎn)進(jìn)行分析。
        一、智能問(wèn)答技術(shù)架構(gòu)
智能問(wèn)答,其核心任務(wù)是構(gòu)建一個(gè)模型,對(duì)輸入的問(wèn)句進(jìn)行理解并給出問(wèn)題的答案。一般來(lái)說(shuō),可以將問(wèn)答作為搜索的一個(gè)特例——其提供了一種更為精準(zhǔn)(只有一個(gè)結(jié)果)的搜索服務(wù),因此,本文中提到的搜索,都是指包含了問(wèn)答的搜索。為了提升模型的準(zhǔn)確性和智能性,有時(shí)也會(huì)根據(jù)輸入來(lái)推薦可能的問(wèn)題。其技術(shù)架構(gòu)可以簡(jiǎn)單示意如下:

        自動(dòng)問(wèn)答架構(gòu)
        ? 問(wèn)題理解
        模型接收到用戶的輸入后,需要對(duì)其進(jìn)行判斷與理解,例如,判斷該輸入是不是一個(gè)問(wèn)題,該問(wèn)題屬于哪一個(gè)領(lǐng)域,該問(wèn)題中的實(shí)體有哪些,需要填充的槽位有哪些,問(wèn)題的類型是什么,問(wèn)題是否明確等。對(duì)于意圖不明確的問(wèn)題,有時(shí)需要用到多輪對(duì)話技術(shù)對(duì)意圖進(jìn)行澄清。
        ? 問(wèn)題解答
        在理解問(wèn)題后,需要從模型所連接的知識(shí)庫(kù)和文檔庫(kù)獲取答案,所采取的技術(shù)方案根據(jù)答案來(lái)源的不同而不同,本文后續(xù)內(nèi)容重點(diǎn)對(duì)這部分技術(shù)進(jìn)行介紹。
        ? 搜索推薦
        根據(jù)輸入,模型為用戶推薦相似的搜索內(nèi)容,其主要體現(xiàn)在兩個(gè)方面,一是在用戶輸入的過(guò)程中根據(jù)已輸入的內(nèi)容聯(lián)想其可能輸入的內(nèi)容,二是在搜索結(jié)束后,根據(jù)搜索的內(nèi)容推薦相似的搜索。
        二、兩類典型的問(wèn)答模型
        1、Document QA:基于文檔的閱讀理解式自動(dòng)問(wèn)答
        Document QA的核心任務(wù)為:給定一篇文檔和與之有關(guān)的問(wèn)題,模型自動(dòng)找到該問(wèn)題的答案。Document QA中最具代表性的片段式提取(Span-extraction),即從給定的文章中提取一段連續(xù)的字符串作為問(wèn)題的答案。這種方式一般借助于機(jī)器閱讀理解(Machine Reading Comprehension, MRC)技術(shù),因此,有時(shí)也被稱為基于閱讀理解的自動(dòng)問(wèn)答。
        目前,取得SOTA的MRC均采用預(yù)訓(xùn)練模型,如BERT、ERNIE-Gram等,它們大都通過(guò)Transformer加注意力機(jī)制等方式來(lái)獲得文檔與問(wèn)題的向量表示,再通過(guò)邊界預(yù)測(cè)的方式來(lái)確定答案片段的起止位置。
        然而,在實(shí)際的問(wèn)答系統(tǒng)中,往往無(wú)法要求用戶在輸入問(wèn)題的時(shí)候同時(shí)輸入一篇包含該答案的文檔。較為合理的做法是,事先維護(hù)一個(gè)文檔數(shù)據(jù)庫(kù),然后根據(jù)用戶的提問(wèn),從文檔庫(kù)中找到該問(wèn)題的答案。
        要實(shí)現(xiàn)上述想法,一般有兩種做法:一種是根據(jù)用戶輸入的問(wèn)題,先找到最相關(guān)的一篇文檔,再對(duì)該文檔應(yīng)用MRC模型,獲取答案。這種做法對(duì)篩選最相關(guān)文檔的算法要求比較高,如果選擇錯(cuò)誤,那么基本上無(wú)法得到正確答案。
        為了緩解上述弊端,另一種做法是找到一批(比如,10篇)文檔作為候選文檔,再逐文檔應(yīng)用MRC模型,最后對(duì)獲取得到的候選答案進(jìn)行評(píng)分,選擇分?jǐn)?shù)最高的作為最終答案。
        綜上,一個(gè)Document QA模型的整體架構(gòu)可以分為三層:文檔提取(Retriever)、答案提取(Reader)、答案排序(Ranker)。

        Document QA架構(gòu)
        (如果采用的是做法1,則在Retriever階段只保留一篇文檔,取消Ranker模塊。)
        ? Retriever
        給定用戶輸入的query,采用算法(如tf-idf)從documents中篩選出topN最相關(guān)的文檔。此過(guò)程實(shí)際上就是傳統(tǒng)搜索引擎的計(jì)算過(guò)程,即計(jì)算query與各document相似度的過(guò)程,因此,也可以利用tf-idf算法來(lái)快速實(shí)現(xiàn)。
        ? Reader
        此階段采用MRC模型對(duì)輸入的query和document進(jìn)行計(jì)算,并從document中找到連續(xù)的字符串作為答案。例如基于BERT的MRC模型結(jié)構(gòu)如下:

        基于BERT的MRC模型
        首先將query和document連接起來(lái)作為輸入,經(jīng)過(guò)BERT模型計(jì)算后,得到document中每個(gè)詞作為答案起始位置的概率、 作為答案結(jié)束位置的概率,根據(jù)概率大小得到候選答案在document中的起止位置Start和End,候選答案的得分一般由起止位置概率的乘積得到。
        ? Ranker
        通過(guò)上一步,可以分別從topN相關(guān)文檔中得到對(duì)應(yīng)的N個(gè)候選答案和得分,在這一階段將答案按照得分從高到底排序,返回得分最高的作為最終答案。
        ? Answer packaging
        上述三步實(shí)際上已經(jīng)完成了Document QA的主要功能,但在某些條件下該答案過(guò)于簡(jiǎn)略,而且沒(méi)有對(duì)回答不出來(lái)的問(wèn)題做處理。對(duì)于未抽取到答案的情況,可以根據(jù)具體要求輸出“未查詢到答案”、“超出知識(shí)庫(kù)范圍”、或其它約定好的內(nèi)容;對(duì)于特定類型問(wèn)題,可以用問(wèn)題和答案的組合進(jìn)行包裝,使其顯得更加智能,例如:?jiǎn)栴}“呼和浩特到北戴河多少公里”,模型抽取到的答案是“約763.0公里”,這里可以將答案包裝成“呼和浩特到北戴河763公里”。
        Document QA相較于傳統(tǒng)的通過(guò)維護(hù)問(wèn)答對(duì)實(shí)現(xiàn)自動(dòng)問(wèn)答的方案,一個(gè)顯著的優(yōu)點(diǎn)就是不需要人工維護(hù)問(wèn)答對(duì)和意圖模板,但在實(shí)際應(yīng)用中,Document QA還存在一些短板待完善:
        ? Document QA的計(jì)算過(guò)程是一個(gè)典型的“黑盒“,人們無(wú)法分析其得到答案的具體計(jì)算是如何進(jìn)行的。
        ? 由于答案只能從原文截取,因此無(wú)法回答一些復(fù)雜的推理類問(wèn)題,例如,給定一篇介紹姚明的文章,盡管文中出現(xiàn)“姚明出生于上?!爸惖男畔?,但模型可能仍無(wú)法回答諸如”姚明的國(guó)籍是什么“的問(wèn)題。
        ? Retriever算法的效果直接影響后續(xù)答案的提取,特別是在針對(duì)某些特殊領(lǐng)域開(kāi)發(fā)問(wèn)答模型時(shí),需要投入非常多的精力來(lái)使模型學(xué)習(xí)到該領(lǐng)域的語(yǔ)言特點(diǎn)。
        ? 需要標(biāo)注一定規(guī)模的document-query-answer語(yǔ)料來(lái)訓(xùn)練Reader模型。
        2、KBQA基于知識(shí)庫(kù)的自動(dòng)問(wèn)答
        KBQA,即Knowledge Base Question Answering,基于知識(shí)庫(kù)的自動(dòng)問(wèn)答(本文不區(qū)分知識(shí)庫(kù)與知識(shí)圖譜的概念,認(rèn)為它們的含義相同),它的核心任務(wù),是將以自然語(yǔ)言描述的問(wèn)題轉(zhuǎn)化為可執(zhí)行的結(jié)構(gòu)化查詢語(yǔ)言(NQL),執(zhí)行該查詢語(yǔ)句,得到問(wèn)題的答案。根據(jù)存儲(chǔ)知識(shí)庫(kù)的數(shù)據(jù)庫(kù)種類不同,查詢語(yǔ)言一般有SPARQL、Cypher等。由于答案來(lái)源是質(zhì)量較高的結(jié)構(gòu)化知識(shí),因此其最顯著的優(yōu)勢(shì),就是可以深入“理解“用戶的問(wèn)題,并支持更多復(fù)雜的推理。
        比較流行的KBQA方案有兩種,一是基于語(yǔ)義解析的方法,一種是基于搜索排序的方法?;谡Z(yǔ)義解析的方法的核心過(guò)程就是先將自然語(yǔ)言問(wèn)題轉(zhuǎn)化為語(yǔ)義表示,然后再將語(yǔ)義表示轉(zhuǎn)化為可執(zhí)行的查詢語(yǔ)言,這種方法的優(yōu)勢(shì)之一,就是可解釋性強(qiáng),能夠展示獲取答案的全過(guò)程。基于搜索排序的方法首先根據(jù)自然語(yǔ)言問(wèn)題獲取知識(shí)庫(kù)中相關(guān)的實(shí)體,然后獲取與該實(shí)體有一步或多步關(guān)系的實(shí)體,并將其視為子圖提取出來(lái)作為候選答案集合,最后對(duì)候選實(shí)體進(jìn)行匹配和排序,選擇最終答案。
        ? 語(yǔ)義解析的方法
        語(yǔ)義解析的一個(gè)典型任務(wù)是給定一張表格,用戶用自然語(yǔ)言提出問(wèn)題,模型自動(dòng)生成相應(yīng)SQL查詢邏輯,然后在表格中執(zhí)行查詢得到答案。

        用戶輸入問(wèn)題:“新浪和人人網(wǎng)的周漲跌幅分別是多少?”
        模型會(huì)根據(jù)數(shù)據(jù)表格的內(nèi)容,將該問(wèn)題轉(zhuǎn)化成sql語(yǔ)句:“select 周漲跌幅 from 表_1 where 名稱=‘新浪’ or 名稱=‘人人網(wǎng)’”
        這樣就可以從表中得到查詢結(jié)果:“-4.52 和 -9.55”
        語(yǔ)義解析的方法可以分為基于訓(xùn)練數(shù)據(jù)的有監(jiān)督方法和基于規(guī)則的無(wú)監(jiān)督方法兩類。
        基于訓(xùn)練數(shù)據(jù)的有監(jiān)督方法需要事先準(zhǔn)備標(biāo)注的數(shù)據(jù)用于訓(xùn)練,在KBQA這個(gè)任務(wù)里,標(biāo)注數(shù)據(jù)的格式為:,其中,query就是自然語(yǔ)言問(wèn)句,nql是結(jié)構(gòu)化的查詢語(yǔ)句。這實(shí)際上也是NLP技術(shù)中的一個(gè)研究方向,叫作text2sql。在深度學(xué)習(xí)的背景下,text2sql一些效果比較好的解決方案大都采用基于「編碼器-解碼器」結(jié)構(gòu)的seq2seq的方法,目前,相關(guān)的研究方向主要聚焦于以下幾個(gè)方面:研究更強(qiáng)的語(yǔ)義表示(BERT)和結(jié)構(gòu)來(lái)增強(qiáng)Encoder端對(duì)語(yǔ)義信息的利用程度;研究不同的解碼方式(樹(shù)形結(jié)構(gòu)解碼、填槽類解碼)來(lái)減小解空間的搜索范圍;研究提高SQL(或者其他結(jié)構(gòu)化查詢語(yǔ)句)語(yǔ)言的抽象性的技術(shù);研究利用搜索、重排技術(shù)等對(duì)多條候選結(jié)果進(jìn)行正確答案的篩選。對(duì)text2sql模型進(jìn)行評(píng)價(jià)的方法主要有兩種:一種是精確匹配率,指的是生成的SQL與正確的SQL在select、where、from等模塊達(dá)到字符串級(jí)別的完全匹配的比例;另一種是執(zhí)行正確率,指的是生成的SQL能夠在數(shù)據(jù)庫(kù)執(zhí)行并返回正確的答案的比例。
        基于規(guī)則的無(wú)監(jiān)督方法的典型過(guò)程包括以下步驟:
        (1)問(wèn)句分析:
        把自然語(yǔ)言問(wèn)句轉(zhuǎn)化成查詢語(yǔ)義三元組的形式;
        (2)資源映射:
        將三元組中的每個(gè)短語(yǔ),確定其在知識(shí)庫(kù)中的對(duì)應(yīng)資源;
        (3)查詢語(yǔ)句的生成:
        對(duì)不同類型的問(wèn)題依據(jù)不同的模板生成對(duì)應(yīng)的查詢語(yǔ)句。
        ? 搜索排序的方法
        知識(shí)圖譜是以實(shí)體為節(jié)點(diǎn)的網(wǎng)絡(luò),一般處理與實(shí)體相關(guān)的事實(shí)內(nèi)容,比如答案為人名、機(jī)構(gòu)名、地名的問(wèn)題,這種類型的問(wèn)答任務(wù)稱為事實(shí)型問(wèn)答,在問(wèn)句中都包含至少一個(gè)實(shí)體詞,問(wèn)題所涉及的知識(shí)也就是該詞對(duì)應(yīng)實(shí)體的事實(shí),那么答案就是這些事實(shí)中的實(shí)體。
        例如用戶輸入問(wèn)題:“姚明的妻子是誰(shuí)?”該問(wèn)題的核心實(shí)體是“姚明”,從知識(shí)圖譜中查詢到實(shí)體“姚明”,并將該實(shí)體相關(guān)聯(lián)的實(shí)體提取出來(lái)作為候選答案。

        在本例中與實(shí)體“姚明”相關(guān)聯(lián)的實(shí)體及其關(guān)系為:
“姚明”--“國(guó)籍”-->“中國(guó)”
“姚明”--“配偶”-->“葉莉”
“姚明”--“出生地”-->“上?!?br />        再通過(guò)計(jì)算每個(gè)相關(guān)聯(lián)實(shí)體與問(wèn)題匹配程度,會(huì)得到與問(wèn)題最匹配的答案是“姚明”--“配偶”-->“葉莉”,輸出答案“葉莉”。
        基于搜索排序的知識(shí)問(wèn)答就類似于人工回答的過(guò)程:首先,確定問(wèn)句中的主題詞;然后,根據(jù)主題詞鏈接到知識(shí)庫(kù)中的實(shí)體,得到主題實(shí)體;其次,將主題實(shí)體以及知識(shí)庫(kù)中與主題實(shí)體相關(guān)的實(shí)體提取出來(lái)作為候選答案;最后,從候選答案中選擇出正確的答案。
        找到主題詞并找到知識(shí)庫(kù)中與之對(duì)應(yīng)的實(shí)體,是實(shí)體識(shí)別與實(shí)體鏈接的任務(wù),這里主要介紹如何從問(wèn)句和答案中提取特征,并對(duì)它們的匹配程度進(jìn)行計(jì)算。
        從問(wèn)句中提取特征首先需要對(duì)問(wèn)句進(jìn)行句法分析,得到其依存句法樹(shù)?;谝来婢浞?shù),可以進(jìn)一步抽象得到許多有用的信息,主要包括:
        (1)問(wèn)題詞:
         例如,誰(shuí),哪,什么等;
        (2)問(wèn)句焦點(diǎn)詞:
        這個(gè)詞暗示了答案的類型;
        例如:名字,時(shí)間,地點(diǎn)等;
        (3)主題詞:
       用于幫助找到知識(shí)庫(kù)中相關(guān)的知識(shí)點(diǎn);
        (4)中心動(dòng)詞
        作為候選答案的知識(shí)庫(kù)中的節(jié)點(diǎn),都可以抽取出以下特征:節(jié)點(diǎn)的所有關(guān)系;節(jié)點(diǎn)的所有屬性及屬性值;節(jié)點(diǎn)與主題實(shí)體的路徑。
        在提取了問(wèn)句和候選答案的特征之后,接下來(lái)就是對(duì)其進(jìn)行匹配。為此,可以將問(wèn)句中的特征和候選答案的特征進(jìn)行組合,并將關(guān)聯(lián)度較高的問(wèn)題-候選答案賦予較高的權(quán)重。這種賦權(quán)過(guò)程可以通過(guò)機(jī)器學(xué)習(xí)模型來(lái)實(shí)現(xiàn),具體地,將從候選答案中選出正確答案視為一個(gè)二分類問(wèn)題,從而可以使用<問(wèn)題-答案>的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練一個(gè)分類模型。
        三、總結(jié)
        本文主要介紹了兩類常用的自動(dòng)問(wèn)答技術(shù)的實(shí)現(xiàn)原理,縱觀整個(gè)自動(dòng)問(wèn)答的研究成果和技術(shù)現(xiàn)狀,仍需要對(duì)以下問(wèn)題進(jìn)行深入研究:
計(jì)算機(jī)能夠直接處理的只有數(shù)字,如何把自然語(yǔ)言包含的語(yǔ)義信息準(zhǔn)確、無(wú)遺漏地映射成數(shù)字,是所有NLP任務(wù)面臨的挑戰(zhàn)。盡管基于預(yù)訓(xùn)練模型的方法橫掃了各大NLP任務(wù)的榜單,但是在自動(dòng)問(wèn)答的任務(wù)上,此方法衍生出的模型所取得的效果仍然無(wú)法令人滿意。這類方法試圖通過(guò)龐大的參數(shù)和復(fù)雜的結(jié)構(gòu)來(lái)對(duì)自然語(yǔ)言問(wèn)句進(jìn)行解析、推理、查詢和回答,隨著問(wèn)句復(fù)雜程度的提升,該方法的推理能力會(huì)顯著地降低,從而導(dǎo)致回答錯(cuò)誤或無(wú)法回答;此外,正如所有NLP任務(wù)所面臨的挑戰(zhàn)一樣,對(duì)跨領(lǐng)域的模型進(jìn)行二次訓(xùn)練所消耗的高額資源是阻礙其大規(guī)模應(yīng)用的重要原因。
        KBQA由于有高質(zhì)量的知識(shí)庫(kù)作為底層支撐,往往具有較好表現(xiàn)效果。但是,拋開(kāi)維護(hù)知識(shí)庫(kù)所需要投入的巨大資源之外,如何正確解析問(wèn)句、從大規(guī)模的知識(shí)庫(kù)中快速定位到關(guān)鍵實(shí)體并根據(jù)關(guān)鍵實(shí)體找到對(duì)應(yīng)的屬性(關(guān)系)作為答案,對(duì)于數(shù)據(jù)結(jié)構(gòu)、硬件資源以及解析模型的要求仍是非常高的。
站點(diǎn)地圖
在線咨詢 在線咨詢
在線咨詢
電話聯(lián)系 電話聯(lián)系
電話聯(lián)系
服務(wù)熱線
400-608-2558
029-86698003
需求速聯(lián) 需求速聯(lián)
需求速聯(lián)
返回頂部 返回頂部
返回頂部