幾個英語作文自動評分系統的原理與評述

來源：文萃谷 2.44W

在英語作文教學中，對學生作文進行批改一直被師生共識為提高寫作能力的有效手段。但是，考慮到時間、精力、作文收發等方面，又不得不承認效率不高。在大規模語言考試中，作文又是必不可少的題型，閲卷工作量和閲卷的信度等問題一直以來都不能讓我們如意。針對這一難題，電腦智能自動評分系統提供了可以信賴、值得期盼的解決方案。

在PEG、IEA、E-rater、冰果、MY Access、IntelliMetric等幾種智能評分系統中，本文選取IntelliMetric系統進行研究，對其評價標準進行理論分析，對其所評分的作文進行跟蹤評析，發現其通過對學生作文按照若干評分標準問題進行迴應和打分的方法能夠快速、有效地解決了作文評分的效率問題，可靠性和準確性不亞於人工評分的水平，完全可以作為人工評分的補充手段。由此看來，智能評分系統的發展值得期盼。

一、IntelliMetric系統概述

IntelliMetric系統發佈於1998年1月，是第一個提供給教育機構的智能作文評分軟件，相比傳統的人工評閲具有許多優點，如：準確度大於個人評分，尤其大於單人人工評分；提供即時反饋等等。發佈以後，系統得到了廣泛的應用。

IntelliMetric系統作為一個智能評分系統，充分模擬了人工評分的過程。系統開發時經過了大量的測試培訓，即不斷通過人工糾正其自動認定的給分點，直至契合。值得提出的是，系統不是將所有的給分點簡單地相加，而是通過分析給分點之間的聚合關係，模擬人工從整體上看待作文並給出判斷，這一點上跟人工評分的過程是一致的。

對於每一個給分點刺激和提示，IntelliMetric系統創建了一個獨特的解決方案，主要的給分點、次要的給分點、聚羣給分點和分散給分點，都有不同的分數賦值。每一個刺激或提示，這相當於人工閲卷時我們先將作文的得分點做上標記，然後回過頭來審視通篇看所有的這些給分點是否形成整體，主題是否突出，連貫是否流暢。正因為如此，IntelliMetric系統能夠實現令人滿意的高匹配的評閲結果。

二、IntelliMetric系統評分依據

IntelliMetric系統的評分依據主要根據其對作文進行的300多個變量的分析，這些變量包括語義學、造句法等與主題有關的一切因素，其數量和認定的準確度還在發展當中。概括起來，IntelliMetric系統評分依據從宏觀到微觀具有幾個方面功能特徵：

首先是聚焦度（Focus）和整體性（Unity），系統高度關注指向寫作目的的聚焦度和一致性，對給分點的聚合關係賦值有統籌考慮，同時，也不排斥出現的單個觀點的出現，注意到意義的關聯度，做到點和麪的全盤考慮。

其次是深化（Development）和拓展（Elaboration），系統關注文章內容的廣度和概念的拓展深度，關注對主題的深化表述論述過程，注意意義點之間的線性關聯，做到點與點的流程考慮。

三、IntelliMetric系統侷限性及關於智能評分系統的思考

IntelliMetric系統再好，它還是屬於工具，少不了它的侷限性。首先，系統測試時大大依賴於標準的人工評閲專家。系統需要明確的給分點提示和整體把握流程，而這樣的'專家往往也是仁者見仁智者見智的，很難取得統一。輸入不夠導致輸出侷限，使用系統進行機評時我們會發現系統遺漏了給分點或整體把握不靈的情況。

從目前各種智能評分系統的使用看來，各種系統的設計都利用了多種現代信息處理技術，主要包括自然語言微觀和宏觀處理技術、檢索技術和統計分析技術等，但由於所使用的各種技術成熟程度不同，主要由於對自然語言處理微觀宏觀標準的建立和人工智能化程度還遠遠不夠，系統的分析能力難免存在較大侷限性。目前，由於涉及專利問題，各種智能評分系統所採用的自然語言處理微宏技術都還沒有公開，這是一個遺憾，對我們進一步開展研究很不利。

智能評分系統在對評分模型進行訓練並建立基礎數據庫、形成建模，是提高其工作質量，即作文評分的信度的關鍵。接下來，我們應充分借鑑語言測試領域的成果，充分發展自然語言處理微宏技術，在語言表述、思想內容和結構等方面進行聯動賦值，並植入智能系統。還要在程序上進一步模擬人工流程，對自動評分模型進行反覆訓練調試，才能提高機評的信度，為語言教學提供強有力的輔助。

評述評分英語自動系統