張宜軒 王永芳



摘 ?要:通過對臨沂大學研究生推薦免試選拔過程的調查研究,基于其線下選拔耗時長、工作量大的現狀,依托百度OCR識別技術設計了一種研究生智能推免選拔平臺。在平臺設計中提出可行的最優推薦匹配算法:利用OCR識別技術和KMP算法進行關鍵字匹配、智能評分。平臺還能夠實時共享推免信息,在學生端和教師端之間建立隨機關系,實現教師端材料盲審,有效降低時間成本、提高選拔公平程度,對當下推薦免試生選拔有突出的借鑒意義。
關鍵詞:推薦免試選拔;KMP算法;最優推薦匹配;OCR識別
中圖分類號:TP391.41;TP18 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)13-0085-04
Abstract:Through the investigation and research on the process of recommendation exemption of Linyi University postgraduate students in recent years,based on the current situation of long time-consuming and heavy workload in offline selection,designed an intelligent recommendation and examination free selection platform for graduate students relying on Baidu OCR recognition technology. Proposed a feasible optimal recommendation matching algorithm in the platform design:OCR recognition technology and KMP algorithm are used for keyword matching and intelligent scoring. The platform can also share the promotion and exemption information in real time,establish a random relationship between the student side and the teacher side,realize the blind review of the teacher side materials,effectively reduce the time cost and improve the fairness of the selection,which has a prominent reference significance for the current selection of candidates without examination.
Keywords:recommendation and examination free selection;KMP algorithm;optimal recommendation match;OCR recognition
0 ?引 ?言
隨著研究生招生規模的逐步擴大以及考研人數的日趨增加,推薦免試攻讀研究生成為熱議話題。但根據前期調查結果,研究生推免工作的重心依然是在線下遴選優秀應屆畢業生。這種方式不但耗時長且選擇標準單一、有失公允,而且根據教育部有關文件精神,真正“有意義”的選拔應當更加注重學生綜合能力[1],例如畢業生在本科階段的項目經歷、學科競賽經歷等,只有確立雙重標準、嚴格考核,才能體現“選拔、推薦”的真實含義。如何將這部分閱歷豐富、綜合素質強的學生群體列入選拔的備選庫中,是本平臺設計的核心問題。
本平臺通過建立學生待審核記錄與審核教師的隨機關系,提高了線下校內推免生審核過程的透明度、公平度,有效降低了傳統審核的工作量;同時,為了提高審核評分的準確度和考察學生的綜合素質能力,本平臺調用OCR識別(Optical Character Recognition,光學字符識別)[2]技術對學生上傳的圖文資料進行關鍵字識別,根據識別結果進行最優推薦匹配[3],最后審核教師根據推薦結果設置賦分比例。在用戶端平臺將用戶已有成績在各專業中進行實時比對和排名,幫助用戶了解最新選拔狀態。
1 ?平臺功能與編程
本平臺采用C/S架構的交互方式,以微信開發者工具(版本號v1.02.1911180)作為主要開發平臺[4],并通過Spring Boot框架與數據庫進行間接連接。本平臺的主要功能有上傳成果材料、排名匯總、動態信息共享、最優推薦匹配、賦分比例設置等。
數據庫方面,平臺選用MySQL進行數據存儲,平臺的學生用戶表、用戶排名信息表結構如表1、2所示,平臺功能結構圖如圖1所示。
2 ?平臺功能實現
本文主要從快速注冊模型、最優推薦匹配、專業排名以及信息動態共享四個方面對平臺的功能進行詳盡的描述。
2.1 ?快速注冊模型
該模型由登錄、注冊兩部分組成,登錄部分以臨沂大學校徽為界面主題,以用戶名和密碼作為憑證進行登錄;在注冊部分引入搜索框注冊機制,相當于在用戶注冊之前對重復學號的數據進行攔截處理,其具體實現情景如圖2所示。
如果出現學號重復的情況,平臺提示“禁止重復注冊”;通過學號驗證后的用戶方可輸入用戶名、手機號碼等完成全部注冊過程。平臺通過引入快速注冊模型,成功地解決了重復注入信息造成的平臺異常。其核心策略解釋如下:
算法模糊搜索下實現的布爾判重函數
輸入有關學號的模糊文本
輸出判重提示
bool IfExists(String number){
if(數據庫中數據equals(number))
return true;
else return false;
}
2.2 ?最優推薦匹配
OCR識別技術[5]是百度AI開放平臺的一項重要功能,OCR作為一種AI智能產品,可以將用戶上傳的圖片提交給百度AI服務,在微信小程序中調用此API,不需要服務器的參與,適合初學者的學習和使用。平臺利用OCR識別技術實現的功能主要有:
(1)用圖像數據字段實現圖片存儲,并在后續教師查閱學生材料時將圖片存儲字段轉換成可顯示的圖片類型進行展示[6];
(2)在微信小程序端設置了人工智能識圖功能;
(3)對轉換后的圖片文字進行關鍵字匹配。
平臺設置的關鍵字ki(i=1,2,3)和對應的分值范圍主要分為3類(以計算機學科為例,材料未涉及論文),其中比賽項目關鍵字k1?{ACM-ICPC(50分),CCF(50分),CCSP(50分),藍橋杯(45分),程序設計(45分),數學建模(45分),國家獎學金(60分)},比賽級別關鍵字k2?{省賽(25分),國賽(30分),區域賽(35分)},獲獎級別關鍵字k3?{一等獎(10分),二等獎(6分),三等獎(3分),Gold(10分),Silver(6分),Bronze(3分)}。由于單項材料獲取的文字內容較少,匹配過程采用Knuth-Morris-Pratt字符串匹配算法[7](KMP算法),匹配成果材料評分結果[8]分為3類yj(j=1,2,3),分別為優秀(90~100]、良好(80~90]和合格(其他分數段),具體過程用公式表達:
該項功能對用戶提交的圖片內容進行最優分數匹配,教師具有審核和根據學校相關政策修改分數的權限。此功能的實現有效提高了整個審核環節的效率,而且能夠智能化審核流程、量化賦分標準。平臺上交成果材料功能的具體實現如圖3所示。
2.3 ?專業排名
管理員在平臺確定選拔比例后,依次點擊“生成排名”“檢錄信息”就可以分專業登記選拔狀態。這一部分實現的關鍵在于編寫SQL排序語句[9],關鍵語句如下:
算法分專業排序算法
輸入專業名稱、設定推免比例
輸出各專業排序名次
SELECT 學號,(@排名序號:= @排名序號+1) AS 排名 FROM (SELECT * FROM 用戶排序表) 用戶排序表,
(SELECT @排名序號 :=0) b ORDER BY 用戶排序表總成績 DESC;
該部分主要解決兩大問題:
(1)插入、更新大批量數據時盡量采用耗時相對較低的算法,否則易造成下標出界;
(2)在重新指定選拔比例時,應當在現有記錄刪除后再插入該專業所有記錄,否則易導致專業混合排序,不利于統計。
2.4 ?信息動態共享
平臺將動態報考信息進行共享,既可以幫助學生掌握報考專業的競爭激烈程度,又可以給學生智能化推薦報考專業。其具體的實現過程如圖4所示。
在用戶點擊不同專業時,平臺會將該用戶當前的學業成績與數據庫中該專業已有的最終成績作差比較。根據差值不同的范圍,平臺解析范圍大小并做出動態反饋。現在把上述過程總結為模擬排位算法模型,該模型可以幫助考生快速知悉報考專業的大體情況,在一定程度上緩解了盲目報考產生的“扎堆”現象、提升報考成功率。
下面給出模擬排位算法的偽代碼:
算法模擬排位算法
輸入用戶當前既有學業成績、點選專業
輸出提示內容(具體的分差提示內容如表3所示)
public Map cmpWithTotal(score, career){
do dif ← score-total;
Map map = new HashMap<>();
put(“提示信息”)
}
3 ?結 ?論
針對當前優秀畢業生推免工作中存在的問題,為了更好地推動無紙化辦公、提高推免過程的智能化,本文設計了研究生智能推免選拔平臺。平臺通過百度OCR技術,共享AI領域的應用場景和解決方案,對用戶提交的材料進行關鍵字匹配和賦分分類,綜合定性分析學生素質和能力;通過設置模糊查詢,改變以往表單注冊的固有形式,有效地降低了重復率;通過信息動態共享功能,可以幫助報考學生避免“扎堆”報考的現象,指導不同分數段的學生科學報考;通過分專業排名功能,可以幫助管理員掌握各個專業的具體選拔情況。本平臺將OCR識別技術與微信小程序深度結合,有效提高了選拔過程的效率,加強了對學生綜合素質能力的考察,提高選拔過程的智能化程度。
參考文獻:
[1] 張學謙,李金龍,裴旭,等.我國一流大學建設高校碩士研究生入學機會平等性測度及表現 [J].學位與研究生教育,2019(6):38-44.
[2] 王志豪,朱浩宇,翁子揚,等.基于百度AI開放平臺的廣告匹配度方案 [J].電腦知識與技術,2019,15(36):195-197.
[3] 陳超祥,丁健龍,陳友榮.智能短信就業服務平臺的設計與實現 [J].計算機工程,2009,35(7):191-194.
[4] 李哲,周靈.微信小程序的架構與開發淺析 [J].福建電腦,2019,35(12):66-69.
[5] 何文琦.基于OCR技術的高校財務報銷新探索 [J].商業會計,2020(10):79-81.
[6] 程海峰.基于微信小程序的圖片分享系統的設計與實現 [J].工業控制計算機,2019,32(2):97-98.
[7] 李莉.基于字符比較的單模式匹配算法的研究與分析 [D].福州:福建師范大學,2016.
[8] 李薇,肖仰華,汪衛.基于中文知識圖譜的人物實體識別 [J].計算機工程,2017,43(3):225-231+240.
[9] 滕剛.關系數據庫排名運算方法的研究 [J].電腦開發與應用,2009,22(12):36-38.
作者簡介:張宜軒(1996—),男,漢族,山東泰安人,本科,研究方向:算法設計與分析;通訊作者:王永芳(1987—),女,漢族,山東臨沂人,講師,博士研究生,研究方向:人工智能、模式識別。