首页/文章/ 详情

咋办?gmatclub封锁中国IP一周年了

2年前浏览1200

1 引言

对于那些备考GMAT的同学,有两个网站考前必须要去看,一个是中国的CD,重要性不言而喻,另一个是美国的gmatclub,每个题目都有不同的人给出解释,从中可以学习别人是如何分析问题和解决的。然而在去年6月中旬,准确的日期应该是6月10日,gmatclub封锁了所有来自中国内地的IP, 也就是说,如果你在中国内地访问这个网站就进不去了,直到现在也没有放开。尽管gmatclub没有书面声明为什么封锁中国用户,不过根据推测,主要是为了响应美国政府保护知识产权的号召。

不能进入gmatclub使我郁闷了一阵子,以致去年下半年去韩国和日本的时候,每次都专门腾出多半天的时间呆在酒店里浏览gmatclub。


2 SC-2020的发展

SC-2020是断续发展的GMAT-SC (Sentence Correction)大数据集。gmatclub最使我感兴趣的是它的SC版块,每个用户对题目做出解释,无论解释是正确的还是错误的,这些不同level的解释总能够增强你对题目的理解,从中学习规范的商业英语的表达方式。过去几年,我们一直借助于这个版块发展SC的大数据集。

SC-2020包括了大部分流行的模拟题目,例如,#Economist, #Kaplan, #Magoosh, #Manhattan, #Princeton, #Veritas等。

SC-2020也包括了更新的GMAT标准题目。目前这个数据集共有大约10,500道非结构化的GMAT SC题目。


3 SC语义聚类

除了常规的逐步优化的SC题目外,SC-2020的一个重要功能是SC的语义聚类,即把语义相同的句子聚集在 一起进行复习。例如输入“The Ebola is easily infected to human beings”这个句子,SC-2020能够给出下面两道题目。其实我们的数据集中并没有“Ebola”这个词,但能确定出smallpox virus 和 Nipah virus 这两种病毒。这个功能是使用自然语言处理NLP来实现的。


(1) Though his neighbors were shocked and even feared his family would take on animal characteristics, Benjamin Jesty's intentional infection of his family with cowpox in 1774 ultimately saved them all from the much more deadly smallpox virus during their later epidemics.


(2) Research suggests that much of the documented cases of Nipah virus infection in the human population results from human contact with the saliva of the flying fox.


同时也能给出与查询句子最相似的Top 10句子。

Top 10 most similar sentences in the corpus:

(E) many of the documented cases of Nipah virus in the human population result (Similarity: 0.51)

(E) many of the documented cases of Nipah virus in the human population result (@) (Similarity: 0.51)

it seems that the infections are documented in the human population. (Similarity: 0.45)

e: many cases (correct) , nipah virus IN HUMAN POPULATION (correct...a virus can be in human population) , result(correct) ----- this is the best available choice out of five given .. (Similarity: 0.44)

a: cases is countable so it has to be many but nipah virus has to be in human population ... creates confusion between nipah virus bein in human population or the documented cases in human population. (Similarity: 0.43)

(B) much of the documented cases of Nipah virus infection in the human population result (Similarity: 0.42)

(A) much of the documented cases of Nipah virus infection in the human population results (Similarity: 0.42)

Research suggests that much of the documented cases of Nipah virus infection in the human population results from human contact with the saliva of the flying fox. (Similarity: 0.42)

(D) many of the cases of Nipah virus infection that are documented in the human population result (Similarity: 0.41)

Research suggests that (much of the documented cases of Nipah virus infection in the human population results) from human contact with the saliva of the flying fox. (Similarity: 0.41)


4 自动判断SC的错误--一个教训

GMAT-SC的语法规则是最严格的语法规则,曾经有一个想法是让机器自动判断句子的正确性,也曾编写了大量代码去实现它。首先对GMAT标准的正确句子从结构上给出规则,如下图所示。新的句子根据这些规则来判断是否存在语法和语义错误,最后计算句子的正确概率。这个想法从理论上来说没有错误, 只是GMAT的句型结构太复杂了,我们无法把所有的规则都包括到规则库中。

这个工作是在2017年作的,后来感觉做不下去了,工作量太大了。最后的结局是 give up!

使用了语法结构的分级处理,对于一般的句子检查没问题,但对于象GMAT和GRE中的句子有点力不从心。总之,想法是好的,但没有好的结果。


4 结束语

gmatplus可能永久地封锁来自中国内地的IP, 时值封锁一周年之际,随便写了一点儿我们过去的工作。即使没有gmatclub,SC-2020也还在继续进化着。


本文相关文档:

使用Transformers确定句子之间的相似度

使用WMD Similarity确定句子之间的相似度

基于文档名称的相似度查询---以电影数据库为例

基于附加信息cast和genres的相似电影查询

利用文本相似度聚类产生能够再学习的新文档

通过Euclidean距离计算向量值来对句子相似度排序

一个快速的句子和段落相似查询方法


来源:计算岩土力学
UM理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2022-09-28
最近编辑:2年前
计算岩土力学
传播岩土工程教育理念、工程分析...
获赞 147粉丝 1058文章 1779课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈