999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器挖掘文本,允許還是禁止

2013-04-11 01:30:45陳秀剛編譯
世界科學 2013年7期
關鍵詞:數據挖掘文本研究

陳秀剛/編譯

●科學家想要讓機器讀取學術期刊網中的論文,出版商顯然不樂意,兩方正在激烈交鋒。

科研工作者們在過去的一年里,普遍抱怨出版商不讓他們使用計算機程序下載和閱讀論文。他們認為出版商阻礙了他們的學術研究。

由于擔心文章內容可能會被隨意重新分配,出版商一旦發現機器在閱讀全文,通常會立即阻止程序運行,就算用戶支付費用也不能破例。他們只把權限給那些在逐案基礎上訪問和使用的協議客戶?,F在,歐洲委員會(ECC)和出版商財團正試圖創建更清晰的規則。但從不久前出版商給歐洲委員會組的投訴來看,討論文本數據挖掘的分歧依然存在。

“如果數據和文本挖掘技術繼續受到目前法律的限制,……下一個醫學突破將被封殺?!睔W盟委員會委員副總裁尼莉 克羅斯(Neelie Kroes)在去年九月的布魯塞爾知識產權峰會上如是說。

數據挖掘的使用

●text2genome項目從300萬篇研究論文中提取出DNA序列鏈接,創造出了在線基因組圖譜,其中每個區域與一篇研究論文相鏈接。

●NeuroSynth網站從近4 400篇研究文章中提取了腦掃描數據,允許用戶將人類大腦中的位置與相關研究術語和主題相鏈接。

●化學數據。SureChem網站成功從約20萬項專利中提取免費的分子數據。

●研究人員在論文數據庫中從兩千余萬篇文章中搜查摘要,發現了上皮細胞鈣粘蛋白(細胞粘附分子)和帕金森氏癥之間的間接聯系。

出版商說,到目前為止,幾乎沒有研究人員提出挖掘文件的要求。盡管如此,阿姆斯特丹的出版商愛思唯爾說,2012年,電腦機器人在其SCIENCEDIRECT網站平臺上爬行的流量占據網絡總流量的4%,幾乎是2011年的兩倍。不管初衷是什么,這一數字表明,不只是人類,機器也越來越會閱讀文章。

勞爾·羅德里格斯·埃斯特班,是康涅狄格州里奇菲爾德市勃林格殷格翰制藥公司的一名計算生物學家,他說,他在2012年進行了160項文本挖掘查詢。在其中一項里,他搜索了23 000余篇文章,挑選出數百蛋白質,可以減輕多發性硬化癥的小鼠模型。然后,他勾勒出網絡中相關的其他蛋白質,并發現了新的潛在的藥物目標。學術研究人員希望能獲得這種能力,但需要數月或數年談判協議才能獲得。位于加利福尼亞州的圣克魯斯大學的馬克思·霍伊斯勒(Max Haeussler),花了三年時間獲得下載3萬篇文章的權利,他從這些文章中提取DNA數據,并在人類基因組在線地圖中進行了標注。

今年下半年,英國將在非商業用途方面豁免文本挖掘的版權,從而使科學家在挖掘之前獲取他們需要付費的任何內容。文本挖掘人員希望歐盟也能這樣做?!澳壳坝脩糸g熱傳的口號是:‘我們應該有閱讀的權利’”英國曼徹斯特大學國家中心文本挖掘副主任約翰·麥克諾特說道。

但歐共體的工作組在今年討論文本和數據挖掘時產生了分歧。今年2月4日會后,研究人員和圖書館管理員都抱怨說,歐共體小組討論的只是如何在有文本挖掘許可證的情況下進行數據挖掘,而不是如何豁免文本挖掘版權?!爸粫岣卟捎眠@種技術的壁壘,并使得計算機基礎研究在很多情況下無法進行。”他們在2月26日給克羅斯和其他三位歐盟專員的信中這樣寫道,但這封信至今尚未得到答復。

英國巴斯大學的羅斯莫斯,目前正在使用文本挖掘從文獻中提取進化關聯的樹狀圖。他說,3月8日的第二次會議,歐盟也很難保證會認真考慮文本挖掘的豁免權事宜。歐共體工作組希望在年底能得出一致的結論和觀點。

●相關鏈接●

文本挖掘有時也被稱為文字探勘、文本數據挖掘等,大致相當于文字分析,一般指文本處理過程中產生高質量的信息。高質量的信息通常通過分類和預測來產生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(分析,同時加上一些衍生語言特征以及消除雜音,隨后插入到數據庫中),產生結構化數據,并最終評價和解釋輸出。典型的文本挖掘方法包括文本分類,文本聚類,概念/實體挖掘,生產精確分類,觀點分析,文檔摘要和實體關系模型。 [摘自維基百科]

美國的情況比較明朗,一些律師認為文本挖掘在 “合理使用”的情況下可以被允許進行,能夠自由復制一些文字片段。但是,沒有人對此了解的很確切,許多研究人員擔心這是對法律的灰色地帶的邊緣性挑戰。

一些出版商認為,無限制的文本挖掘會使他們的服務器使用過度,何時及如何下載文章還需再著重研究一下。 CrossRef網站是個非盈利組織,它擁有數以千計的學術出版物,目前他們正在開發一個系統,在這個系統里,研究人員可以點擊出版商網站的按鈕,以示同意標準文本挖掘條款。CrossRef的杰夫比德爾表示該系統有望在今年年底推出。

馬薩諸塞州丹弗斯的版權結算中心(CCC)的主要工作就是與出版商協商版權問題,目前它正努力為用戶尋求更多利益。版權結算中心的研究人員羅伊·考夫曼說,版權結算中心作為中介,會收集出版商的條款內容,并將其存儲在網站上。目前他們正與六個出版商(包括《自然》出版集團)及急于挖掘文獻的藥物化學品公司進行合作。

希瑟布魯爾達勒姆來自北卡羅萊納州的國家進化綜合中心,專門研究搜索人員如何使用數據,他認為,只允許像谷歌這樣的大企業挖掘文本內容是不公平的——然而迄今為止,科學家們都沒有權限使用數據。“谷歌知道它在做什么,但我們其余的人卻沒有信用等級去挖掘數據,這說法是站不住腳的,”她在博客中寫道,“我肯定不希望是這樣的結局?!?/p>

猜你喜歡
數據挖掘文本研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 久久99国产综合精品女同| 亚卅精品无码久久毛片乌克兰| 亚洲国产欧美自拍| 国产精品3p视频| 精品久久人人爽人人玩人人妻| 热这里只有精品国产热门精品| 久久77777| 青草91视频免费观看| 国产美女精品人人做人人爽| 88国产经典欧美一区二区三区| 亚洲精品综合一二三区在线| 99久久亚洲综合精品TS| 欧洲精品视频在线观看| 欧美视频免费一区二区三区| 国产91线观看| 国产美女一级毛片| 亚洲视频欧美不卡| 久久黄色影院| 国产视频资源在线观看| 日韩成人免费网站| 亚洲国产成人超福利久久精品| 99久久免费精品特色大片| 爱做久久久久久| 91福利国产成人精品导航| 亚洲日本中文综合在线| 亚洲精品大秀视频| 免费不卡视频| 国产毛片高清一级国语 | 亚洲成人黄色在线观看| 国产自在线播放| 中国国产一级毛片| 91免费观看视频| 午夜欧美在线| 亚洲天堂自拍| 2020极品精品国产| 中文无码影院| 精品亚洲国产成人AV| 国产91全国探花系列在线播放| 日本a级免费| 91最新精品视频发布页| 久久久精品国产亚洲AV日韩| 九九热精品免费视频| 久久99热这里只有精品免费看| 国产免费一级精品视频| 福利在线免费视频| 国产区福利小视频在线观看尤物| 亚洲九九视频| 国产亚洲精品资源在线26u| 91在线精品麻豆欧美在线| 亚洲综合网在线观看| 99热这里只有精品在线播放| 一级成人a毛片免费播放| 四虎永久在线精品国产免费| 成人一级免费视频| 日韩国产精品无码一区二区三区| 99无码中文字幕视频| 在线观看国产黄色| 欧美一级一级做性视频| 麻豆精品在线视频| 性激烈欧美三级在线播放| 成人a免费α片在线视频网站| 狠狠五月天中文字幕| 久青草免费在线视频| 国产a v无码专区亚洲av| 91成人精品视频| 色亚洲成人| 国产不卡国语在线| 无码国内精品人妻少妇蜜桃视频| 国产另类视频| 看国产一级毛片| 国产精品一区二区在线播放| 亚洲婷婷六月| 国产精品视频公开费视频| 久久精品嫩草研究院| 韩国福利一区| 亚洲黄色成人| 一级福利视频| 91无码国产视频| 日韩中文精品亚洲第三区| 99精品免费在线| 国产精品第页| 伊在人亞洲香蕉精品區|