Neo4j(数据存入尝试2)

2018-05-14
方式过于粗暴,这里是为了记录,切勿模仿

Synset存入

采用简单暴力的方式:通过数据格式调整,将Synset数据拼接进cypher语句,使用拼接后的语句存入数据.

create ( :Synset { ID:"bn:00006329n",MainSense:['WN:EN:Asia'],POS:['NOUN'],iskeyConcept:['false'],Sense:['WN:EN:Asia', 'OMWN_ZH:ZH:亚洲', 'GEONM:EN:Asia', 'GEONM:VI:Châu_Á', 'GEONM:ZH:亚洲', 'WIKI:EN:Asia', 'WIKI:VI:Châu_Á', 'WIKI:ZH:亚洲', 'WIKIDATA:EN:Asia', 'WIKIDATA:VI:châu_Á', 'WIKIDATA:EN:III_JX_es_el_presidente_de_asia', 'WIKIDATA:VI:Á', 'WIKIDATA:VI:Á_châu', 'WIKIDATA:ZH:亚洲', 'WIKIDATA:ZH:亚细亚', 'OMWIKI:EN:Asia', 'OMWIKI:VI:Châu_Á', 'OMWIKI:ZH:亚洲', 'OMWIKI:ZH:亞洲', 'WIKT:EN:Asia', 'WIKT:VI:Châu_Á_(洲亞)', 'WIKT:VI:Á_Châu_(亞洲)', 'WIKIQU:EN:Asia', 'WIKIRED:ZH:Asia', 'WIKIRED:EN:ASIA', 'WIKIRED:EN:Asia_Major', 'WIKIRED:EN:Asian_continent', 'WIKIRED:EN:Continental_Asia', 'WIKIRED:EN:Name_of_Asia', 'WIKIRED:VI:Á_châu', 'WIKIRED:VI:Á_Châu', 'WIKIRED:VI:Á_Tế_Á', 'WIKIRED:EN:Азия', 'WIKIRED:EN:亚', 'WIKIRED:ZH:亚洲大陆', 'WIKIRED:ZH:亚细亚', 'WIKIRED:ZH:亚细亚洲', 'WIKIRED:EN:亜', 'WIKIRED:EN:亞', 'WIKIRED:ZH:亞洲', 'WIKIRED:ZH:亞洲區', 'WIKIRED:ZH:亞西亞', 'WIKIRED:EN:Asia_(continent)', 'WNTR:VI:á', 'WNTR:ZH:亚_洲'],glosses:["The largest continent with 60% of the earth's population; it is joined to Europe on the west to form Eurasia; it is the site of some of the world's earliest civilizations", "Asia is Earth's largest and most populous continent, located primarily in the Eastern and Northern Hemispheres.", 'Especially Malaysia and formerly China when they were held; Asian Festival of Speed', "Continent in Earth''s Eastern Hemisphere", "Continent, mainly on the Earth's Eastern Hemisphere", "The world's largest continent. It occupies the eastern part of the Eurasian landmass and its adjacent islands and is separated from Europe by the Ural Mountains. Asia borders on the Arctic Ocean, the Pacific Ocean, the Indian Ocean, and the Mediterranean and Red Seas in the west. It includes the largest peninsulas of Asia Minor, India, Arabia, and Indochina and the island groups of Japan, Indonesia, the Philippines, and Ceylon.", 'A female given name of modern usage, from the continent.', 'The continent of Asia.', "Asia is the world's largest and most populous continent, located primarily in the eastern and northern hemispheres."],Category:['BNCAT:EN:Asia', 'BNCAT:VI:Châu_Á', 'BNCAT:EN:Continents', 'BNCAT:VI:Lục_địa', 'BNCAT:ZH:世界之最', 'BNCAT:ZH:亚洲', 'BNCAT:ZH:大洲']})
create ( :Synset { ID:"bn:15074344n",MainSense:['WIKI:EN:Cà_Mau_Province'],POS:['NOUN'],iskeyConcept:['false'],Sense:['GEONM:EN:Ca_Mau_province', 'WIKI:VI:Cà_Mau', 'WIKI:EN:Cà_Mau_Province', 'WIKI:ZH:金甌省', 'WIKIDATA:EN:Ca_Mau', 'WIKIDATA:EN:Cà_Mau', 'WIKIDATA:VI:Cà_Mau', 'WIKIDATA:EN:Cà_Mau_Province', 'WIKIDATA:VI:Tỉnh_Cà_Mau', 'WIKIDATA:ZH:歌毛省', 'WIKIDATA:ZH:金甌省', 'WIKIRED:EN:Ca_Ma_Province', 'WIKIRED:EN:Ca_Ma_Province,_Vietnam', 'WIKIRED:EN:Ca_Mau_Province', 'WIKIRED:EN:Ca_Mau_province', 'WIKIRED:EN:Cau_Mau', 'WIKIRED:EN:Cà_Ma_Province', 'WIKIRED:EN:Cà_Ma_Province,_Vietnam', 'WIKIRED:EN:Cà_Mau_province', 'WIKIRED:VI:Tỉnh_Cà_Mau', 'WIKIRED:ZH:哥毛省', 'WIKIRED:ZH:歌毛省', 'WIKIRED:ZH:金瓯省', 'WIKITR:VI:tỉnh_cà_mau', 'WIKITR:ZH:金_瓯_省', 'BABELNET:ZH:Ca_Mau'],glosses:['Cà Mau is a province of Vietnam, named after its capital city.', 'Province of Vietnam'],Category:['BNCAT:VI:Cà_Mau', 'BNCAT:EN:Ca_Mau_Province', 'BNCAT:EN:Gulf_of_Thailand', 'BNCAT:VI:Huyện_Cà_Mau', 'BNCAT:EN:Territorial_disputes_of_Cambodia', 'BNCAT:EN:Territorial_disputes_of_Vietnam', 'BNCAT:VI:Từ_gốc_Khmer', 'BNCAT:VI:Vịnh_Thái_Lan', 'BNCAT:ZH:金甌省']})
create ( :Synset { ID:"bn:16443124n",MainSense:['WIKI:EN:Tiền_Giang_Province'],POS:['NOUN'],iskeyConcept:['false'],Sense:['GEONM:EN:Tien_Giang_province', 'WIKI:VI:Tiền_Giang', 'WIKI:EN:Tiền_Giang_Province', 'WIKI:ZH:前江省', 'WIKIDATA:EN:Tien_Giang', 'WIKIDATA:EN:Tiền_Giang', 'WIKIDATA:VI:Tiền_Giang', 'WIKIDATA:EN:Tiền_Giang_province', 'WIKIDATA:VI:Tỉnh_Tiền_Giang', 'WIKIDATA:ZH:前江', 'WIKIDATA:ZH:前江省', 'WIKIDATA:ZH:定祥', 'WIKIRED:EN:Dinh_Tuong_Province', 'WIKIRED:EN:Tien_Giang', 'WIKIRED:EN:Tien_Giang_Province', 'WIKIRED:EN:Tien_Giang_province', 'WIKIRED:EN:Tien_Giang_Province,_Vietnam', 'WIKIRED:EN:Tiền_Giang', 'WIKIRED:EN:Tiền_Giang_province', 'WIKIRED:EN:Tiền_Giang_Province,_Vietnam', 'WIKIRED:VI:Tỉnh_Tiền_Giang', 'WIKIRED:EN:前江', 'WIKIRED:ZH:前江', 'WIKIRED:ZH:定祥', 'WIKIRED:VI:Tiền_Giang_(tỉnh)', 'WIKITR:VI:tỉnh_tiền_giang', 'BABELNET:ZH:Tien_Giang'],glosses:['Tiền Giang is a province in the Mekong Delta region of southern Vietnam.', 'Province of Vietnam'],Category:['BNCAT:VI:Đồng_bằng_sông_Cửu_Long', 'BNCAT:EN:Territorial_disputes_of_Cambodia', 'BNCAT:EN:Territorial_disputes_of_Vietnam', 'BNCAT:VI:Tiền_Giang', 'BNCAT:EN:Tiền_Giang_Province', 'BNCAT:ZH:前江省']})
......

太粗暴了~~~虽然只有160条Synset数据,但仍然导致neo4j直接卡死。作为妥协删除了每个Synset中的Image属性数据(包含条目最多且每个条目都很长的一个属性)————>成功存入

约束还是要象征性的加一下的:

​create constraint on (e:Synset) Assert e.ID is Unique

Synset存完当然是要存入Relation

初步获取的数据:

bn:00003341n Hyponym bn:02796463n
bn:00003341n Hyponym bn:03860877n
bn:00003341n Hyponym bn:03728916n
bn:00003341n has_quality bn:14748597n
bn:00003341n motto bn:02598357n
bn:00003341n executive_body bn:00033909n
bn:00003341n executive_body bn:00078848n
bn:00003341n office_held_by_head_of_government bn:00018323n
bn:00003341n seal_description bn:00041596n
bn:00003341n diplomatic_relation bn:00000536n
bn:00003341n diplomatic_relation bn:00001732n
bn:00003341n diplomatic_relation bn:00001803n
bn:00003341n diplomatic_relation bn:00002362n

数据格式为:SynsetID1 Relation SynsetID2
需要特别注意的是,这里的Synset包含大量之前未保存的

提取所有SynsetID 以MERGE的方式存入数据库
用正则提取id并拼接成cypher的MERGE语句

    line = infile.readline() ##按行读取 
    while line !="":
        ids = re.findall('\s+(\w+:\d+\w)',line)
        print(ids)
        outfile.write("MERGE ( :Synset { ID:\""+ids[0]+"\"})\n")
        line = infile.readline()

生成了包含一万多条MERGE语句的文档,一次复制粘贴至NEO4J的brower.提示内存不足。于是将10000+条语句进行划分,500条一次,存入成功
当然,正确的做法应该是在程序循环中生成语句,一条一条循环插入。因为还没有研究NEO4J的python/java接口,所以采用这种粗暴的方法*
最后,同样粗暴的生成插入关系的cypher语句。完成数据存入尝试。

create ( :Synset { ID:"bn:16443124n",MainSense:['WIKI:EN:Tiền_Giang_Province'],POS:['NOUN'],iskeyConcept:['false'],Sense:['GEONM:EN:Tien_Giang_province', 'WIKI:VI:Tiền_Giang', 'WIKI:EN:Tiền_Giang_Province', 'WIKI:ZH:前江省', 'WIKIDATA:EN:Tien_Giang', 'WIKIDATA:EN:Tiền_Giang', 'WIKIDATA:VI:Tiền_Giang', 'WIKIDATA:EN:Tiền_Giang_province', 'WIKIDATA:VI:Tỉnh_Tiền_Giang', 'WIKIDATA:ZH:前江', 'WIKIDATA:ZH:前江省', 'WIKIDATA:ZH:定祥', 'WIKIRED:EN:Dinh_Tuong_Province', 'WIKIRED:EN:Tien_Giang', 'WIKIRED:EN:Tien_Giang_Province', 'WIKIRED:EN:Tien_Giang_province', 'WIKIRED:EN:Tien_Giang_Province,_Vietnam', 'WIKIRED:EN:Tiền_Giang', 'WIKIRED:EN:Tiền_Giang_province', 'WIKIRED:EN:Tiền_Giang_Province,Vietnam', 'WIKIRED:VI:Tỉnh_Tiền_Giang', 'WIKIRED:EN:前江', 'WIKIRED:ZH:前江', 'WIKIRED:ZH:定祥', 'WIKIRED:VI:Tiền_Giang(tỉnh)', 'WIKITR:VI:tỉnh_tiền_giang', 'BABELNET:ZH:Tien_Giang'],glosses:['Tiền Giang is a province in the Mekong Delta region of southern Vietnam.', 'Province of Vietnam'],Category:['BNCAT:VI:Đồng_bằng_sông_Cửu_Long', 'BNCAT:EN:Territorial_disputes_of_Cambodia', 'BNCAT:EN:Territorial_disputes_of_Vietnam', 'BNCAT:VI:Tiền_Giang', 'BNCAT:EN:Tiền_Giang_Province', 'BNCAT:ZH:前江省']})
create ( :Synset { ID:"bn:03506549n",MainSense:['WIKI:EN:Emblem_of_Vietnam'],POS:['NOUN'],iskeyConcept:['false'],Sense:['WIKI:EN:Emblem_of_Vietnam', 'WIKI:VI:Quốc_huy_Việt_Nam', 'WIKI:ZH:越南國徽', 'WIKIDATA:EN:Emblem_of_Vietnam', 'WIKIDATA:VI:Quốc_huy_của_Việt_Nam', 'WIKIDATA:VI:Quốc_huy_Việt_Nam', 'WIKIDATA:ZH:越南國徽', 'WIKIRED:EN:Coat_of_arms_of_South_Vietnam', 'WIKIRED:EN:Coat_of_arms_of_Viet_Nam', 'WIKIRED:EN:Coat_of_Arms_of_Viet_Nam', 'WIKIRED:EN:Coat_of_arms_of_vietnam', 'WIKIRED:EN:Coat_of_arms_of_Vietnam', 'WIKIRED:EN:Emblem_of_South_Vietnam', 'WIKIRED:VI:Quốc_huy_của_Việt_Nam', 'WIKIRED:VI:Quốc_huy_việt_nam', 'WIKIRED:ZH:越南国徽'],glosses:['The emblem of Vietnam is circular, has red background and a yellow star in the middle which represent the Communist Party of Vietnam, the revolutionary history and bright future of Vietnam.', 'Coat of arms'],Category:['BNCAT:VI:Biểu_tượng_của_Việt_Nam', 'BNCAT:EN:Coats_of_arms_of_communist_states', 'BNCAT:EN:Coats_of_arms_with_cogwheels', 'BNCAT:EN:Coats_of_arms_with_rice', 'BNCAT:EN:Coats_of_arms_with_stars', 'BNCAT:EN:Coats_of_arms_with_wheat', 'BNCAT:EN:Heraldry_stubs', 'BNCAT:EN:National_emblems', 'BNCAT:EN:National_symbols_of_Vietnam', 'BNCAT:VI:Quốc_huy', 'BNCAT:VI:Tác_phẩm_1976', 'BNCAT:EN:Vietnam_stubs', 'BNCAT:ZH:国徽', 'BNCAT:ZH:越南國家象徵']})
create ( :Synset { ID:"bn:03663227n",MainSense:['WIKI:EN:Government_of_Vietnam'],POS:['NOUN'],iskeyConcept:['false'],Sense:['WIKI:VI:Chính_phủ_Việt_Nam', 'WIKI:EN:Government_of_Vietnam', 'WIKIDATA:VI:Chính_phủViệt_Nam', 'WIKIDATA:VI:Chính_quyền_Việt_Nam', 'WIKIDATA:EN:Government_of_Vietnam', 'WIKIDATA:VI:Hộiđồng_Bộ_trưởng_Việt_Nam', 'WIKIDATA:EN:Vietnamese_Government', 'WIKIRED:EN:Cabinet_of_Vietnam', 'WIKIRED:VI:Chính_phủ_CHXHCN_Việt_Nam', 'WIKIRED:VI:Chính_phủ_nước_Cộng_hòa_xãhội_chủnghĩa_Việt_Nam', 'WIKIRED:VI:Chính_quyền_Việt_Nam', 'WIKIRED:EN:Council_of_Ministers_of_Vietnam', 'WIKIRED:VI:Hộiđồng_Bộtrưởng_Việt_Nam', 'WIKIRED:EN:Vietnamese_Council_of_Ministers', 'WIKIRED:EN:Vietnamese_government', 'WIKIRED:EN:Council_of_Ministers(Vietnam)', 'WIKIRED:VI:Thành_viên_Chính_phủ(Việt_Nam)'],glosses:['The Government of Vietnam is the executive arm of the Vietnamese state, and the members of the Government are elected by the Nation

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,312评论 0 10
  • 郭相麟 抗日战争期间铁匠儿子张响生性懦弱,善良,在目睹亲人,战友被敌人杀害的过程,热血激情义无反顾地投入抗日战...
    郭相麟阅读 209评论 0 1
  • 我的爱人他有这天使般的面孔,完美的脸型让脸上的五官显得精致而妖媚。瞳孔仿佛盛满了蜜糖,波光粼粼。一颦一蹙都带着甜蜜...
    黛晖瑞葵阅读 197评论 0 0
  • 昨天收到活力霜、平衡霜,迫不及待拆开来试用,可能是体质太寒,抹上没什么感觉,吸收很好。想减肥,想塑形,想...
    元和堂英子阅读 2,049评论 0 1