neo4j图数据库(随时更新)

个人理解,下面看不懂可以参考neo4j官方说明文档,全英
放个示例图先

一、安装

neo4j官网下载
自己对应neo4j和java版本,我下载了两个版本,电脑上Java版本低,懒得升级就用了3.5.28


解压后将解压的文件夹添加到环境变量

二、启动服务

两种方式

  • neo4j.bat console

    数据放在neo4j目录下data\database\,启动服务时自动关联graph.db,如果database文件夹中没有graph.db,则服务自动创建graph.db

    服务启动后在浏览器打开图形交互界面(启动服务给的url:http://localhost:7474/),账号密码默认都是neo4j
  • 使用bin\neo4j install-service安装服务,然后用bin\neo4j start启动,bin\neo4j stop关闭

三、导入数据

导入数据有好几种方式

1. 服务关闭时在命令行用import

导入前需要将数据处理为相应格式,在第四部分讲

bin\neo4j-admin import --database=db_test.db --nodes=import\stock\entities_stock.csv --nodes=import\stock\entities_holder.csv --relationships=import\stock\relationships.csv --nodes=import\stock\entities_bourse.csv --nodes=import\stock\entities_concept.csv

import 成功

import成功后,在启动服务之前如果想用这份数据,需要手动将这个数据集重命名为graph.db

2. 在浏览器图形交互界面Cypher中用CREAT(待调研)

3. python py2neo工具包

在自己的python环境中安装py2neo

pip install py2neo

使用py2neo导入数据时需要先启动服务!!!
使用py2neo导入数据时需要先启动服务!!!
使用py2neo导入数据时需要先启动服务!!!

# 导入需要的工具包
from py2neo import Graph, Node, Relationship, NodeMatcher, Subgraph
import pandas as pd
import numpy as np
import os

# 连接Neo4j数据库
graph = Graph('http://localhost:7474/', username='neo4j', password='neo4j') # 改为自己在交互界面设置的账号密码,默认都是neo4j
graph.delete_all() # 删除此库中所有数据

# pandas读取csv数据及数据处理,当然也可以通过其他方式生成数据
stock = pd.read_csv('./stock_basic.csv', encoding="gbk")
holder = pd.read_csv('./stock_holders.csv', encoding="gbk")
concept_num = pd.read_csv('./concept.csv', encoding="gbk")
concept = pd.read_csv('./stock_concept.csv', encoding="gbk")
sh = pd.read_csv('./sh.csv')
sz = pd.read_csv('./sz.csv')
corr = pd.read_csv('./corr.csv')
stock['行业'] = stock['行业'].fillna('未知')
holder = holder.drop_duplicates(subset=None, keep='first', inplace=False)

# 建立实体
sz = Node('深股通', 名字='深股通')
graph.create(sz)

sh = Node('沪股通', 名字='沪股通')
graph.create(sh)

print('Start concept_num')
nodes = []
for i in concept_num.values:
    a = Node('概念', 概念代码=i[0], 概念名称=i[1])
    nodes.append(a)
graph.create(Subgraph(nodes))

print('Start stock')
nodes = []
for i in stock.values:
    a = Node('股票', TS代码=i[1], 股票名称=i[3], 行业=i[4])
    # print('TS代码:' + str(i[1]), '股票名称:' + str(i[3]), '行业:' + str(i[4]))
    nodes.append(a)
graph.create(Subgraph(nodes))

print('Start holder')
nodes = []
for i in holder.values:
    a = Node('股东', TS代码=i[0], 股东名称=i[1], 持股数量=i[2], 持股比例=i[3])
    # print('TS代码:' + str(i[0]), '股东名称:' + str(i[1]), '持股数量:' + str(i[2]))
    nodes.append(a)
graph.create(Subgraph(nodes))

四、数据格式

再用import方式导入时,需注意将数据处理为neo4j识别的格式。
官方给的示例csv表头:

数据类型 表头
实体 movieId:ID,title,year:int,:LABEL
实体 personId:ID,name,:LABEL
关系 :START_ID,role,:END_ID,:TYPE

表头中冒号':'及后面是neo4j识别的内容,是定死的,其他都可更改
:ID 实体的ID,全局唯一标识,如'holder_001', '000001.SZ'
:LABEL 用于聚类的一些标签,如'股票', '歌手'
:START_ID 关系头ID,必须在所有全局ID中包含
:END_ID 关系尾ID,必须在所有全局ID中包含
:TYPE 关系类型,如'参与', '持股', '扮演'


entities_stock.csv

entities_holder.csv

relationships.csv

其他表头标签为实体的属性或具体关系

tips:一些错误

  • windows在python编译器中 import py2neo 时出现 OverflowError: mktime argument out of range



    解决:Clock.local_offset = Clock(-int(mktime(gmtime(0)))) 改为 Clock.local_offset = Clock(-int(-28800.0))

  • 图形界面节点显示id

    问题如图

    解决方法

    结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容