个人理解,下面看不懂可以参考neo4j官方说明文档,全英
放个示例图先
一、安装
neo4j官网下载
自己对应neo4j和java版本,我下载了两个版本,电脑上Java版本低,懒得升级就用了3.5.28
解压后将解压的文件夹添加到环境变量
二、启动服务
两种方式
- neo4j.bat console
数据放在neo4j目录下data\database\,启动服务时自动关联graph.db,如果database文件夹中没有graph.db,则服务自动创建graph.db
服务启动后在浏览器打开图形交互界面(启动服务给的url:http://localhost:7474/),账号密码默认都是neo4j
- 使用bin\neo4j install-service安装服务,然后用bin\neo4j start启动,bin\neo4j stop关闭
三、导入数据
导入数据有好几种方式
1. 服务关闭时在命令行用import
导入前需要将数据处理为相应格式,在第四部分讲
bin\neo4j-admin import --database=db_test.db --nodes=import\stock\entities_stock.csv --nodes=import\stock\entities_holder.csv --relationships=import\stock\relationships.csv --nodes=import\stock\entities_bourse.csv --nodes=import\stock\entities_concept.csv
import 成功
import成功后,在启动服务之前如果想用这份数据,需要手动将这个数据集重命名为graph.db
2. 在浏览器图形交互界面Cypher中用CREAT(待调研)
3. python py2neo工具包
在自己的python环境中安装py2neo
pip install py2neo
使用py2neo导入数据时需要先启动服务!!!
使用py2neo导入数据时需要先启动服务!!!
使用py2neo导入数据时需要先启动服务!!!
# 导入需要的工具包
from py2neo import Graph, Node, Relationship, NodeMatcher, Subgraph
import pandas as pd
import numpy as np
import os
# 连接Neo4j数据库
graph = Graph('http://localhost:7474/', username='neo4j', password='neo4j') # 改为自己在交互界面设置的账号密码,默认都是neo4j
graph.delete_all() # 删除此库中所有数据
# pandas读取csv数据及数据处理,当然也可以通过其他方式生成数据
stock = pd.read_csv('./stock_basic.csv', encoding="gbk")
holder = pd.read_csv('./stock_holders.csv', encoding="gbk")
concept_num = pd.read_csv('./concept.csv', encoding="gbk")
concept = pd.read_csv('./stock_concept.csv', encoding="gbk")
sh = pd.read_csv('./sh.csv')
sz = pd.read_csv('./sz.csv')
corr = pd.read_csv('./corr.csv')
stock['行业'] = stock['行业'].fillna('未知')
holder = holder.drop_duplicates(subset=None, keep='first', inplace=False)
# 建立实体
sz = Node('深股通', 名字='深股通')
graph.create(sz)
sh = Node('沪股通', 名字='沪股通')
graph.create(sh)
print('Start concept_num')
nodes = []
for i in concept_num.values:
a = Node('概念', 概念代码=i[0], 概念名称=i[1])
nodes.append(a)
graph.create(Subgraph(nodes))
print('Start stock')
nodes = []
for i in stock.values:
a = Node('股票', TS代码=i[1], 股票名称=i[3], 行业=i[4])
# print('TS代码:' + str(i[1]), '股票名称:' + str(i[3]), '行业:' + str(i[4]))
nodes.append(a)
graph.create(Subgraph(nodes))
print('Start holder')
nodes = []
for i in holder.values:
a = Node('股东', TS代码=i[0], 股东名称=i[1], 持股数量=i[2], 持股比例=i[3])
# print('TS代码:' + str(i[0]), '股东名称:' + str(i[1]), '持股数量:' + str(i[2]))
nodes.append(a)
graph.create(Subgraph(nodes))
四、数据格式
再用import方式导入时,需注意将数据处理为neo4j识别的格式。
官方给的示例csv表头:
数据类型 | 表头 |
---|---|
实体 | movieId:ID,title,year:int,:LABEL |
实体 | personId:ID,name,:LABEL |
关系 | :START_ID,role,:END_ID,:TYPE |
表头中冒号':'及后面是neo4j识别的内容,是定死的,其他都可更改
:ID 实体的ID,全局唯一标识,如'holder_001', '000001.SZ'
:LABEL 用于聚类的一些标签,如'股票', '歌手'
:START_ID 关系头ID,必须在所有全局ID中包含
:END_ID 关系尾ID,必须在所有全局ID中包含
:TYPE 关系类型,如'参与', '持股', '扮演'
entities_stock.csv
entities_holder.csv
relationships.csv
其他表头标签为实体的属性或具体关系
tips:一些错误
-
windows在python编译器中 import py2neo 时出现 OverflowError: mktime argument out of range
解决:Clock.local_offset = Clock(-int(mktime(gmtime(0)))) 改为 Clock.local_offset = Clock(-int(-28800.0))
-
图形界面节点显示id
问题如图
解决方法
结果