股票池如何用python构建

2024-05-04 10:54

1. 股票池如何用python构建

股票池用python构建的方法是：使用第三方平台，目前可以使用的是聚宽，对比一下聚宽、优矿、大宽网（已经倒闭了），都大同小异，选哪个都一样。
虽然这些平台都大同小异，但是代码可不能简单复制粘贴，因为底层函数库是不一样的，有可能在别的平台根本用不了某个函数，并且简单复制到自己电脑中的python的话百分之百用不了。
代码的思路是，每个月底进行调仓，选出市值最小的股票交易，去掉ST/*ST/停牌/涨停的股票，然后选择最小市值的10只，基准是创业板综指，看看结果。

python构建数据获取方法是：
这里使用为了接下来的操作需要将一定历史范围的股票数据下载下来，这里下载起始时间为20160101，截至时间为运行代码的时间范围的历史日线数据。
这里以tushare为例, tushare获取历史数据有两种方式。
第一种是以迭代历史交易日的方式获取所有历史数据，假设获取三年的历史数据，一年一般220个交易日左右，那么3年需要请求660多次左右，如果以这种方式的话，就下载数据的时间只需要1分钟多点的样子。
第二种是以迭代所有股票代码的方式获取所有历史数据，股票数量有大概3800多个，需要请求3800多次，但是在积分有限的情况下一分钟最多请求500次，也就意味着仅下载数据的时间至少需要大概8分钟时间。
理论上，你获取的历史范围超过17.3年，那么使用第一种方式才比第二种方式快。

股票池如何用python构建

2. 如何用python实现Markowitz投资组合优化

0.导入需要的包import pandas as pd
import numpy as np
import statsmodels.api as sm #统计运算
import scipy.stats as scs #科学计算
import matplotlib.pyplot as plt #绘图

1.选取几只感兴趣的股票
000413 东旭光电，000063 中兴通讯，002007 华兰生物，000001 平安银行，000002 万科A
并比较一下数据（2015-01-01至2015-12-31）
In[1]:
stock_set = ['000413.XSHE','000063.XSHE','002007.XSHE','000001.XSHE','000002.XSHE']
noa = len(stock_set)
df = get_price(stock_set, start_date = '2015-01-01', end_date ='2015-12-31', 'daily', ['close'])
data = df['close']
#规范化后时序数据
(data/data.ix[0]*100).plot(figsize = (8,5))
Out[1]:

2.计算不同证券的均值、协方差
每年252个交易日，用每日收益得到年化收益。计算投资资产的协方差是构建资产组合过程的核心部分。运用pandas内置方法生产协方差矩阵。
In [2]:
returns = np.log(data / data.shift(1))
returns.mean()*252
Out[2]:

000413.XSHE    0.184516
000063.XSHE    0.176790
002007.XSHE    0.309077
000001.XSHE   -0.102059
000002.XSHE    0.547441

In [3]:
returns.cov()*252
Out[3]:

3.给不同资产随机分配初始权重
由于A股不允许建立空头头寸，所有的权重系数均在0-1之间
In [4]:
weights = np.random.random(noa)
weights /= np.sum(weights)
weights
Out[4]:

array([ 0.37505798,  0.21652754,  0.31590981,  0.06087709,  0.03162758])

4.计算预期组合年化收益、组合方差和组合标准差
In [5]:
np.sum(returns.mean()*weights)*252
Out[5]:

0.21622558669017816

In [6]:
np.dot(weights.T, np.dot(returns.cov()*252,weights))
Out[6]:

0.23595133640121463

In [7]:
np.sqrt(np.dot(weights.T, np.dot(returns.cov()* 252,weights)))
Out[7]:

0.4857482232609962

5.用蒙特卡洛模拟产生大量随机组合
进行到此，我们最想知道的是给定的一个股票池（证券组合）如何找到风险和收益平衡的位置。
下面通过一次蒙特卡洛模拟，产生大量随机的权重向量，并记录随机组合的预期收益和方差。
In [8]:
port_returns = []
port_variance = []
for p in range(4000):
  weights = np.random.random(noa)
  weights /=np.sum(weights)
  port_returns.append(np.sum(returns.mean()*252*weights))
  port_variance.append(np.sqrt(np.dot(weights.T, np.dot(returns.cov()*252, weights))))
port_returns = np.array(port_returns)
port_variance = np.array(port_variance)
#无风险利率设定为4%
risk_free = 0.04
plt.figure(figsize = (8,4))
plt.scatter(port_variance, port_returns, c=(port_returns-risk_free)/port_variance, marker = 'o')
plt.grid(True)
plt.xlabel('excepted volatility')
plt.ylabel('expected return')
plt.colorbar(label = 'Sharpe ratio')
Out[8]:

6.投资组合优化1——sharpe最大
建立statistics函数来记录重要的投资组合统计数据（收益，方差和夏普比）
通过对约束最优问题的求解，得到最优解。其中约束是权重总和为1。
In [9]:
def statistics(weights):
   weights = np.array(weights)
   port_returns = np.sum(returns.mean()*weights)*252
   port_variance = np.sqrt(np.dot(weights.T, np.dot(returns.cov()*252,weights)))
   return np.array([port_returns, port_variance, port_returns/port_variance])
#最优化投资组合的推导是一个约束最优化问题
import scipy.optimize as sco
#最小化夏普指数的负值
def min_sharpe(weights):
  return -statistics(weights)[2]
#约束是所有参数(权重)的总和为1。这可以用minimize函数的约定表达如下
cons = ({'type':'eq', 'fun':lambda x: np.sum(x)-1})
#我们还将参数值(权重)限制在0和1之间。这些值以多个元组组成的一个元组形式提供给最小化函数
bnds = tuple((0,1) for x in range(noa))
#优化函数调用中忽略的唯一输入是起始参数列表(对权重的初始猜测)。我们简单的使用平均分布。
opts = sco.minimize(min_sharpe, noa*[1./noa,], method = 'SLSQP', bounds = bnds, constraints = cons)
opts
Out[9]:
status: 0
success: True
njev: 4
nfev: 28
fun: -1.1623048291871221
x: array([ -3.60840218e-16,   2.24626781e-16,   1.63619563e-01,        -2.27085639e-16,   8.36380437e-01])
message: 'Optimization terminated successfully.'
jac: array([  1.81575805e-01,   5.40387481e-01,   8.18073750e-05,         1.03137662e+00,  -1.60038471e-05,   0.00000000e+00])
nit: 4

得到的最优组合权重向量为：
In [10]:
opts['x'].round(3)
Out[10]:
array([-0.   ,  0.   ,  0.164, -0.   ,  0.836])

sharpe最大的组合3个统计数据分别为：
In [11]:
#预期收益率、预期波动率、最优夏普指数
statistics(opts['x']).round(3)
Out[11]:

array([ 0.508,  0.437,  1.162])

7.投资组合优化2——方差最小
接下来，我们通过方差最小来选出最优投资组合。
In [12]:
#但是我们定义一个函数对 方差进行最小化
def min_variance(weights):
   return statistics(weights)[1]
optv = sco.minimize(min_variance, noa*[1./noa,],method = 'SLSQP', bounds = bnds, constraints = cons)
optv
Out[12]:
status: 0
success: True
njev: 7
nfev: 50
fun: 0.38542969450547221
x: array([  1.14787640e-01,   3.28089742e-17,   2.09584008e-01,         3.53487044e-01,   3.22141307e-01])
message: 'Optimization terminated successfully.'
jac: array([ 0.3851725 ,  0.43591119,  0.3861807 ,  0.3849672 ,  0.38553924,  0.        ])
nit: 7

方差最小的最优组合权重向量及组合的统计数据分别为：
In [13]:
optv['x'].round(3)
Out[13]:
array([ 0.115,  0.   ,  0.21 ,  0.353,  0.322])

In [14]:
#得到的预期收益率、波动率和夏普指数
statistics(optv['x']).round(3)
Out[14]:
array([ 0.226,  0.385,  0.587])

8.组合的有效前沿
有效前沿有既定的目标收益率下方差最小的投资组合构成。
在最优化时采用两个约束，1.给定目标收益率，2.投资组合权重和为1。
In [15]:
def min_variance(weights):
   return statistics(weights)[1]
#在不同目标收益率水平（target_returns）循环时，最小化的一个约束条件会变化。
target_returns = np.linspace(0.0,0.5,50)
target_variance = []
for tar in target_returns:
  cons = ({'type':'eq','fun':lambda x:statistics(x)[0]-tar},{'type':'eq','fun':lambda x:np.sum(x)-1})
  res = sco.minimize(min_variance, noa*[1./noa,],method = 'SLSQP', bounds = bnds, constraints = cons)
  target_variance.append(res['fun'])
target_variance = np.array(target_variance)

下面是最优化结果的展示。
叉号：构成的曲线是有效前沿（目标收益率下最优的投资组合）
红星：sharpe最大的投资组合
黄星：方差最小的投资组合
In [16]:
plt.figure(figsize = (8,4))
#圆圈：蒙特卡洛随机产生的组合分布
plt.scatter(port_variance, port_returns, c = port_returns/port_variance,marker = 'o')
#叉号：有效前沿
plt.scatter(target_variance,target_returns, c = target_returns/target_variance, marker = 'x')
#红星：标记最高sharpe组合
plt.plot(statistics(opts['x'])[1], statistics(opts['x'])[0], 'r*', markersize = 15.0)
#黄星：标记最小方差组合
plt.plot(statistics(optv['x'])[1], statistics(optv['x'])[0], 'y*', markersize = 15.0)
plt.grid(True)
plt.xlabel('expected volatility')
plt.ylabel('expected return')
plt.colorbar(label = 'Sharpe ratio')

3. 怎么用python计算股票

作为一个python新手，在学习中遇到很多问题，要善于运用各种方法。今天，在学习中，碰到了如何通过收盘价计算股票的涨跌幅。
第一种：
读取数据并建立函数：
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import spline
from pylab import *
import pandas as pd
from pandas import Series
a=pd.read_csv('d:///1.csv',sep=',')#文件位置

t=a['close']
def f(t):
s=[]
for i in range(1,len(t)):
if i==1:
continue
else:
s.append((t[i]-t[i-1])/t[i]*100)
print s
plot(s)


plt.show()
f(t)
第二种：
利用pandas里面的方法：
import pandas as pd

a=pd.read_csv('d:///1.csv')
rets = a['close'].pct_change() * 100
print rets

第三种：
close=a['close']
rets=close/close.shift(1)-1
print rets


总结：python是一种非常好的编程语言，一般而言，我们可以运用构建相关函数来实现自己的思想，但是，众所周知，python中里面的有很多科学计算包，里面有很多方法可以快速解决计算的需要，如上面提到的pandas中的pct_change()。因此在平时的使用中应当学会寻找更好的方法，提高运算速度。

怎么用python计算股票

4. 如何建立属于自己的股票池

20如何构建股票池？数量决定质量，这么做有戏

5. 如何构建自己的股票池

　　　　　    我们就提到了认清趋势的重要性。我们所说的趋势是什么?难道是大盘的指数吗?非也。指数是个非常粗糙的市场描述,它涵括的品种、乃至反映的交易人群过于庞杂,以至于它只能作为粗略了解大势的一个指南。因为：一方面对指数变化有较大影响的所谓权重股往往更适合大资金大机构来投资,而不适合散户投资者；另一方面在信息爆炸的今天,业余投资者不可能对各个行业各个领域的动向都把握得非常清楚与及时,因此与其眉毛胡子一把抓,还不如集中精力专注于1、2个领域。事实证明,这种做法虽然可能错过其他领域出现的交易机会,但是可以大大减少所花费的时间精力。
　　在确认了自己所感兴趣的行业后,下一步在这1、2个行业里就要挑选股票构建一个私人的股票池。入选股票池的股票包括以下这些目标：
　　1、高风险股票。也就是高beta系数的股票,一般是小盘股、投机股。这样的股票比大盘运动得更快更活跃,交易此类股票能有效提高回报率。
　　2、某些大盘蓝筹股
。大盘股是大资金大机构的最爱。相对于小盘股而言,这类股票的股性不是特别活跃,但是在行情低迷、市场总体流动性欠缺的情况下,这类个股的流动性优势就凸现出来了。因此在特定市场环境下这类股票可能成为我们唯一可以交易的品种。我们将它们和高风险股票结合起来放在股票池里,一旦行情启动,大盘蓝筹就让位给小盘投机股。
　　3、有着稳定交易区间的个股。这类股票可能好几个月都在一个箱体内上下震荡,不能提供一次性暴利机会,但它稳定的运行轨迹却给我们提供了丰富的交易机会,“薄利多销”是对它的最佳描述。
　　4、喜欢异动的个股。它们的价值得不到众多投资者的认可,其交易量一般比较低迷。但是,它却往往会有突如其来的价格异动。正因为关注的投资者少,因此在少部分资金的推动下,它的价格就能出现令人亢奋的大起大落。而这种现象很可能一再重演。我们把这类股票放到私人股票池里进行密切观察,掌握其习性,以期获得暴利机会。
　　5、年内价格波动范围大的个股。对于一年内最高价和最低价之间差别很大的个股,我们也要密切留意。根据交易心理,当一只价格波动巨大的股票创下新低的时候,那些曾经买卖过它的投资者会相信它的价格很有可能会反弹到原来的高度,从而入场抄底。这样一批人群的陆续入场就会逐渐推高它的价格,从而带来获利机会。
　　6、运行符合技术指标的个股。不论我们习惯使用的技术分析指标是移动平均线、RSI还是MACD,它们都不可能适用于所有的股票。

如何构建自己的股票池

6. python的量化代码怎么用到股市中

2010 ~ 2017 沪深A股各行业量化分析
在开始各行业的量化分析之前，我们需要先弄清楚两个问题：
第一，A股市场上都有哪些行业；
第二，各行业自2010年以来的营收、净利润增速表现如何？
第一个问题很好回答，我们使用JQData提供的获取行业成分股的方法，输入get_industries(name='sw_l1')得到申万一级行业分类结果如下：它们分别是：【农林牧渔、采掘、化工、钢铁、有色金属、电子、家用电器、食品饮料、纺织服装、轻工制造、医药生物、公用事业、交通运输、房地产、商业贸易、休闲服务、综合、建筑材料、建筑装饰、电器设备、国防军工、计算机、传媒、通信、银行、非银金融、汽车、机械设备】共计28个行业。
第二个问题要知道各行业自2010年以来的营收、净利润增速表现，我们首先需要知道各行业在各个年度都有哪些成分股，然后加总该行业在该年度各成分股的总营收和净利润，就能得到整个行业在该年度的总营收和总利润了。这部分数据JQData也为我们提供了方便的接口：通过调用get_industry_stocks(industry_code=‘行业编码’, date=‘统计日期’)，获取申万一级行业指定日期下的行业成分股列表，然后再调用查询财务的数据接口：get_fundamentals(query_object=‘query_object’, statDate=year)来获取各个成分股在对应年度的总营收和净利润，最后通过加总得到整个行业的总营收和总利润。这里为了避免非经常性损益的影响，我们对净利润指标最终选取的扣除非经常性损益的净利润数据。
我们已经获取到想要的行业数据了。接下来，我们需要进一步分析，这些行业都有什么样的增长特征。
我们发现，在28个申万一级行业中，有18个行业自2010年以来在总营收方面保持了持续稳定的增长。它们分别是：【农林牧渔，电子，食品饮料，纺织服装，轻工制造，医药生物，公用事业，交通运输，房地产，休闲服务，建筑装饰，电气设备，国防军工，计算机，传媒，通信，银行，汽车】；其他行业在该时间范围内出现了不同程度的负增长。
那么，自2010年以来净利润保持持续增长的行业又会是哪些呢？结果是只有5个行业保持了基业长青，他们分别是医药生物，建筑装饰，电气设备，银行和汽车。（注：由于申万行业在2014年发生过一次大的调整，建筑装饰，电气设备，银行和汽车实际从2014年才开始统计。）
从上面的分析结果可以看到，真正能够保持持续稳定增长的行业并不多，如果以扣非净利润为标准，那么只有医药生物，建筑装饰，电气设备，银行和汽车这五个行业可以称之为优质行业，实际投资中，就可以只从这几个行业中去投资。这样做的目的是，一方面，能够从行业大格局层面避免行业下行的风险，绕开一个可能出现负增长的的行业，从而降低投资的风险；另一方面，也大大缩短了我们的投资范围，让投资者能够专注于从真正好的行业去挑选公司进行投资。
「2010-2017」投资于优质行业龙头的收益表现
选好行业之后，下面进入选公司环节。我们知道，即便是一个好的行业也仍然存在表现不好的公司，那么什么是好的公司呢，本文试图从营业收入规模和利润规模和来考察以上五个基业长青的行业，从它们中去筛选公司作为投资标的。
3.1按营业收入规模构建的行业龙头投资组合
首先，我们按照营业收入规模，筛选出以上5个行业【医药生物，建筑装饰，电气设备，银行和汽车】从2010年至今的行业龙头如下表所示：

可以看到，虽然时间跨度很长，但是在这5个行业中，营收规模大的公司始终处于领先地位。它们分别是【上海医药，中国建筑，上海电气，工商银行，上汽集团】。
由于各年度上市公司年报的公布截止日是4月30日，待所有上市公司年报公布后，确定行业龙头，然后将这些行业龙头构建成一个投资组合。那么，持有投资组合的收益表现如何呢？为了保证投资时间的一致性，我们假设从2015年4月30号之后的第一个交易日开始投资，本金是100万，每个标的投资权重相同，都是20%，并且忽略交易成本，那么持有该组合至2018年4月30号的投资收益是多少呢？
我们利用JQData提供的获取行情接口get_price(security='股票代码', start_date='开始交易日', end_date='投资截止日', frequency='daily', fields=None, skip_paused=False, fq='pre')，分别获取组合中各个公司在各年度开始交易日和投资截止日（4.30之后的第一个交易日）的价格，得到最终的投资结果如下图所示：

可以看到，除了2015.5.4-2016.5.3股灾期间，该组合投资收益率和上证指数、沪深300指数有一个同步的大幅下跌外，从2016.5.3至2018年5.2，改组合连续两年获得了正收益，并在2016年大幅跑赢另外两个基准指数20%以上。
聪明的读者一定会问这样一个问题，如果我从2018年5月2号开始，投资100万买入这样一个按营收规模衡量的行业龙头组合，至2018年5月30号，收益表现会如何呢？答案是【3.04%】，而同期上证指数收益率和沪深300收益率分别是【-0.20%】和【-0.39%】，可以说表现非常之好了。具体收益如下表所示：

3.2按扣非净利润规模构建的行业龙头投资组合如果我们按照扣除非经常性损益的净利润来衡量，以上5个行业从2010年至今的行业龙头又会是哪些呢，我们查出来如下表所示：

可以看到，按照扣非净利润来构建投资组合，医药生物和电气设备两个行业分别发生了行业龙头的更替，如果要构建基于扣非净利润的投资组合，那么我们就需要每年去调整我们的组合标的以保证组合中都是上一年度的行业龙头。和上述投资回测方式一样，我们从2015年5月4号买入这样一个组合，并在之后每年4月30号之后的第一个交易日调整组合中的行业龙头标的，最终的投资结果如下表所示：

可以看到，即使是2015.4.30-2016.5.3股灾期间，该组合也跑赢上证指数和沪深300指数3%左右；而2016.5.3至2018年5.2期间更是大幅跑赢两个基准指数高达30%以上。
同样的，如果从2018年5月2号开始，投资100万买入这样一个按扣非净利润规模衡量的行业龙头组合，至2018年5月30号，收益表现会如何呢？答案是【2.83%】，对比同期上证指数收益率和沪深300指数的【-0.20%】和【-0.39%】，仍然维持了非常良好的表现。具体收益如下表所示：

结论通过以上行业分析和投资组合的历史回测可以看到：
先选行业，再选公司，即使是从2015年股灾期间开始投资，至2018年5月1号，仍然能够获得相对理想的收益，可以说，红杉资本的赛道投资法则对于一般投资者还是比较靠谱的。
在构建行业龙头投资组合时，净利润指标显著优于营业收入指标，获得的投资收益能够更大的跑赢全市场收益率
市场是不断波动的，如果一个投资者从股灾期间开始投资，那么即使他买入了上述优质行业的龙头组合，在近3年也只能获得12%左右的累计收益；而如果从2016年5月3日开始投资，那么至2018年5月2日，2年时间就能获得超过50%以上的收益了。所以，在投资过程中选择时机也非常重要。
出自：JoinQuant 聚宽数据 JQData

7. 如何用Python和机器学习炒股赚钱

相信很多人都想过让人工智能来帮你赚钱，但到底该如何做呢？瑞士日内瓦的一位金融数据顾问 Gaëtan Rickter 近日发表文章介绍了他利用 Python 和机器学习来帮助炒股的经验，其最终成果的收益率跑赢了长期处于牛市的标准普尔 500 指数。虽然这篇文章并没有将他的方法完全彻底公开，但已公开的内容或许能给我们带来如何用人工智能炒股的启迪。
我终于跑赢了标准普尔 500 指数 10 个百分点！听起来可能不是很多，但是当我们处理的是大量流动性很高的资本时，对冲基金的利润就相当可观。更激进的做法还能得到更高的回报。
这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed（当时股票代码是 ENMD）的事件：
「星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85，在周一收盘时接近 52。在接下来的三周，它的收盘价都在 30 以上。这股投资热情也让其它生物科技股得到了溢价。但是，这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了，其中甚至包括《泰晤士报》！因此，仅仅是热情的公众关注就能引发股价的持续上涨，即便实际上并没有出现真正的新信息。」
在研究者给出的许多有见地的观察中，其中有一个总结很突出：
「（股价）运动可能会集中于有一些共同之处的股票上，但这些共同之处不一定要是经济基础。」
我就想，能不能基于通常所用的指标之外的其它指标来划分股票。我开始在数据库里面挖掘，几周之后我发现了一个，其包含了一个分数，描述了股票和元素周期表中的元素之间的「已知和隐藏关系」的强度。
我有计算基因组学的背景，这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知。但是，当我们分析数据时，我们又会开始看到我们之前可能无法预测的新关系和相关性。

选择出的涉及细胞可塑性、生长和分化的信号通路的基因的表达模式
和基因一样，股票也会受到一个巨型网络的影响，其中各个因素之间都有或强或弱的隐藏关系。其中一些影响和关系是可以预测的。
我的一个目标是创建长的和短的股票聚类，我称之为「篮子聚类（basket clusters）」，我可以将其用于对冲或单纯地从中获利。这需要使用一个无监督机器学习方法来创建股票的聚类，从而使这些聚类之间有或强或弱的关系。这些聚类将会翻倍作为我的公司可以交易的股票的「篮子（basket）」。
首先我下载了一个数据集：Public Company Hidden Relationship Discovery，这个数据集基于元素周期表中的元素和上市公司之间的关系。
然后我使用了 Python 和一些常用的机器学习工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn，我开始了解我正在处理的数据集的分布形状。为此我参考了一个题为《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel：Principal Component Analysis with KMeans visuals
import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport seaborn as sbnp.seterr(divide='ignore', invalid='ignore')# Quick way to test just a few column features# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')print(stocks.head())str_list = []for colname, colvalue in stocks.iteritems():    if type(colvalue[1]) == str:str_list.append(colname)# Get to the numeric columns by inversionnum_list = stocks.columns.difference(str_list)stocks_num = stocks[num_list]print(stocks_num.head())
输出：简单看看前面 5 行：
zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$ ./hidden_relationships.pySymbol_update-2017-04-01  Hydrogen   Helium  Lithium  Beryllium  Boron  \0                        A       0.0  0.00000      0.0        0.0    0.0   1                       AA       0.0  0.00000      0.0        0.0    0.0   2                     AAAP       0.0  0.00461      0.0        0.0    0.0   3                      AAC       0.0  0.00081      0.0        0.0    0.0   4                    AACAY       0.0  0.00000      0.0        0.0    0.0   Carbon  Nitrogen    Oxygen  Fluorine     ...       Fermium  Mendelevium  \0  0.006632       0.0  0.007576       0.0     ...      0.000000     0.079188   1  0.000000       0.0  0.000000       0.0     ...      0.000000     0.000000   2  0.000000       0.0  0.000000       0.0     ...      0.135962     0.098090   3  0.000000       0.0  0.018409       0.0     ...      0.000000     0.000000   4  0.000000       0.0  0.000000       0.0     ...      0.000000     0.000000   Nobelium  Lawrencium  Rutherfordium  Dubnium  Seaborgium  Bohrium  Hassium  \0  0.197030      0.1990         0.1990      0.0         0.0      0.0      0.0   1  0.000000      0.0000         0.0000      0.0         0.0      0.0      0.0   2  0.244059      0.2465         0.2465      0.0         0.0      0.0      0.0   3  0.000000      0.0000         0.0000      0.0         0.0      0.0      0.0   4  0.000000      0.0000         0.0000      0.0         0.0      0.0      0.0   Meitnerium  0         0.0  1         0.0  2         0.0  3         0.0  4         0.0  [5 rows x 110 columns]Actinium  Aluminum  Americium  Antimony     Argon   Arsenic  Astatine  \0  0.000000       0.0        0.0  0.002379  0.047402  0.018913       0.0   1  0.000000       0.0        0.0  0.000000  0.000000  0.000000       0.0   2  0.004242       0.0        0.0  0.001299  0.000000  0.000000       0.0   3  0.000986       0.0        0.0  0.003378  0.000000  0.000000       0.0   4  0.000000       0.0        0.0  0.000000  0.000000  0.000000       0.0   Barium  Berkelium  Beryllium    ...      Tin  Titanium  Tungsten   Uranium  \0     0.0   0.000000        0.0    ...      0.0  0.002676       0.0  0.000000   1     0.0   0.000000        0.0    ...      0.0  0.000000       0.0  0.000000   2     0.0   0.141018        0.0    ...      0.0  0.000000       0.0  0.004226   3     0.0   0.000000        0.0    ...      0.0  0.000000       0.0  0.004086   4     0.0   0.000000        0.0    ...      0.0  0.000000       0.0  0.000000   Vanadium  Xenon  Ytterbium   Yttrium      Zinc  Zirconium  0  0.000000    0.0        0.0  0.000000  0.000000        0.0  1  0.000000    0.0        0.0  0.000000  0.000000        0.0  2  0.002448    0.0        0.0  0.018806  0.008758        0.0  3  0.001019    0.0        0.0  0.000000  0.007933        0.0  4  0.000000    0.0        0.0  0.000000  0.000000        0.0  [5 rows x 109 columns]zack@twosigma-Dell-Precision-M3800:/home/zack/hedge_pool/baskets/hcluster$
概念特征的皮尔逊相关性（Pearson Correlation）。在这里案例中，是指来自元素周期表的矿物和元素：
stocks_num = stocks_num.fillna(value=0, axis=1)X = stocks_num.valuesfrom sklearn.preprocessing import StandardScalerX_std = StandardScaler().fit_transform(X)f, ax = plt.subplots(figsize=(12, 10))plt.title('Pearson Correlation of Concept Features (Elements & Minerals)')# Draw the heatmap using seabornsb.heatmap(stocks_num.astype(float).corr(),linewidths=0.25,vmax=1.0, square=True, cmap="YlGnBu", linecolor='black', annot=True)sb.plt.show()
输出：（这个可视化例子是在前 16 个样本上运行得到的）。看到元素周期表中的元素和上市公司关联起来真的很有意思。在某种程度时，我想使用这些数据基于公司与相关元素或材料的相关性来预测其可能做出的突破。

测量「已解释方差（Explained Variance）」和主成分分析（PCA）
已解释方差=总方差-残差方差（explained variance = total variance - residual variance)。应该值得关注的 PCA 投射组件的数量可以通过已解释方差度量（Explained Variance Measure）来引导。Sebastian Raschka 的关于 PCA 的文章对此进行了很好的描述，参阅：Principal Component Analysis
# Calculating Eigenvectors and eigenvalues of Cov matirxmean_vec = np.mean(X_std, axis=0)cov_mat = np.cov(X_std.T)eig_vals, eig_vecs = np.linalg.eig(cov_mat)# Create a list of (eigenvalue, eigenvector) tupleseig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]# Sort from high to loweig_pairs.sort(key = lambda x: x[0], reverse= True)# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)var_exp = [(i/tot)*100 for i in sorted(eig_vals, reverse=True)] cum_var_exp = np.cumsum(var_exp) # Cumulative explained variance# Variances plotmax_cols = len(stocks.columns) - 1plt.figure(figsize=(10, 5))plt.bar(range(max_cols), var_exp, alpha=0.3333, align='center', label='individual explained variance', color = 'g')plt.step(range(max_cols), cum_var_exp, where='mid',label='cumulative explained variance')plt.ylabel('Explained variance ratio')plt.xlabel('Principal components')plt.legend(loc='best')plt.show()
输出：

从这个图表中我们可以看到大量方差都来自于预测主成分的前 85%。这是个很高的数字，所以让我们从低端的开始，先只建模少数几个主成分。更多有关分析主成分合理数量的信息可参阅：Principal Component Analysis explained visually
使用 scikit-learn 的 PCA 模块，让我们设 n_components = 9。代码的第二行调用了 fit_transform 方法，其可以使用标准化的电影数据 X_std 来拟合 PCA 模型并在该数据集上应用降维（dimensionality reduction）。
pca = PCA(n_components=9)x_9d = pca.fit_transform(X_std)plt.figure(figsize = (9,7))plt.scatter(x_9d[:,0],x_9d[:,1], c='goldenrod',alpha=0.5)plt.ylim(-10,30)plt.show()
输出：

这里我们甚至没有真正观察到聚类的些微轮廓，所以我们很可能应该继续调节 n_component 的值直到我们得到我们想要的结果。这就是数据科学与艺术（data science and art）中的「艺术」部分。
现在，我们来试试 K-均值，看看我们能不能在下一章节可视化任何明显的聚类。
K-均值聚类（K-Means Clustering）
我们将使用 PCA 投射数据来实现一个简单的 K-均值。
使用 scikit-learn 的 KMeans() 调用和 fit_predict 方法，我们可以计算聚类中心并为第一和第三个 PCA 投射预测聚类索引（以便了解我们是否可以观察到任何合适的聚类）。然后我们可以定义我们自己的配色方案并绘制散点图，代码如下所示：
# Set a 3 KMeans clusteringkmeans = KMeans(n_clusters=3)# Compute cluster centers and predict cluster indicesX_clustered = kmeans.fit_predict(x_9d)# Define our own color mapLABEL_COLOR_MAP = {0 : 'r',1 : 'g',2 : 'b'}label_color = [LABEL_COLOR_MAP[l] for l in X_clustered]# Plot the scatter digramplt.figure(figsize = (7,7))plt.scatter(x_9d[:,0],x_9d[:,2], c= label_color, alpha=0.5)plt.show()
输出：

这个 K-均值散点图看起来更有希望，好像我们简单的聚类模型假设就是正确的一样。我们可以通过这种颜色可视化方案观察到 3 个可区分开的聚类。
使用 seaborn 方便的 pairplot 函数，我可以以成对的方式在数据框中自动绘制所有的特征。我们可以一个对一个地 pairplot 前面 3 个投射并可视化：
# Create a temp dataframe from our PCA projection data "x_9d"df = pd.DataFrame(x_9d)df = df[[0,1,2]]df['X_cluster'] = X_clustered# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected datasb.pairplot(df, hue='X_cluster', palette='Dark2', diag_kind='kde', size=1.85)sb.plt.show()
输出：

构建篮子聚类（Basket Clusters）
你应该自己决定如何微调你的聚类。这方面没有什么万灵药，具体的方法取决于你操作的环境。在这个案例中是由隐藏关系所定义的股票和金融市场。
一旦你的聚类使你满意了，你就可以设置分数阈值来控制特定的股票是否有资格进入一个聚类，然后你可以为一个给定的聚类提取股票，将它们作为篮子进行交易或使用这些篮子作为信号。你可以使用这种方法做的事情很大程度就看你自己的创造力以及你在使用深度学习变体来进行优化的水平，从而基于聚类或数据点的概念优化每个聚类的回报，比如 short interest 或 short float（公开市场中的可用股份）。
你可以注意到了这些聚类被用作篮子交易的方式一些有趣特征。有时候标准普尔和一般市场会存在差异。这可以提供本质上基于「信息套利（information arbitrage）」的套利机会。一些聚类则和谷歌搜索趋势相关。

看到聚类和材料及它们的供应链相关确实很有意思，正如这篇文章说的一样：Zooming in on 10 materials and their supply chains - Fairphone
我仅仅使用该数据集操作了 Cobalt（钴）、Copper（铜）、Gallium（镓）和 Graphene（石墨烯）这几个列标签，只是为了看我是否可能发现从事这一领域或受到这一领域的风险的上市公司之间是否有任何隐藏的联系。这些篮子和标准普尔的回报进行了比较。
通过使用历史价格数据（可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用），然后你可以汇总价格数据来生成预计收益，其可使用 HighCharts 进行可视化：

我从该聚类中获得的回报超过了标准普尔相当一部分，这意味着你每年的收益可以比标准普尔还多 10%（标准普尔近一年来的涨幅为 16%）。我还见过更加激进的方法可以净挣超过 70%。现在我必须承认我还做了一些其它的事情，但因为我工作的本质，我必须将那些事情保持黑箱。但从我目前观察到的情况来看，至少围绕这种方法探索和包装新的量化模型可以证明是非常值得的，而其唯一的缺点是它是一种不同类型的信号，你可以将其输入其它系统的流程中。
生成卖空篮子聚类（short basket clusters）可能比生成买空篮子聚类（long basket clusters）更有利可图。这种方法值得再写一篇文章，最好是在下一个黑天鹅事件之前。

如果你使用机器学习，就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机，这是很有趣而且可以盈利的。最后，一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签（即概念（concept））的强大组合的能力。
我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法。也许会基于近乎实时的事件，这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组。

如何用Python和机器学习炒股赚钱

8. 如何建立一套属于自己的交易系统

股票交易系统是自己选股、买卖、持仓的行为指南。是否有一套适合自己、适应市场的交易系统，是能否持续稳定盈利的关键。
  
  1、自选股
  应该建立自己的自选股股票池，动态管理、持续跟踪自选股，时机到来时可买入。自选股票的选股逻辑： 热点题材股、成长股、困境逆转股、低估股、资产突变重组股、套利股等。
 
  2、组合原则：适当分散
  当出现买点时，应利用组合的方式进行买入，注意适当分散投资。可以避免满仓或者重仓单一股票的黑天鹅事件和长时间不涨或者被套的心态急躁问题。股票组合应该是不同行业、不同题材的股票。
 
  3、顺势而为
  顺势加仓持仓、逆势减仓或空仓，绝对不用逆势而为。严格遵守生命线操作纪律，当大盘和个股的价格运行在生命线上时做多，反之看空。生命线主要指均线，一般短线操作是10日均线、中长线操作20日或者30日均线。
 
  4、仓位管理
  分批买入和卖出，当出现入场时机时，应分批买入多只股票，同理当卖出时机出现时，也应该分批卖出，注意自己的仓位控制。当大盘强势放量上涨，个股普涨时，应重仓操作；反之则需要减仓或者空仓。
 
  5、持续完善操作系统
  依据上面的几点，即可建立自己的操作系统。平时操作时，需严格按操作系统进行操作。操作系统建立后不是一成不变的，应该结合自己的实际操作，不断改进完善自己的操作系统，确保自己持续稳定的盈利。
 
这些可以慢慢去领悟，新手在不熟悉操作前不防先用个模拟盘去练练，从模拟中找些经验，目前的牛股宝模拟炒股还不错，里面的知识全面，行情跟实盘同步，使用起来有一定的帮助，希望可以帮助到您，祝投资愉快！