请各位高手指点思路,能附代码万分感谢!
1、现有Excel若干行(很多),每行都有不连续的整数组成(数量不定);
2、现需要在1-45中随机选取5个不重复的数,按从小到大排列;
3、要求:随机组合的结果中的元素与Excel每行元素重复数量不能超过4个(重复3个、2个、1个、0个)
4、输出所有符合要求的结果
如果随机生成一个
from random import randint, sample
import pandas as pd
excel = pd.read_excel(r"d:\test.xlsx")
rows=excel.values #[]
# for i in range(20):
# rows.append([randint(1,50) for _ in range(randint(10,30))])
data = range(1,46)
sampleCount=5
def getSample(data):
return sorted(sample(data, sampleCount))
sp = getSample(data)
while True:
count=0
for row in rows:
same = list(set(sp).intersection(set(row))) #交集
if len(same)>=4:
sp = getSample(data)
break
else:
count = count + 1
if count == len(rows):
break
print(sp)
所有可能
from random import randint, sample
import pandas as pd
import itertools
excel = pd.read_excel(r"d:\test.xlsx")
rows=excel.values #[]
# for i in range(20):
# rows.append([randint(1,50) for _ in range(randint(10,30))])
data = range(1,11) #使用45求组合时很慢,这里用10个
sampleCount=5
pers = list(itertools.combinations(data, sampleCount)) #组合
for per in pers:
count=0
for row in rows:
same = list(set(per).intersection(set(row))) # 交集
if len(same) >= 4:
break
else:
count = count + 1
if count== len(rows):
print(sorted(per))
这样的问题,难易程度,完全取决于excel表中的数据。正向一一排除要难很多,逆向要容易些。
逆向过程:
1.最易情况: 如果有一行数据,包括1-45范围内其中的41 个数据,那么就不可能有这样组合。
2.简单情况: 如果有一行数据,包括1-45范围内其中的35 个以上数据,那么这样组合,十分有限。也许有几百、几千种可能,再对它们逐行排除。
3.一般情况:没有一行数据,包括1-45范围内25个以上数据,可能性非常多,逆向同样没效率。只能正向一一排除。
正向过程:
1-45取5个数,有1,221,759情况,建立个百万级的set表。
每一行,读取数据,如果没有4个以上数值,落在1-45范围内,就不用管它。
否则,就要把有冲突的情况,一一记录到本行的set表中,用前面的百万级set表,与它相差,就是真正可能的情况。
这样逐行排除,前面百万级的set表剩下的,就是你要的。
你懂得如何建立这个百万级的set表么?