有一段代码只是用来Parallel.ForEach以某种方式并行化下载,它看起来像这样:
Parallel.ForEach(books)
-Parallel.ForEach(chapters)
--Download(page)
--Save(page)
那些。可以在每个顶级元素上并行启动任意数量的下载,所有内容都在狭窄的通道上下垂,并且您经常会超时。当下载同时开始也几乎同时结束并尝试并行写入磁盘时,情况会更糟。
现在我有一个主要问题 - 如果你这样做更好:
var tasks = books
.SelectMany(b => b.Chapters)
.SelectMany(c => c.Pages)
.Select(p => Task.Run(() => p.Download(); p.Save())
tasks.WaitAll();
在哪种情况下网络和磁盘上的负载将是最佳的?网络还是比较关键的,因为超时不得不重复下载操作。
更新:我通过任务做了一个变体——最多 200 页可以轻松地同时下载 30 次。同时,一半以上处于Blocking状态,下载完成。活动任务的数量仍然没有自动限制,或者什么?最好的方法是什么?
UPDATE2:下载代码:
internal static ImageFile DownloadFile(Uri uri)
{
byte[] result;
WebResponse response;
var file = new ImageFile();
var request = WebRequest.Create(uri);
try
{
response = request.GetResponse();
using (var ms = new MemoryStream())
{
response.GetResponseStream().CopyTo(ms);
result = ms.ToArray();
}
}
catch (System.Exception ex)
{
Log.Exception(ex, string.Format("Загрузка {0} не завершена.", uri));
return file;
}
if (response.ContentLength == result.LongLength)
file.Body = result;
return file;
}


据我了解,本质如下。
下载文件并写入磁盘,异步启动,“释放”CPU 线程,这意味着可以从任务池中启动另一个任务。
鉴于我在那里有相同类型的任务,几乎同时开始下载任意数量的链接,然后它们等待空闲线程写入接收到的字节。只有真正的网络不是为这种情况设计的(比如硬盘),这意味着在最坏的情况下,请求会将用户的通道划分为非常微薄的吞吐速度,并且不会让你下载大部分。
显然,我将不得不手动管理它,限制网络任务的最大数量(我仍然需要想出或找到一种方法来正确计算限制)和与硬盘一起工作的任务(在这里我只是不了解多次异步写入磁盘是否有任何意义)。
UPD:用信号量解决,代码最少,收益最大:
嗯,抽象地说,下载是这样的:
UPD2:事实上,很难找到适用于任何通道宽度的通用图形。200稳定工作,结果在25-30也稳定工作。所以,最后我把它减到了25,万一有什么事更容易打断进程。