如何讓多進程多線程訪問數據庫,而不會選擇相同的數據,這在設計分布式程序的時候經常用到,多臺機器的多個進程,每個進程都有多個線程,每個線程要從數據庫里取數據來處理,要實現不能漏取數據,也不能重復取數據,這里給出答案
創建一個數據表,如下,一個自增列,一個表示rss鏈接地址先放1w條數據再創建一個鎖表,一個字段表示是否已經鎖定的資源,另一個表示已經讀取的rss源的最大id初始化數據下面我們要設計一個存儲過程,讓這個存儲過程每次返回10個rss源,知道返回所有的rss源,要求無遺漏,無重復返回。如下1、如果鎖表里顯示沒有進程正在讀取rss源(IsLock = 0),那么就返回從最大的rss源id往后的10個rss源,否則返回空。
2、用with(READPAST)表示忽略鎖住的行,如果另一個進程正在執行update Rss_RssSourceLock的語句,并且在事務提交前,update語句會鎖住這些要更新的行,而Rss_RssSourceLock表就一行數據,這時候select Rss_RssSourceLock表并且忽略被鎖的行肯定是沒數據的,所以本次存儲過程執行會返回空。
3、begin tran和commit tran保證了即使本次存儲過程出錯,也不會讓Rss_RssSourceLock表處于IsLock = 1的臟數據狀態,如果處于這種狀態,后面的進程執行存儲過程就永遠也返回不了數據了。
4、因為有時候一次選取的記錄可能不夠10條,所以這里用了個臨時表來暫存記錄,再算出來選取的條數,最后更新Rss_RssSourceLock表的MaxSourceId字段。但用臨時表肯定會增加數據庫的壓力,這里不知道用表變量是不是會改善性能,暫時先這樣了。
5、應用里調用這個存儲過程,如果返回了數據,就進行處理,如果沒返回數據,就sleep幾秒才執行,直到返回數據。
CREATE TABLE [dbo].[Rss_RssSources](
[SourceId] [int] IDENTITY(1,1) NOT NULL,
[Link] [varchar](1024) NOT NULL
) ON [PRIMARY]
declare @i int
set @i = 1
while @i <10000
begin
select @i = @i +1
insert into [Rss_RssSources] values(newid())
end
create table Rss_RssSourceLock
(
IsLock bit,
MaxSourceId int
)
insert into Rss_RssSourceLock values (0,0)
CREATE PROCEDURE [dbo].[USP_GetRssSources]
AS
BEGIN
if exists(select * from Rss_RssSourceLock with(READPAST) where IsLock = 0)
begin
declare @select_count int
begin tran
update Rss_RssSourceLock set IsLock = 1
if object_id('tempdb..#t') is not null
drop table #t
select top 10 a.* into #t from [Rss_RssSources] as a
inner join Rss_RssSourceLock as b
on a.SourceId > b.MaxSourceId
order by a.[SourceId]
select @select_count = count(*) from #t
update Rss_RssSourceLock set IsLock = 0,MaxSourceId = MaxSourceId + @select_count
select * from #t
commit tran
end
END